Algunas características nuevas que queremos ver con el lanzamiento de GPT-5

El modelo GPT-4 de OpenAI es, con diferencia, el mejor modelo de IA generativa disponible actualmente en el mercado, pero eso no significa que no estemos mirando hacia el futuro. Dado que el CEO de OpenAI, Sam Altman, deja caer periódicamente pistas sobre la inminente llegada de GPT-5, parece probable que pronto veamos un modelo de IA nuevo, actualizado y más avanzado.

Al menos eso es lo que esperamos. No hay una fecha de lanzamiento establecida para GPT-5, y la mayor parte de lo que creemos saber proviene de reunir otra información e intentar conectar los puntos. Verificar Razones para empezar a utilizar Claude 3 en lugar de ChatGPT.

Algunas características nuevas que queremos ver con el lanzamiento de GPT-5: Inteligencia artificial

Sin embargo, independientemente de la fecha de entrega, hay algunas características clave que nos gustaría ver cuando se lance GPT-5.

¿Qué es el GPT-5 de OpenAI?

El modelo GPT-5 es el posible sucesor del modelo de IA GPT-4 de OpenAI, que se espera que sea el modelo generativo más potente del mercado. Aunque actualmente no hay una fecha de lanzamiento oficial para GPT-5, hay indicios de que podría lanzarse ya en el verano de 2024. Se conocen muy pocos detalles sobre el modelo en este momento, pero se pueden decir muchas cosas a su alrededor. con confianza. Para confirmacion:

  1. OpenAI ha presentado una marca comercial para el nombre ante la Oficina de... Patentes y marcas En los Estados Unidos.
  2. Varios ejecutivos de OpenAI han discutido o insinuado las capacidades potenciales del modelo.
  3. Sam Altman, director ejecutivo de OpenAI, mencionó el modelo repetidamente durante una entrevista en YouTube En marzo de 2024 con Lex Friedman.

Todo esto apunta a un hecho interesante: ¡GPT-5 está por llegar! Sin embargo, muchas cosas son sólo especulaciones en este momento. Pero hay algunas características que esperamos ver y estamos bastante seguros de ver en este modelo. Éstos son algunos de ellos:

1. Admite más multimedia

Algunas características nuevas que queremos ver con el lanzamiento de GPT-5: Inteligencia artificial

Una de las mejoras más interesantes de la familia GPT de modelos de IA es la multimodalidad. Para mayor claridad, la multimodalidad es la capacidad de un modelo de IA para procesar más que solo entrada de texto, sino también otros tipos de entrada como imágenes, audio y video. La multimodalidad será un estándar de avance importante para la familia de modelos GPT en el futuro.

Dado que GPT-4 ya es experto en el manejo de entrada y salida de imágenes, las mejoras que cubren el procesamiento de audio y video son el próximo avance para OpenAI, y GPT-5 es un buen lugar para comenzar. Google ya avanza seriamente en este tipo de multimedia con un modelo IA Géminis Su propio. Sería inusual que OpenAI no respondiera. Pero, por supuesto, no confíe en nuestra palabra. En su podcast Desconfundirme [Versión PDF], Bill Gates preguntó a Sam Altman, director ejecutivo de OpenAI, qué hitos importantes espera para la serie GPT en los próximos dos años. ¿Su primera respuesta? Fue procesamiento de video.

Entonces, para GPT-5, esperamos poder manejar videos: cargar videos como indicaciones, crear videos sobre la marcha, editar videos con indicaciones de texto, extraer clips de videos y encontrar escenas específicas de archivos de video grandes. Esperamos poder hacer cosas similares con archivos de audio. Es una gran pregunta, sí. Pero dada la rapidez con la que está evolucionando la IA, es una expectativa muy razonable.

2. Ventana de contexto más grande y eficiente

Algunas características nuevas que queremos ver con el lanzamiento de GPT-5: Inteligencia artificial

A pesar de ser uno de los modelos de IA más avanzados del mercado, la familia de modelos de IA GPT tiene una de las ventanas de contexto más pequeñas. Por ejemplo, Claude 3 de Anthropic presenta una ventana contextual con 200.000 tokens, mientras que Gemini de Google puede manejar la asombrosa cifra de 1.000.000 de tokens (128.000 para uso estándar). Por el contrario, GPT-4 tiene una ventana de contexto relativamente más pequeña de 128.000 tokens, con aproximadamente 32.000 tokens o menos disponibles de manera realista para su uso en interfaces como ChatGPT.

Con la aparición del multimedia avanzado, mejorar la ventana contextual se ha vuelto casi inevitable. Un aumento de un factor de dos o cuatro podría ser suficiente, pero esperamos ver algo así como un factor de diez. Esto permitirá que GPT-5 procese más información de una manera más eficiente. Ahora bien, una ventana de contexto más grande no siempre significa mejor. Entonces, en lugar de simplemente aumentar la ventana de contexto, nos gustaría ver un aumento en la eficiencia del procesamiento de contexto.

Verá, un modelo puede tener una ventana de contexto de 1.000.000 de tokens (capacidad de aproximadamente 700.000 palabras) pero no logra producir un resumen completo cuando se le pide que resuma un libro de 500.000 palabras porque no puede procesar adecuadamente todo el contexto a pesar de tener la capacidad de hacerlo. esto en teoría. El hecho de que puedas leer un libro de 500.000 palabras no significa que puedas recordar o procesar todo lo que contiene razonablemente bien. Verificar Por qué la ventana de contexto de 1.5 millón de tokens en Gemini XNUMX cambia las reglas del juego.

3. servidores proxy GPT

Algunas características nuevas que queremos ver con el lanzamiento de GPT-5: Inteligencia artificial

Quizás una de las posibilidades más interesantes para el lanzamiento de GPT-5 es el debut de los servidores proxy GPT. Si bien el término "cambio de juego" probablemente se haya usado en exceso en la IA, la incorporación de agentes GPT cambiará las reglas del juego en todos los sentidos de la palabra. Pero ¿qué tan grande será este cambio potencial?

Actualmente, los modelos de IA como GPT-4 pueden ayudarle a completar la tarea. Puede escribir un correo electrónico, contar un chiste, resolver un problema de matemáticas o redactar una publicación de blog para usted. Sin embargo, sólo puede realizar esta tarea específica y no puede completar un conjunto de tareas relacionadas que pueden ser necesarias para completar su trabajo.

Digamos que eres un desarrollador web. Como parte de su trabajo, se espera que usted haga muchas cosas: diseñar, escribir código, solucionar problemas y mucho más. Actualmente, solo puedes delegar una parte de estas tareas a los modelos de IA a la vez. Tal vez podría pedirle a un modelo GPT-4 que escriba código para configurar la página de inicio y luego hacer que lo haga para la página de contacto, luego para la página Acerca de, etc. Deberá completar estas tareas con frecuencia. Hay tareas que los modelos no pueden completar.

Este proceso iterativo de motivar a los modelos de IA para que realicen subtareas específicas requiere mucho tiempo y es ineficiente. En este escenario, usted, el desarrollador web, es el agente humano responsable de coordinar y motivar el modelo de IA con una tarea a la vez hasta que complete un conjunto completo de tareas relacionadas.

Los agentes de GPT prometen robots especializados coordinados por GPT-5 y, con suerte, capaces de autodirigir y manejar de forma autónoma todos los subconjuntos de una tarea compleja. Centrarse en la “automotivación” y la “autonomía”.

Entonces, si GPT-5 viene con agentes GPT, puede pedirle que "cree un sitio web para el portafolio de Maxwell Timothy" en lugar de simplemente "escribir código para la página de inicio". En teoría, GPT-5 podría iniciar indicaciones autónomas llamando a agentes expertos de IA para que se encarguen de las diversas subtareas necesarias para crear un sitio web. Podría llamar a un GPT para navegar por la web en busca de información sobre Maxwell Timothy, otro agente para escribir código para diferentes páginas, otro agente para crear y mejorar imágenes e incluso otro agente de IA para publicar el sitio web, todo sin requerir intervención humana frecuente a través de indicaciones. Verificar ¿Vale la pena usar Auto-GPT sin GPT-4?

4. Menos alucinaciones

Aunque OpenAI ha recorrido un largo camino para abordar las alucinaciones en sus modelos de IA, la verdadera prueba de GPT-5 será su capacidad para abordar el persistente problema de las alucinaciones, que ha obstaculizado la adopción generalizada de la IA debido a los altos riesgos asociados. , especialmente en... Seguridad crítica como la atención sanitaria, la aviación y la ciberseguridad. Todas estas son áreas que se beneficiarían enormemente de una intensa participación de la IA, pero que actualmente evitan una adopción significativa.

Para mayor claridad, las alucinaciones en este contexto se refieren a situaciones en las que un modelo de IA crea y presenta información que parece plausible pero que está completamente fabricada con un alto grado de confianza. Verificar Métodos para la prevención de alucinaciones en modelos de inteligencia artificial.

Imagine un escenario en el que GPT-4 se integra en un sistema de diagnóstico para analizar los síntomas del paciente y los informes médicos. Las alucinaciones pueden llevar a la IA a proporcionar con confianza un diagnóstico incorrecto o recomendar un tratamiento potencialmente peligroso basado en hechos imaginados y lógica falsa. Las consecuencias de tal error en el campo médico pueden ser catastróficas.

Se aplican reservas similares a otras áreas de gran preocupación, como la aviación, la energía nuclear, las operaciones marítimas y la ciberseguridad. No esperamos que GPT-5 resuelva completamente el problema de las alucinaciones, pero sí esperamos que reduzca significativamente la probabilidad de que ocurran tales incidentes.

Mientras esperamos con impaciencia el lanzamiento oficial de este tan esperado modelo de IA, una cosa es segura: GPT-5 tiene el potencial de redefinir los límites de lo que es posible con la IA, presagiando una nueva era de colaboración e innovación entre humanos y máquinas. Ahora puedes ver Los mejores generadores de reclamaciones inteligentes para cualquier modelo impulsado por IA.

Ir al botón superior