Quelques nouvelles fonctionnalités que nous souhaitons voir avec le lancement de GPT-5

Le modèle GPT-4 d'OpenAI est de loin le meilleur modèle d'IA générative actuellement disponible sur le marché, mais cela ne veut pas dire que nous ne regardons pas vers l'avenir. Alors que le PDG d'OpenAI, Sam Altman, fait régulièrement allusion à l'arrivée imminente de GPT-5, il semble probable que nous verrons bientôt un nouveau modèle d'IA mis à jour et plus avancé.

Du moins, c'est ce que nous espérons. Il n’y a pas de date de sortie définie pour GPT-5, et la plupart de ce que nous pensons savoir vient de la collecte d’autres informations et de la tentative de relier les points entre eux. Vérifier Raisons de commencer à utiliser Claude 3 au lieu de ChatGPT.

Quelques nouvelles fonctionnalités que nous souhaitons voir avec le lancement de GPT-5 - Intelligence Artificielle

Cependant, quelle que soit la date de livraison, nous aimerions voir certaines fonctionnalités clés lors du lancement de GPT-5.

Qu'est-ce que le GPT-5 d'OpenAI ?

Le modèle GPT-5 est le successeur potentiel du modèle d'IA GPT-4 d'OpenAI, qui devrait être le modèle génératif le plus puissant du marché. Bien qu'il n'y ait actuellement aucune date de sortie officielle pour GPT-5, il y a des indications qu'il pourrait sortir dès l'été 2024. Très peu de détails sont connus sur le modèle pour le moment, mais beaucoup de choses peuvent être dites autour de lui. avec confidence. Pour confirmation:

OpenAI a déposé une marque pour le nom auprès de l'Office of... Brevets et marques Aux Etats-Unis.
Plusieurs dirigeants d'OpenAI ont discuté ou fait allusion aux capacités potentielles du modèle.
Sam Altman, PDG d'OpenAI, a mentionné le modèle à plusieurs reprises lors d'une interview sur YouTube En mars 2024 avec Lex Friedman.

Tout cela indique un fait passionnant : GPT-5 arrive ! Cependant, à ce stade, beaucoup de choses ne sont que des spéculations. Mais il y a certaines fonctionnalités que nous espérons voir et que nous sommes assez sûrs de voir dans ce modèle. En voici quelques uns:

1. Prend en charge plus de multimédia

Quelques nouvelles fonctionnalités que nous souhaitons voir avec le lancement de GPT-5 - Intelligence Artificielle

L’une des améliorations les plus intéressantes apportées à la famille de modèles d’IA GPT est la multimodalité. Pour plus de clarté, la multimodalité est la capacité d'un modèle d'IA à traiter non seulement la saisie de texte, mais également d'autres types de saisie tels que les images, l'audio et la vidéo. La multimodalité constituera à l’avenir une norme d’avancement importante pour la famille de modèles GPT.

GPT-4 étant déjà capable de gérer l'entrée et la sortie d'images, les améliorations concernant le traitement audio et vidéo constituent la prochaine avancée pour OpenAI, et GPT-5 est un bon point de départ. Google fait déjà de sérieux progrès dans ce type de multimédia avec un modèle IA Gémeaux Sa propre. Il serait inhabituel qu’OpenAI ne réponde pas. Mais bien sûr, ne nous croyez pas sur parole. Sur son podcast Ne me confondez pas [Version PDF], Bill Gates a demandé à Sam Altman, PDG d'OpenAI, quelles sont les étapes majeures qu'il attend pour la série GPT au cours des deux prochaines années. Sa première réponse ? C'était du traitement vidéo.

Ainsi, pour GPT-5, nous espérons pouvoir gérer des vidéos : télécharger des vidéos sous forme d'invites, créer des vidéos en déplacement, éditer des vidéos avec des invites textuelles, extraire des clips de vidéos et rechercher des scènes spécifiques à partir de fichiers vidéo volumineux. Nous espérons pouvoir faire des choses similaires avec des fichiers audio. C'est une grande demande, oui. Mais étant donné la rapidité avec laquelle l’IA évolue, c’est une attente très raisonnable.

2. Fenêtre contextuelle plus grande et plus efficace

Quelques nouvelles fonctionnalités que nous souhaitons voir avec le lancement de GPT-5 - Intelligence Artificielle

Bien qu'elle soit l'un des modèles d'IA les plus avancés du marché, la famille de modèles d'IA GPT possède l'une des plus petites fenêtres de contexte. Par exemple, Claude 3 d'Anthropic comporte une fenêtre contextuelle avec 200.000 1.000.000 jetons, tandis que Gemini de Google peut gérer un nombre impressionnant de 128.000 4 128.000 de jetons (32.000 XNUMX pour une utilisation standard). En revanche, GPT-XNUMX a une fenêtre contextuelle relativement plus petite de XNUMX XNUMX jetons, avec environ XNUMX XNUMX jetons ou moins disponibles de manière réaliste pour une utilisation sur des interfaces telles que ChatGPT.

Avec l’arrivée du multimédia avancé, l’amélioration de la fenêtre contextuelle est devenue presque inévitable. Une augmentation d'un facteur de deux ou quatre pourrait suffire, mais nous espérons voir quelque chose comme un facteur de dix. Cela permettra à GPT-5 de traiter plus d'informations de manière plus efficace. Or, une plus grande fenêtre contextuelle ne signifie pas toujours mieux. Ainsi, au lieu de simplement augmenter la fenêtre contextuelle, nous aimerions voir une augmentation de l’efficacité du traitement contextuel.

Vous voyez, un modèle peut avoir une fenêtre contextuelle de 1.000.000 700.000 500.000 de jetons (capacité d'environ 500.000 XNUMX mots) mais ne parvient pas à produire un résumé complet lorsqu'on lui demande de résumer un livre de XNUMX XNUMX mots, car il ne peut pas traiter correctement l'ensemble du contexte malgré sa capacité à le faire. ceci en théorie. Ce n’est pas parce que vous pouvez lire un livre de XNUMX XNUMX mots que vous pouvez vous souvenir ou traiter judicieusement tout ce qu’il contient. Vérifier Pourquoi la fenêtre contextuelle d'un million de jetons dans Gemini 1.5 change la donne.

3. Procurations GPT

Quelques nouvelles fonctionnalités que nous souhaitons voir avec le lancement de GPT-5 - Intelligence Artificielle

L’une des possibilités les plus intéressantes pour une version GPT-5 est peut-être l’arrivée des proxys GPT. Même si le terme « changeur de jeu » a probablement été galvaudé dans le domaine de l'IA, l'ajout d'agents GPT changera la donne dans tous les sens du terme. Mais quelle sera l’ampleur de ce changement potentiel ?

Actuellement, les modèles d'IA comme GPT-4 peuvent vous aider à accomplir cette tâche. Elle peut écrire un e-mail, faire une blague, résoudre un problème de mathématiques ou rédiger un article de blog pour vous. Cependant, il ne peut effectuer que cette tâche spécifique et ne peut pas effectuer un ensemble de tâches connexes qui peuvent être nécessaires pour mener à bien votre travail.

Disons que vous êtes un développeur Web. Dans le cadre de votre travail, vous devrez effectuer de nombreuses tâches : concevoir, écrire du code, dépanner et bien plus encore. Actuellement, vous ne pouvez déléguer qu’une partie de ces tâches à la fois aux modèles d’IA. Vous pourriez peut-être demander à un modèle GPT-4 d'écrire du code pour configurer la page d'accueil, puis lui demander de le faire pour la page de contact, puis pour la page À propos, etc. Vous devrez effectuer ces tâches fréquemment. Il existe des tâches que les modèles ne peuvent pas accomplir.

Ce processus itératif consistant à motiver les modèles d’IA à effectuer des sous-tâches spécifiques prend du temps et est inefficace. Dans ce scénario, vous – le développeur Web – êtes l'agent humain chargé de coordonner et de motiver le modèle d'IA avec une tâche à la fois jusqu'à ce qu'il accomplisse un ensemble complet de tâches connexes.

Les agents GPT promettent des robots spécialisés coordonnés par GPT-5 et, espérons-le, capables de s'auto-diriger et de gérer de manière autonome tous les sous-ensembles d'une tâche complexe. Focus sur la « motivation personnelle » et « l’autonomie ».

Ainsi, si GPT-5 est livré avec des agents GPT, vous pouvez lui demander de « créer un site Web pour le portefeuille de Maxwell Timothy » au lieu de simplement « écrire du code pour la page d'accueil ». GPT-5 serait alors théoriquement capable de lancer des invites autonomes en faisant appel à des agents experts en IA pour gérer les différentes sous-tâches nécessaires à la création d'un site Web. Il peut appeler un GPT pour parcourir le Web à la recherche d'informations sur Maxwell Timothy, un autre agent pour écrire du code pour différentes pages, un autre agent pour créer et améliorer des images, et même un autre agent IA pour publier le site Web, le tout sans nécessiter une intervention humaine fréquente via instructions. Vérifier Vaut-il la peine d'utiliser Auto-GPT sans GPT-4 ?

4. Moins d'hallucinations

Bien qu'OpenAI ait parcouru un long chemin dans la gestion des hallucinations dans ses modèles d'IA, le véritable test de GPT-5 sera sa capacité à résoudre le problème persistant des hallucinations, qui a entravé l'adoption généralisée de l'IA en raison des risques élevés qui y sont associés. , en particulier dans... Les domaines critiques pour la sécurité tels que les soins de santé, l'aviation et la cybersécurité. Ce sont tous des domaines qui bénéficieraient grandement d’un engagement intense en matière d’IA, mais qui évitent actuellement toute adoption significative.

# Sur le "problème des hallucinations"

J'ai toujours un peu de mal à répondre aux questions posées sur le "problème d'hallucination" dans les LLM. Parce que, dans un certain sens, les hallucinations sont tout ce que font les LLM. Ce sont des machines à rêves.

Nous dirigeons leurs rêves avec des invites. Les invites démarrent le rêve, et en fonction du…

- Andrej Karpathy (@karpathy) 9 décembre 2023

Pour plus de clarté, les hallucinations dans ce contexte font référence à des situations dans lesquelles un modèle d’IA crée et présente des informations qui semblent plausibles mais qui sont entièrement fabriquées avec un degré élevé de confiance. Vérifier Méthodes de prévention des hallucinations dans les modèles d'intelligence artificielle.

Imaginez un scénario dans lequel GPT-4 est intégré à un système de diagnostic pour analyser les symptômes des patients et les rapports médicaux. Les hallucinations peuvent amener l’IA à fournir en toute confiance un diagnostic incorrect ou à recommander un traitement potentiellement dangereux basé sur des faits imaginaires et une fausse logique. Les conséquences d’une telle erreur dans le domaine médical peuvent être catastrophiques.

Des réserves similaires s’appliquent à d’autres domaines très préoccupants, tels que l’aviation, l’énergie nucléaire, les opérations maritimes et la cybersécurité. Nous ne nous attendons pas à ce que GPT-5 résolve complètement le problème des hallucinations, mais nous espérons qu’il réduira considérablement la probabilité que de tels incidents se produisent.

Alors que nous attendons avec impatience la sortie officielle de ce modèle d’IA tant attendu, une chose est sûre : GPT-5 a le potentiel de redéfinir les limites de ce qui est possible avec l’IA, annonçant une nouvelle ère de collaboration et d’innovation homme-machine. Vous pouvez maintenant visualiser Les meilleurs générateurs de réclamations intelligents pour tout formulaire alimenté par l'IA.

Qu'est-ce que le GPT-5 d'OpenAI ?

1. Prend en charge plus de multimédia

2. Fenêtre contextuelle plus grande et plus efficace

3. Procurations GPT

4. Moins d'hallucinations

Les meilleurs services de streaming de contenu 4K

Qu'est-ce que Google One ? Raisons pour lesquelles nous pensons que vous voudrez l'utiliser

Articles connexes