Pourquoi la fenêtre contextuelle d'un million de jetons dans Gemini 1.5 change la donne

Le domaine du traitement du langage naturel (NLP) a connu une formidable révolution ces dernières années, avec l'émergence de grands modèles de langage (LLM) qui offrent des capacités exceptionnelles de compréhension et de traitement du langage humain. Gemini 1.5 est l'un des derniers modèles en date, offrant d'énormes possibilités contextuelles. Le modèle Google Gemini 1.5 est désormais doté d'une fenêtre contextuelle massive d'un million d'icônes uniques, éclipsant ses concurrents directs comme ChatGPT, Claude et d'autres chatbots alimentés par l'IA.

La fenêtre contextuelle d'un million de jetons dans Gemini 1.5 change la donne, permettant au modèle d'avoir une compréhension plus profonde et plus précise du langage. Avec une plus grande capacité contextuelle, le modèle peut analyser davantage de mots et d'expressions entourant un mot ou une phrase donnée, ce qui l'aide à mieux en déduire le sens. Vérifier L'IA Gemini de Google arrive : se démarque-t-elle plus que ChatGPT dans le monde de l'IA ?

Pourquoi la fenêtre contextuelle d'un million de jetons dans Gemini 1.5 change la donne - Intelligence Artificielle

Qu'est-ce que la fenêtre contextuelle ?

Lorsqu'ils répondent à vos requêtes, comme expliquer un concept ou résumer un texte, les modèles d'IA ont des limites quant à la quantité de données qu'ils peuvent prendre en compte pour générer une réponse. La taille maximale du texte pouvant être prise en compte est appelée fenêtre contextuelle.

Voici une autre façon d’envisager ce concept. Supposons que vous alliez dans une épicerie pour acheter des légumes et des articles ménagers sans votre liste d'épicerie. Le nombre maximum de produits d'épicerie dont vous vous souvenez lorsque vous faites vos courses est la fenêtre contextuelle. Plus vous vous souvenez de courses, meilleures sont vos chances de ne pas gâcher vos projets d'achats désignés. De même, plus la fenêtre contextuelle d'un modèle d'IA est grande, plus le modèle est susceptible de mémoriser tout ce dont il a besoin pour vous fournir les meilleurs résultats.

Au moment de la rédaction de cet article, la fenêtre contextuelle Claude 2.1 d'Anthropic avec 200 4 jetons est la plus grande fenêtre contextuelle de tous les modèles d'IA accessibles au public. Il est suivi de GPT-128 Turbo avec une fenêtre contextuelle de 1.5 XNUMX jetons. Google Gemini XNUMX propose un million de fenêtres contextuelles, quatre fois plus grandes que tout ce qui existe sur le marché. Cela nous amène à la grande question : qu'y a-t-il de spécial dans une fenêtre contextuelle composée d'un million d'icônes distinctes ? Vérifier Quelle est la limite de jetons ChatGPT et pouvez-vous la contourner ?

Pourquoi la fenêtre contextuelle dans Gemini 1.5 est-elle si importante ?

Pourquoi la fenêtre contextuelle d'un million de jetons dans Gemini 1.5 change la donne - Intelligence Artificielle

Pour le dire plus en détail, la fenêtre contextuelle de 200 150 mots de Claude AI lui permet de prendre en charge un livre d'environ 1.5 700000 mots et d'y apporter des réponses. C'est vraiment énorme. Mais Google Gemini XNUMX pourra accueillir XNUMX XNUMX mots à la fois !

Lorsque vous introduisez un gros bloc de texte dans les invites d'un chatbot IA comme ChatGPT ou Gemini, il essaie d'absorber autant de texte que possible, mais la quantité qu'il peut absorber dépend de sa fenêtre contextuelle. Ainsi, si vous avez une conversation de 100 28 mots sur un modèle qui ne peut gérer que 100 XNUMX mots, et que vous commencez ensuite à lui poser des questions qui nécessitent qu'il connaisse parfaitement l'ensemble des XNUMX XNUMX mots de la conversation, vous le préparez à l'échec. .

Imaginez que vous regardiez seulement 20 minutes d'un film d'une heure, mais qu'on vous demande d'expliquer l'intégralité du film. Quelle sera la qualité de vos résultats ? Soit refuser de répondre, soit simplement inventer des choses, ce qui est exactement ce que fera un chatbot IA, ce qui entraînera... Hallucinations d'intelligence artificielle.

Maintenant, si vous pensez que vous n’avez jamais eu à saisir 100 XNUMX mots dans un chatbot, ce n’est pas tout ce qui compte. La fenêtre contextuelle va au-delà du texte transmis au modèle d'IA en une seule invite. Les modèles d'IA prennent en compte l'intégralité de la conversation que vous avez au cours d'une session de chat pour garantir que leurs réponses sont aussi pertinentes que possible.

Ainsi, même si vous ne fournissez pas au modèle un livre de 100 XNUMX mots, vos échanges et les réponses qu'ils donnent s'ajoutent au calcul de la fenêtre contextuelle. Vous vous demandez pourquoi ChatGPT ou Gemini de Google continue d'oublier les choses que vous lui avez dites plus tôt dans la conversation ? Il a peut-être manqué d'espace dans la fenêtre de contexte et a commencé à oublier des choses.

La fenêtre contextuelle plus grande est particulièrement importante pour les tâches qui nécessitent une compréhension approfondie du contexte, telles que résumer de longs articles, répondre à des questions complexes ou maintenir une narration cohérente dans le texte généré. Voulez-vous écrire un roman de 50 XNUMX mots dont la narration est cohérente d’un bout à l’autre ? Vous voulez un modèle capable de « regarder » et de répondre aux questions dans une vidéo d’une heure ? Vous avez besoin d'une plus grande fenêtre contextuelle !

En bref, la fenêtre contextuelle plus grande de Gemini 1.5 pourrait améliorer considérablement les performances de son modèle d'IA, en réduisant les hallucinations et en augmentant considérablement la précision et la capacité de mieux suivre les instructions.

Gemini 1.5 sera-t-il à la hauteur des attentes ?

Pourquoi la fenêtre contextuelle d'un million de jetons dans Gemini 1.5 change la donne - Intelligence Artificielle

Si tout se passe comme prévu, Gemini 1.5 surpassera probablement les meilleurs modèles d'IA du marché. Cependant, étant donné les nombreux échecs de Google dans la construction d'un modèle d'IA stable, il est important d'être prudent. Augmenter la fenêtre contextuelle du formulaire à lui seul n'améliore pas automatiquement le formulaire.

J'utilise la fenêtre contextuelle 2.1k Claude 200 depuis plusieurs mois depuis sa sortie, et une chose était claire pour moi : une fenêtre contextuelle plus grande peut vraiment améliorer la sensibilité au contexte, mais des problèmes avec les performances du modèle sous-jacent peuvent rendre problématique un contexte plus large. pour ça.

Google Gemini 1.5 va-t-il changer la donne ? Les réseaux sociaux regorgent actuellement de critiques élogieuses sur Gemini 1.5 de la part des utilisateurs à accès anticipé. Cependant, la plupart des avis cinq étoiles proviennent de cas d’utilisation précipités ou simplistes. Un bon endroit pour vérifier les performances du Gemini 1.5 dans la nature est le rapport technique de Google Gémeaux 1.5 [PDF]. Le rapport montre que même lors des « tests contrôlés », le modèle n’a pas pu récupérer tous les détails des documents dans la taille de sa fenêtre contextuelle.

Une fenêtre contextuelle d'un million de jetons constitue déjà une réussite technique impressionnante, mais sans la possibilité de récupérer de manière fiable les détails du document, une fenêtre contextuelle plus grande n'a que peu de valeur pratique et peut devenir la cause d'une diminution de la précision et d'hallucinations supplémentaires. Vous pouvez maintenant visualiser Au-delà de ChatGPT : une vision pour l’avenir des chatbots et de l’IA générative ?

source
Aller au bouton supérieur