Facteurs à prendre en compte lors du test de précision des chatbots IA

L'IA a parcouru un long chemin depuis la production de résultats inappropriés et incohérents pour devenir plus sophistiquée. Les chatbots modernes utilisent des modèles de langage avancés qui répondent à des questions de connaissances générales, rédigent de longs articles et écrivent du code, entre autres tâches complexes.

Malgré ces avancées, notez que même les systèmes les plus avancés ont des limites. L'intelligence artificielle fait encore des erreurs. Pour déterminer quels chatbots sont les moins susceptibles d'halluciner, vous pouvez tester leur précision en fonction de ces facteurs. Vérifier La plupart des chatbots basés sur l'IA pour parler et s'amuser.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

1. Arithmétique mathématique

Vous devriez commencer à ajouter des équations mathématiques via des chatbots. Il testera la capacité du modèle à analyser des problèmes de mots, à traduire des concepts mathématiques et à appliquer des fonctions correctes. Seuls quelques modèles montrent la fiabilité du compte. En fait, l'un des pires problèmes de ChatGPT au cours des premiers mois était la terrible compréhension des mathématiques.

L'image ci-dessous montre les statistiques de base en échec de ChatGPT.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

ChatGPT a montré une amélioration après le déploiement Mises à jour OpenAI de mai 2023. Mais étant donné des ensembles de données limités, vous rencontrerez toujours des problèmes avec les équations mathématiques intermédiaires à avancées.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

Pendant ce temps, Bing Chat et Google Bard montrent une meilleure approche de l'arithmétique. Il exécute des requêtes via ses moteurs de recherche, ce qui lui permet d'extraire des fonctions et des détails de réponses.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

Astuce: Essayez de paraphraser les problèmes mathématiques. évitez les phrases interminables et remplacez les verbes faibles; Sinon, les chatbots pourraient mal comprendre vos questions.

2. La compréhension

Les modèles d'IA modernes peuvent effectuer plusieurs tâches. Les LLM avancés lui permettent de conserver les instructions précédentes et de répondre aux invites par section, tandis que les systèmes plus anciens traitent les commandes individuelles. Par exemple, Siri répond à une question à la fois.

Nourrissez les chatbots de trois à cinq tâches à la fois pour tester leur capacité à analyser les réclamations complexes. Les modèles moins sophistiqués ne peuvent pas traiter autant d'informations. L'image ci-dessous montre que HuggingChat se bloque sur une invite en trois étapes - il s'arrête à la première étape et s'écarte du sujet.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

Les dernières lignes de HuggingChat sont vraiment incohérentes.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

ChatGPT complète rapidement la même invite, ce qui donne des réponses intelligentes et sans erreur à chaque étape.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

Bing Chat fournit une réponse condensée aux trois étapes. Ses restrictions strictes interdisent les sorties inutilement longues qui gaspillent la puissance de traitement.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

3. Actualité des informations

Étant donné que la formation à l'IA coûte d'énormes ressources, la plupart des développeurs limitent les ensembles de données à des intervalles spécifiques. Prenez ChatGPT comme exemple. Il a une date d'échéance connue de septembre 2021 - vous ne pouvez pas demander de mises à jour météorologiques, de bulletins d'information ou de développements récents. Voici ChatGPT et il dit qu'il ne peut pas accéder aux informations en temps réel.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

Barde a accès à Internet. Il extrait les données des SERP de Google, ce qui vous permet de poser un ensemble plus large de questions, par exemple des événements récents, des actualités et des prévisions.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

De même, Bing Chat extrait des informations en temps réel de son moteur de recherche.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

Bing Chat et Bard fournissent tous deux des informations actualisées et en temps opportun, mais ce dernier fournit des réponses plus détaillées. Bing fournit les données telles quelles. Vous remarquerez que les résultats correspondent souvent au libellé et au ton des sources auxquelles ils sont liés textuellement. Vérifier Comparaison Bard, ChatGPT et Offline Alpaca : quel est le meilleur paradigme de grande langue ?

4. Pertinence

Les chatbots doivent fournir un résultat pertinent et attendu. Vous devez tenir compte de la signification littérale et contextuelle de vos revendications lorsque vous fournissez la réponse correspondante. Prenez cette conversation comme exemple. Le personnage a besoin d'un nouveau téléphone, mais il ne dispose que de 1000 XNUMX $. ChatGPT ne dépasse pas son budget.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

Lors du test d'ajustement, essayez de rédiger de longues instructions. Les chatbots moins sophistiqués ont tendance à dévier lorsqu'ils reçoivent des instructions confuses. Par exemple, HuggingChat peut composer des histoires fictives. Mais cela peut s'écarter du sujet principal si vous définissez trop de règles et de lignes directrices.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

5. Mémoire contextuelle

La mémoire contextuelle aide l'IA à produire une sortie précise et fiable. Au lieu de prendre vos questions au pied de la lettre, il regroupe les détails que vous avez mentionnés. Prenez cette conversation comme exemple. Bing Chat relie deux messages distincts pour former une réponse utile et concise.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

De même, la mémoire contextuelle permet aux chatbots de se souvenir des instructions. Cette image montre ChatGPT simulant la façon dont un personnage fictif parle pendant de nombreux chats.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

Testez vous-même cette fonctionnalité en vous référant constamment aux instructions précédentes. Donnez aux chatbots différentes informations, puis forcez-les à s'en souvenir dans les réponses suivantes.

Note: La mémoire contextuelle est limitée. Bing Chat démarre de nouvelles conversations tous les 20 tours, tandis que ChatGPT ne peut pas gérer les réclamations de plus de 3000 jetons. Vérifier Quelle est la limite de jetons ChatGPT et pouvez-vous la contourner ?

6. Restrictions de sécurité

L'intelligence artificielle ne fonctionne pas toujours comme prévu. Une formation incorrecte peut amener les techniques d'apprentissage automatique à commettre diverses erreurs, allant de simples erreurs arithmétiques à des commentaires problématiques. Prenez Microsoft Tay comme exemple. Les utilisateurs de Twitter ont profité du modèle d'apprentissage non supervisé et l'ont conditionné en prononçant des insultes raciales.

Heureusement, les entreprises technologiques mondiales ont appris de l'énorme erreur de Microsoft. Bien que l'apprentissage non supervisé soit rentable et pratique, il laisse également les systèmes d'IA ouverts à la tromperie. Ainsi, les développeurs s'appuient principalement sur l'apprentissage supervisé de nos jours. Les chatbots comme ChatGPT apprennent toujours des conversations, mais les formateurs filtrent d'abord les informations.

Attendez-vous à des conseils différents de la part des entreprises d'IA. Les restrictions moins strictes de ChatGPT s'adaptent à un plus large éventail de tâches, mais il est vulnérable à l'exploitation. Pendant ce temps, Bing Chat suit des limites plus strictes. Bien qu'ils aident à combattre les tentatives d'exploitation, ils entravent également la fonctionnalité. Bing ferme automatiquement les conversations potentiellement malveillantes. Vérifier ChatGPT apprend-il des conversations des utilisateurs ?

7. Biais de l'IA

L'IA est intrinsèquement neutre. Son manque de préférences et d'émotions le rend incapable de se forger une opinion - c'est juste une façon de présenter les informations que vous connaissez. Voici comment ChatGPT répond aux sujets personnels.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

Malgré cette neutralité, des biais d'IA émergent encore. Ils découlent des modèles, des ensembles de données, des algorithmes et des modèles que les développeurs utilisent. L'IA peut être neutre, mais les humains ne le sont pas.

Par exemple, une organisation appelée Brookings Institution Ce ChatGPT montre des préjugés politiques de gauche. OpenAI nie bien sûr les allégations. Mais pour éviter des problèmes similaires avec les modèles plus récents, ChatGPT évite complètement les sorties opiniâtres.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

De même, Bing Chat évite les sujets sensibles et subjectifs.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

L'IA peut être évaluée sur la partialité en posant des questions ouvertes basées sur l'opinion. Parlez de sujets qui n'ont pas de bonne ou de mauvaise réponse - les chatbots moins sophistiqués sont plus susceptibles d'afficher des préférences infondées envers certains groupes. Vérifier Comment les chatbots influencent la création de contenu.

8. Références

L'IA vérifie rarement les faits. Il extrait simplement les informations de ses ensembles de données et les paraphrase à travers des modèles de langage. Malheureusement, l'entraînement limité fait halluciner l'IA. Vous pouvez toujours utiliser des outils d'IA générative pour effectuer des recherches, mais assurez-vous de vérifier les faits vous-même. Prenez la sortie comme une directive.

Bing Chat simplifie la vérification des faits en répertoriant ses références après chaque sortie.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

Bard AI ne répertorie pas ses sources mais crée des explications détaillées et à jour en exécutant des requêtes de recherche Google. Vous obtiendrez les principaux points des SERP.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

ChatGPT est sujet à des inexactitudes. L'interruption des connaissances en 2021 l'empêche de répondre aux questions sur les événements et incidents récents.

Facteurs à prendre en compte lors du test de précision des chatbots IA - Intelligence artificielle

Vérifier Quelques gros problèmes avec ChatGPT d'OpenAI.

Créez de nouvelles façons de tester la précision des chatbots

L'intelligence artificielle n'est ni l'être ni la fin de toutes les technologies. Bien que les systèmes d'IA et les modèles de langage sophistiqués réalisent des exploits impressionnants, ils font également des erreurs et des incohérences. Affichez les chatbots devant votre avis. Vous ne pouvez utiliser les plates-formes d'IA que si vous comprenez leurs fonctionnalités et leurs limites.

Bien qu'il existe des dizaines de chatbots multiplateformes, leur fiabilité et leur précision peuvent vous décevoir. Vous ne perdrez que du temps à le tester. Pour garantir des résultats de haute qualité, nous vous suggérons de vous concentrer sur les trois modèles les plus puissants du marché : ChatGPT, Bing AI et Google Bard.

1. Arithmétique mathématique

2. La compréhension

3. Actualité des informations

4. Pertinence

5. Mémoire contextuelle

6. Restrictions de sécurité

7. Biais de l'IA

8. Références

Créez de nouvelles façons de tester la précision des chatbots

Comparaison ChatGPT Plus vs Perplexity : quel est le meilleur chatbot IA ?

Façons de vérifier la santé du GPU dans Windows 11

Articles connexes