Fatores a serem considerados ao testar a precisão dos chatbots de IA

A IA percorreu um longo caminho desde produzir resultados inapropriados e incoerentes até se tornar mais sofisticada. Os chatbots modernos usam modelos de linguagem avançados que respondem a perguntas de conhecimento geral, redigir artigos longos e escrever códigos, entre outras tarefas complexas.

Apesar desses avanços, note que mesmo os sistemas mais avançados possuem limitações. A inteligência artificial ainda comete erros. Para determinar quais chatbots têm menos probabilidade de alucinar, você pode testar sua precisão com base nesses fatores. Verificar A maioria dos bots de bate-papo baseados em IA para conversar e se divertir.

1. Aritmética matemática

Você deve começar a adicionar equações matemáticas por meio de chatbots. Ele testará a capacidade do modelo de analisar problemas de palavras, traduzir conceitos matemáticos e aplicar funções corretas. Apenas alguns modelos mostram a confiabilidade da conta. Na verdade, um dos piores problemas do ChatGPT durante os primeiros meses foi o péssimo entendimento de matemática.

A imagem abaixo mostra as estatísticas básicas de falha do ChatGPT.

O ChatGPT mostrou melhorias após o lançamento Atualizações do OpenAI de maio de 2023. Mas, com conjuntos de dados limitados, você ainda terá problemas com equações matemáticas intermediárias a avançadas.

Enquanto isso, o Bing Chat e o Google Bard mostram uma abordagem melhor da aritmética. Ele executa consultas por meio de seus mecanismos de pesquisa, o que permite extrair funções e detalhes das respostas.

Adendo: Tente parafrasear problemas de matemática. evite frases prolongadas e substitua verbos fracos; Caso contrário, os chatbots podem interpretar mal suas perguntas.

2. Compreensão

Os modelos modernos de IA podem realizar várias tarefas ao mesmo tempo. Os LLMs avançados permitem que ele retenha as instruções anteriores e responda às solicitações por seção, enquanto os sistemas mais antigos processam pedidos individuais. Por exemplo, a Siri responde a uma pergunta por vez.

Alimente chatbots de três a cinco tarefas por vez para testar o quão bem eles analisam reivindicações complexas. Modelos menos sofisticados não conseguem processar tanta informação. A imagem abaixo mostra o HuggingChat falhando em um prompt de três etapas - ele para na primeira etapa e sai do tópico.

As últimas linhas de HuggingChat são realmente incoerentes.

O ChatGPT conclui o mesmo prompt rapidamente, resultando em respostas inteligentes e sem erros em cada etapa.

O Bing Chat fornece uma resposta condensada para as três etapas. Suas restrições estritas proíbem saídas desnecessariamente longas que desperdiçam poder de processamento.

3. Pontualidade da informação

Como o treinamento de IA custa recursos enormes, a maioria dos desenvolvedores limita os conjuntos de dados a intervalos específicos. Tome o ChatGPT como exemplo. Ele tem uma data de vencimento conhecida em setembro de 2021 - você não pode solicitar atualizações meteorológicas, notícias ou desenvolvimentos recentes. Aqui está o ChatGPT e diz que não pode acessar as informações em tempo real.

Bard tem acesso à Internet. Ele extrai dados dos SERPs do Google, para que você possa fazer um conjunto mais amplo de perguntas, por exemplo, eventos recentes, notícias e previsões.

Da mesma forma, o Bing Chat extrai informações em tempo real de seu mecanismo de pesquisa.

O Bing Chat e o Bard fornecem informações atualizadas e oportunas, mas o último fornece respostas mais detalhadas. O Bing fornece os dados como estão. Você notará que os resultados geralmente correspondem ao texto e ao tom das fontes às quais estão vinculados textualmente. Verificar Comparação Bard, ChatGPT e Offline Alpaca: qual é o melhor paradigma de linguagem ampla?

4. Relevância

Os chatbots devem fornecer resultados relevantes e esperados. Você deve levar em consideração o significado literal e contextual de suas reivindicações ao fornecer a resposta correspondente. Tome esta conversa como um exemplo. O personagem precisa de um telefone novo, mas ele só tem $ 1000 - o ChatGPT não ultrapassa o orçamento.

Ao testar o ajuste, tente elaborar instruções longas. Chatbots menos sofisticados tendem a desviar ao receber instruções confusas. Por exemplo, HuggingChat pode compor histórias fictícias. Mas pode se desviar do tópico principal se você definir muitas regras e diretrizes.

5. Memória contextual

A memória contextual ajuda a IA a produzir resultados precisos e confiáveis. Em vez de aceitar suas perguntas pelo valor de face, ele agrupa os detalhes que você mencionou. Tome esta conversa como um exemplo. O Bing Chat conecta duas mensagens separadas para formar uma resposta útil e concisa.

Da mesma forma, a memória contextual permite que os chatbots se lembrem das instruções. Esta imagem mostra o ChatGPT simulando a forma como um personagem fictício fala durante vários chats.

Teste você mesmo essa funcionalidade consultando constantemente as instruções anteriores. Forneça informações diferentes aos chatbots e, em seguida, force-os a se lembrar delas nas respostas subsequentes.

Perceber: A memória contextual é limitada. O Bing Chat inicia novas conversas a cada 20 turnos, enquanto o ChatGPT não pode lidar com reivindicações acima de 3000 tokens. Verificar Qual é o limite de token ChatGPT e você pode ignorá-lo?

6. Restrições de segurança

A inteligência artificial nem sempre funciona como pretendido. O treinamento inadequado pode fazer com que as técnicas de aprendizado de máquina cometam vários erros, desde erros aritméticos simples até feedback problemático. Tome o Microsoft Tay como exemplo. Os usuários do Twitter aproveitaram o modelo de aprendizado não supervisionado e o condicionaram dizendo calúnias raciais.

Felizmente, as empresas globais de tecnologia aprenderam com o grande erro da Microsoft. Embora o aprendizado não supervisionado seja econômico e conveniente, ele também deixa os sistemas de IA abertos ao engano. Assim, os desenvolvedores dependem principalmente do aprendizado supervisionado hoje em dia. Chatbots como o ChatGPT ainda aprendem com as conversas, mas os treinadores filtram as informações primeiro.

Espere uma orientação diferente das empresas de IA. As restrições menos rígidas do ChatGPT acomodam uma ampla gama de tarefas, mas são vulneráveis ​​à exploração. Enquanto isso, o Bing Chat segue limites mais rígidos. Embora ajudem a combater as tentativas de exploração, também prejudicam a funcionalidade. O Bing fecha automaticamente conversas potencialmente maliciosas. Verificar O ChatGPT aprende com as conversas do usuário?

7. Vieses de IA

A IA é inerentemente neutra. Sua falta de preferências e emoções o torna incapaz de formar opiniões - é apenas uma forma de apresentar as informações que você conhece. Veja como o ChatGPT responde a tópicos pessoais.

Apesar dessa neutralidade, ainda surgem vieses de IA. Eles decorrem dos padrões, conjuntos de dados, algoritmos e modelos que os desenvolvedores usam. A IA pode ser neutra, mas os humanos não.

Por exemplo, uma organização chamada Brookings Institution Esse ChatGPT mostra preconceitos políticos de esquerda. A OpenAI nega as acusações, é claro. Mas, para evitar problemas semelhantes com modelos mais novos, o ChatGPT evita totalmente as saídas opinativas.

Da mesma forma, o Bing Chat evita assuntos delicados e subjetivos.

A IA pode ser avaliada quanto ao viés por meio de perguntas abertas e baseadas em opiniões. Fale sobre tópicos que não têm uma resposta certa ou errada – chatbots menos sofisticados são mais propensos a exibir preferências infundadas em relação a determinados grupos. Verificar Maneiras como os chatbots influenciam a criação de conteúdo.

8. Referências

A IA raramente verifica os fatos. Ele apenas extrai informações de seus conjuntos de dados e as parafraseia por meio de modelos de linguagem. Infelizmente, o treinamento limitado faz com que a IA tenha alucinações. Você ainda pode usar ferramentas de IA generativas para pesquisar, mas certifique-se de verificar os fatos você mesmo. Tome a saída como uma diretiva.

O Bing Chat simplifica a verificação de fatos listando suas referências após cada saída.

A Bard AI não lista suas fontes, mas cria explicações detalhadas e atualizadas executando consultas de pesquisa no Google. Você obterá os pontos principais dos SERPs.

ChatGPT é propenso a imprecisões. A interrupção do conhecimento em 2021 o impede de responder a perguntas sobre eventos e incidentes recentes.

Verificar Alguns grandes problemas com o ChatGPT da OpenAI.

Crie novas maneiras de testar a precisão dos chatbots

A inteligência artificial não é o princípio nem o fim de toda tecnologia. Embora sistemas de IA e modelos de linguagem sofisticados realizem proezas impressionantes, eles também cometem erros e inconsistências. Mostre chatbots antes de sua avaliação. Você só pode usar plataformas de IA se entender suas funcionalidades e limitações.

Embora existam dezenas de chatbots multiplataforma por aí, sua confiabilidade e precisão podem desapontá-lo. Você só vai perder tempo testando. Para garantir resultados de alta qualidade, sugerimos focar nos três modelos mais potentes do mercado: ChatGPT, Bing AI e Google Bard.

DzTech

Sou um engenheiro estadual com vasta experiência nas áreas de programação, criação de sites, SEO e redação técnica. Sou apaixonado por tecnologia e me dedico a fornecer informação de qualidade ao público. Posso me tornar um recurso mais valioso para usuários que procuram informações precisas e confiáveis ​​sobre análises de produtos e aplicações especializadas em diversos campos. Meu compromisso inabalável com a qualidade e a precisão garante que as informações fornecidas sejam confiáveis ​​e úteis para o público. A busca constante pelo conhecimento me leva a acompanhar os mais recentes desenvolvimentos tecnológicos, garantindo que as ideias compartilhadas sejam transmitidas de forma clara e acessível.
Ir para o botão superior