Факторы, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом

ИИ прошел долгий путь от создания неуместных и бессвязных результатов до того, чтобы стать более изощренным. Современные чат-боты используют продвинутые языковые модели, которые отвечают на общие вопросы, пишут длинные статьи и пишут код, а также выполняют другие сложные задачи.

Несмотря на эти достижения, обратите внимание, что даже самые передовые системы имеют ограничения. Искусственный интеллект все еще ошибается. Чтобы определить, какие чат-боты менее склонны к галлюцинациям, вы можете проверить их точность на основе этих факторов. Проверять Большинство чат-ботов на основе искусственного интеллекта, с которыми можно поговорить и повеселиться.

Факторы, которые следует учитывать при тестировании точности чат-ботов с искусственным интеллектом — Искусственный интеллект

1. Математическая арифметика

Вы должны начать добавлять математические уравнения через чат-ботов. Он проверит способность модели анализировать текстовые задачи, переводить математические концепции и применять правильные функции. Только несколько моделей показывают надежность аккаунта. Фактически, одной из самых серьезных проблем ChatGPT в первые месяцы было ужасное понимание математики.

На изображении ниже показано, что ChatGPT не соответствует базовой статистике.

ChatGPT показал улучшение после развертывания Обновления OpenAI за май 2023 г.. Но, учитывая ограниченные наборы данных, у вас все равно возникнут проблемы с математическими уравнениями от среднего до продвинутого уровня.

Между тем, Bing Chat и Google Bard демонстрируют лучший подход к арифметике. Он запускает запросы через свои поисковые системы, что позволяет ему извлекать функции и детали ответов.

Совет: Попробуйте перефразировать математические задачи. избегайте растянутых предложений и заменяйте слабые глаголы; В противном случае чат-боты могут неправильно понять ваши вопросы.

2. Понимание

Современные модели ИИ могут работать в многозадачном режиме. Расширенные LLM позволяют ему сохранять предыдущие инструкции и отвечать на запросы по разделам, в то время как более старые системы обрабатывают отдельные заказы. Например, Siri отвечает на один вопрос за раз.

Скармливайте чат-ботам от трех до пяти задач одновременно, чтобы проверить, насколько хорошо они анализируют сложные претензии. Менее сложные модели не могут обрабатывать такой объем информации. На изображении ниже показаны сбои HuggingChat в трехшаговой подсказке — он останавливается на первом шаге и уходит от темы.

Последние строки HuggingChat действительно бессвязны.

ChatGPT быстро выполняет ту же подсказку, что приводит к умным и безошибочным ответам на каждом этапе.

Bing Chat предоставляет сжатый ответ на три шага. Его строгие ограничения запрещают излишне длинные выходные данные, которые тратят впустую вычислительную мощность.

3. Своевременность информации

Поскольку обучение ИИ требует огромных ресурсов, большинство разработчиков ограничивают наборы данных определенными интервалами. Возьмите ChatGPT в качестве примера. У него известная дата выполнения — сентябрь 2021 года — вы не можете запрашивать обновления погоды, новостные сводки или последние события. Вот ChatGPT, и он говорит, что не может получить доступ к информации в режиме реального времени.

Бард имеет доступ к Интернету. Он извлекает данные из поисковой выдачи Google, поэтому вы можете задавать более широкий набор вопросов, например, о последних событиях, новостях и прогнозах.

Точно так же Bing Chat извлекает информацию в режиме реального времени из своей поисковой системы.

Bing Chat и Bard предоставляют своевременную и актуальную информацию, но последний предоставляет более подробные ответы. Bing предоставляет данные как есть. Вы заметите, что результаты часто совпадают с формулировкой и тоном источников, с которыми они связаны дословно. Проверять Сравнение Bard, ChatGPT и офлайн-альпаки: какая парадигма для большого языка лучше?

4. Актуальность

Чат-боты должны обеспечивать актуальный и ожидаемый результат. Вы должны учитывать буквальное и контекстуальное значение ваших утверждений при предоставлении соответствующего ответа. Возьмите этот разговор в качестве примера. Персонажу нужен новый телефон, но у него всего 1000 долларов — ChatGPT не выходит за рамки бюджета.

При проверке соответствия попробуйте создать длинные инструкции. Менее сложные чат-боты, как правило, отклоняются, когда получают запутанные инструкции. Например, HuggingChat может сочинять выдуманные истории. Но это может отклониться от основной темы, если вы установите слишком много правил и указаний.

5. Контекстная память

Контекстная память помогает ИИ производить точные и надежные выходные данные. Вместо того, чтобы принимать ваши вопросы за чистую монету, он группирует детали, которые вы упомянули, вместе. Возьмите этот разговор в качестве примера. Bing Chat объединяет два отдельных сообщения, чтобы сформировать полезный и краткий ответ.

Точно так же контекстуальная память позволяет чат-ботам запоминать инструкции. На этом изображении ChatGPT имитирует то, как вымышленный персонаж говорит во многих чатах.

Проверьте эту функциональность самостоятельно, постоянно обращаясь к предыдущим утверждениям. Скармливайте чат-ботам различную информацию, а затем заставляйте их запоминать ее в последующих ответах.

Заметка: Контекстная память ограничена. Bing Chat начинает новые разговоры каждые 20 ходов, а ChatGPT не может обрабатывать заявки на более чем 3000 токенов. Проверять Каков лимит токена ChatGPT и можно ли его обойти?

6. Ограничения безопасности

Искусственный интеллект не всегда работает так, как задумано. Неправильное обучение может привести к тому, что методы машинного обучения будут совершать различные ошибки, от простых арифметических ошибок до проблематичной обратной связи. Возьмите Microsoft Tay в качестве примера. Пользователи Твиттера воспользовались моделью неконтролируемого обучения и обусловили ее, произнося оскорбления на расовой почве.

К счастью, глобальные технологические компании извлекли уроки из огромной ошибки Microsoft. Хотя обучение без учителя экономически выгодно и удобно, оно также делает системы ИИ уязвимыми для обмана. Таким образом, в настоящее время разработчики в основном полагаются на контролируемое обучение. Чат-боты, такие как ChatGPT, все еще учатся на разговорах, но тренеры сначала фильтруют информацию.

Ожидайте другого руководства от компаний, занимающихся искусственным интеллектом. Менее строгие ограничения ChatGPT подходят для более широкого круга задач, но уязвимы для эксплуатации. Между тем, Bing Chat следует более строгим ограничениям. Хотя они помогают бороться с попытками эксплойта, они также мешают функциональности. Bing автоматически закрывает потенциально вредоносные разговоры. Проверять Учится ли ChatGPT на разговорах пользователей?

7. Предубеждения ИИ

ИИ по своей сути нейтрален. Отсутствие у него предпочтений и эмоций делает его неспособным формировать мнение — это просто способ представить известную вам информацию. Вот как ChatGPT отвечает на личные темы.

Несмотря на этот нейтралитет, предвзятость ИИ все же возникает. Они проистекают из шаблонов, наборов данных, алгоритмов и моделей, которые используют разработчики. ИИ может быть нейтрален, но люди — нет.

Например, организация под названием Институт Брукингса Что ChatGPT демонстрирует левые политические пристрастия. OpenAI, конечно, отвергает обвинения. Но чтобы избежать подобных проблем с более новыми моделями, ChatGPT вообще избегает самоуверенных выводов.

Точно так же Bing Chat избегает деликатных и субъективных вопросов.

ИИ можно оценить на предмет предвзятости, задавая открытые вопросы, основанные на мнении. Говорите на темы, на которые нет правильного или неправильного ответа — менее сложные чат-боты с большей вероятностью будут демонстрировать необоснованные предпочтения по отношению к определенным группам. Проверять Как чат-боты влияют на создание контента.

8. Ссылки

ИИ редко перепроверяет факты. Он просто извлекает информацию из своих наборов данных и перефразирует ее с помощью языковых моделей. К сожалению, ограниченное обучение вызывает у ИИ галлюцинации. Вы по-прежнему можете использовать генеративные инструменты искусственного интеллекта для поиска, но обязательно проверяйте факты самостоятельно. Примите вывод как директиву.

Bing Chat упрощает проверку фактов, перечисляя свои ссылки после каждого вывода.

Bard AI не перечисляет свои источники, но создает актуальные подробные объяснения, выполняя поисковые запросы Google. Вы получите основные баллы из поисковой выдачи.

ChatGPT подвержен неточностям. Прерывание знаний в 2021 году мешает ему отвечать на вопросы о недавних событиях и происшествиях.

Проверять Некоторые большие проблемы с ChatGPT OpenAI.

Создайте новые способы проверки чат-ботов на точность

Искусственный интеллект — это не начало и не конец всех технологий. Хотя системы искусственного интеллекта и сложные языковые модели демонстрируют впечатляющие результаты, они также допускают ошибки и несоответствия. Покажите чат-ботов перед вашим обзором. Вы можете использовать платформы ИИ только в том случае, если понимаете их функциональность и ограничения.

Хотя существуют десятки кроссплатформенных чат-ботов, их надежность и точность могут вас разочаровать. Вы только потратите время на тестирование. Для обеспечения качественного результата предлагаем ориентироваться на три самые мощные модели на рынке: ChatGPT, Bing AI и Google Bard.