8 ключевых факторов, которые следует учитывать при тестировании чат-ботов с искусственным интеллектом на точность

Вы можете протестировать различные чат-боты с искусственным интеллектом, чтобы определить, какой из них работает лучше всего. Но как это сделать? Вот некоторые ключевые факторы, которые следует учитывать.

ИИ прошел долгий путь от создания нерелевантных, бессвязных результатов. Современные чат-боты используют продвинутые языковые модели, которые отвечают на вопросы общего характера, составляют длинные эссе и пишут код, а также выполняют другие сложные задачи.

Несмотря на эти достижения, обратите внимание, что даже самые сложные системы имеют ограничения. ИИ все равно ошибается. Чтобы определить, какие чат-боты наименее склонны к галлюцинациям, проверьте их точность на основе этих факторов.

1. Счет

Запускайте математические уравнения через чат-ботов. Они проверят способность платформы анализировать текстовые задачи, переводить математические концепции и применять правильные формулы. Только несколько моделей демонстрируют надежный счет. На самом деле, один из Худшие проблемы ChatGPT во время его первые месяцы были его ужасным пониманием математики.

instagram viewer

На изображении ниже показан сбой ChatGPT при базовой статистике.

ChatGPT показал улучшение после OpenAI выпустила свои обновления за май 2023 года. Но, учитывая его ограниченные наборы данных, у вас все равно будут проблемы с промежуточными и продвинутыми математическими вычислениями.

В то же время Bing Chat и Google Bard показывают лучший счет. Они запускают запросы через свои соответствующие поисковые системы, что позволяет им извлекать формулы и листы ответов.

Попробуйте перефразировать свои текстовые задачи. Избегайте длинных предложений и заменяйте слабые глаголы; в противном случае чат-боты могут неправильно понять ваши вопросы.

2. Понимание

Современные системы ИИ могут выполнять несколько задач. Усовершенствованные LLM позволяют им сохранять предыдущие инструкции и отвечать на запросы по разделам, тогда как более старые системы обрабатывают отдельные команды. Например, Siri отвечает на один вопрос за раз.

Скармливайте чат-ботам от трех до пяти задач одновременно, чтобы проверить, насколько хорошо они анализируют сложные подсказки. Менее сложные модели не могут обрабатывать столько информации. На изображении ниже показан сбой HuggingChat в трехступенчатой подсказке — он останавливается на первом шаге и отклоняется от темы.

Последние строки HuggingChat уже бессвязны.

ChatGPT быстро выполняет ту же подсказку, генерируя безошибочные и интеллектуальные ответы на каждом этапе.

Bing Chat предоставляет сжатый ответ на три шага. Его жесткие ограничения запрещают излишне длинные выходные данные, которые тратят впустую вычислительную мощность.

3. Своевременность

Поскольку обучение ИИ требует огромных ресурсов, большинство разработчиков ограничивают наборы данных определенными периодами. Возьмите ChatGPT в качестве примера. У него есть отключение знаний в сентябре 2021 года — вы не можете запрашивать обновления погоды, новостные сводки или последние события. Вот ChatGPT, говорящий, что у него нет доступа к информации в реальном времени.

Бард имеет доступ к Интернету. Он извлекает данные из поисковой выдачи Google, поэтому вы можете задавать более широкий круг вопросов, например, о последних событиях, новостях и прогнозах.

Точно так же Bing Chat извлекает информацию в режиме реального времени из своей поисковой системы.

Bing Chat и Bard предоставляют своевременную и актуальную информацию, но последний предоставляет более подробные ответы. Bing просто представляет данные как есть. Вы заметите, что его результаты часто дословно совпадают с формулировкой и тоном его связанных источников.

4. Актуальность

Чат-боты должны обеспечивать соответствующие выходные данные. При ответе им следует учитывать буквальное и контекстуальное значение ваших подсказок. Возьмите этот разговор в качестве примера. Нашему персонажу нужен новый телефон, но у него всего 1000 долларов — ChatGPT не превышает бюджет.

При тестировании на релевантность попробуйте создать длинные инструкции. Менее сложные чат-боты, как правило, сбиваются с пути, когда им дают запутанные инструкции. Например, HuggingChat может сочинять выдуманные истории. Но это может отклониться от основной темы, если вы установите слишком много правил и указаний.

5. Контекстная память

Контекстная память помогает ИИ производить точные и надежные выходные данные. Вместо того, чтобы принимать ваши вопросы за чистую монету, они объединяют детали, которые вы упомянули. Возьмите этот разговор в качестве примера. Bing Chat объединяет два отдельных сообщения, чтобы сформировать полезный краткий ответ.

Точно так же контекстная память позволяет чат-ботам запоминать инструкции. На этом изображении ChatGPT имитирует то, как вымышленный персонаж говорит в нескольких чатах.

Проверьте эту функцию самостоятельно, последовательно ссылаясь на предыдущие операторы. Скармливайте чат-ботам различную информацию, а затем заставляйте их вспоминать ее в последующих ответах.

Контекстная память ограничена. Bing Chat начинает новые разговоры каждые 20 ходов, а ChatGPT не может обрабатывать запросы более 3000 токенов.

6. Ограничения безопасности

ИИ не всегда делает то, что задумано. Неправильная подготовка может привести к технологии машинного обучения для совершения различных ошибок, от незначительных математических ошибок до проблемных комментариев. Брать Майкрософт Тай В качестве примера. Пользователи Твиттера воспользовались его моделью обучения без присмотра и заставили ее произносить оскорбления на расовой почве.

К счастью, мировые технологические лидеры извлекли уроки из ошибки Microsoft. Несмотря на экономичность и удобство обучения без учителя, системы ИИ подвержены обману. Следовательно, в настоящее время разработчики в основном полагаются на обучение с учителем. Чат-боты, такие как ChatGPT по-прежнему учится на разговорах, но их тренеры сначала фильтруют информацию.

Ожидайте различных рекомендаций от компаний, занимающихся искусственным интеллектом. Менее жесткие ограничения ChatGPT подходят для более широкого круга задач, но слабы против эксплуатации. Между тем, Bing Chat следует более строгим ограничениям. Хотя они помогают бороться с попытками эксплуатации, они также препятствуют функционированию. Bing автоматически закрывает потенциально опасные разговоры.

7. Предубеждения ИИ

ИИ по своей сути нейтрален. Отсутствие у него предпочтений и эмоций делает его неспособным формировать мнение — он просто представляет известную ему информацию. Вот как ChatGPT отвечает на субъективные темы.

Несмотря на этот нейтралитет, Предубеждения ИИ еще возникают. Они проистекают из шаблонов, наборов данных, алгоритмов и моделей, которые используют разработчики. ИИ может быть беспристрастным, но люди — нет.

Например, Институт Брукингса утверждает, что ChatGPT демонстрирует левые политические предубеждения. OpenAI, конечно же, отрицает эти обвинения. Но чтобы избежать подобных проблем с более новыми моделями, ChatGPT вообще избегает самоуверенных выводов.

Точно так же Bing Chat избегает деликатных и субъективных вопросов.

Оцените предвзятость ИИ самостоятельно, задавая открытые вопросы, основанные на мнении. Говорите на темы без правильного или неправильного ответа — менее сложные чат-боты, скорее всего, будут демонстрировать необоснованные предпочтения по отношению к определенным группам.

8. Рекомендации

ИИ редко перепроверяет факты. Он просто извлекает информацию из своих наборов данных и перефразирует их с помощью языковых моделей. К сожалению, ограниченное обучение вызывает у ИИ галлюцинации. Вы по-прежнему можете использовать генеративные инструменты искусственного интеллекта для исследований, но убедитесь, что вы проверяете факты самостоятельно. Возьмите вывод с недоверием.

Bing Chat упрощает процесс проверки фактов, перечисляя свои ссылки после каждого вывода.

Bard AI не перечисляет свои источники, но генерирует обновленные подробные объяснения, выполняя поисковые запросы Google. Вы получите основные баллы из поисковой выдачи.

ChatGPT подвержен неточностям. Его ограничение знаний в 2021 году не позволяет ему отвечать на вопросы о недавних событиях и инцидентах.

Создайте новые способы проверки чат-ботов на точность

ИИ — это не все технологии. Хотя сложные системы искусственного интеллекта и языковые модели демонстрируют впечатляющие результаты, они также допускают ошибки и несоответствия. Относитесь к чат-ботам со скептицизмом. Вы можете использовать платформы, управляемые ИИ, только если понимаете их функции и ограничения.

Хотя на разных платформах существуют десятки чат-ботов, их надежность и точность могут вас разочаровать. Вы просто потратите время на их тестирование. Чтобы обеспечить качественные результаты, мы предлагаем сосредоточиться на трех самых надежных моделях на рынке: ChatGPT, Bing AI и Google Bard.

About Technology - denizatm.com

8 ключевых факторов, которые следует учитывать при тестировании чат-ботов с искусственным интеллектом на точность

1. Счет

2. Понимание

3. Своевременность

4. Актуальность

5. Контекстная память

6. Ограничения безопасности

7. Предубеждения ИИ

8. Рекомендации

Создайте новые способы проверки чат-ботов на точность

категории

Recent Post

Блинк против. Кольцо: какая система видеонаблюдения лучше?

Разница между преобразованием HDMI в DisplayPort и DisplayPort в HDMI

10 Python IDE, которые должен знать каждый программист