GPTBot, вероятно, это не то, что вы думаете.

Ключевые выводы

  • GPTBot от OpenAI — это веб-сканер, предназначенный для сбора данных с общедоступных веб-сайтов, которые затем используются для обучения и улучшения моделей искусственного интеллекта, таких как GPT-4 и ChatGPT.
  • Некоторые из крупнейших веб-сайтов в Интернете блокируют GPTBot, поскольку он получает доступ к контенту, защищенному авторским правом, и использует его без разрешения или компенсации создателям.
  • Хотя веб-сайты могут использовать такие инструменты, как robots.txt, чтобы попытаться заблокировать GPTBot, нет никаких гарантий, что OpenAI будет соответствовать требованиям, что дает им контроль над доступом к данным, защищенным авторским правом.

В августе 2023 года OpenAI, компания, занимающаяся искусственным интеллектом, которой приписывают разработку ChatGPT, анонсировала GPTBot, веб-сканер, предназначенный для перемещения по сети и сбора данных.

Вскоре после этого объявления некоторые крупнейшие веб-сайты в Интернете заблокировали доступ бота к своему сайту. Но почему? Что такое GPTBot OpenAI? Почему крупные веб-сайты боятся этого и почему они пытаются его заблокировать?

instagram viewer

Что такое GPTBot OpenAI?

GPTBot — это веб-сканер, созданный OpenAI для поиска в Интернете и сбора информации для целей развития ИИ OpenAI. Он запрограммирован на сканирование общедоступных веб-сайтов и отправку данных обратно на серверы OpenAI. Затем OpenAI использует эти данные для обучения и улучшения своих моделей искусственного интеллекта с целью создания все более совершенных систем искусственного интеллекта. Для создания сложных моделей искусственного интеллекта, таких как GPT-4, или его дочерних продуктов, таких как ChatGPT, веб-сканеры практически незаменимы.

Для обучения модели ИИ требуется огромный объем данных, и один из наиболее эффективных способов сбора этих данных — использование таких инструментов, как веб-сканеры. Сканеры могут систематически просматривать Интернет, переходить по ссылкам для индексации больших объемов веб-страниц и извлекать ключевые данные, такие как текст, изображения и метаданные, которые соответствуют заранее определенному шаблону.

Эти данные затем можно структурировать и ввести в модели ИИ, чтобы тренировать их способности обработки естественного языка или способности генерации изображений или обучать их другим задачам ИИ. Другими словами, веб-сканеры собирают данные, которые позволяют таким инструментам, как ChatGPT или DALL-E, делать то, что они делают.

Веб-сканеры — не новая концепция. Вероятно, миллионы из них сканируют миллиарды веб-сайтов, доступных сегодня в Интернете. И существуют они как минимум с начала 90-х. GPTBot — лишь один из таких сканеров, принадлежащих OpenAI. Итак, что же вызывает споры вокруг этого конкретного веб-сканера?

Почему крупные технологические сайты блокируют GPTBot?

В соответствии с Бизнес-инсайдерНекоторые крупнейшие веб-сайты в Интернете активно блокируют сканер OpenAI на своих сайтах. Итак, если конечная цель GPTBot — способствовать развитию ИИ, то почему некоторые крупнейшие сайты в Интернете, некоторые из которых так или иначе получили выгоду от ИИ, выступают против него?

Ну, вот в чем дело. После возрождения генеративных технологий искусственного интеллекта в 2022 году велись многочисленные дебаты о праве компаний, занимающихся искусственным интеллектом, использовать практически без ограничений данные, полученные из Интернета, значительная часть которых защищена законом. Авторские права. Никакие четкие законы не регулируют то, как эти компании собирают и используют данные для собственной выгоды.

Итак, по сути, сканеры, такие как GPTBot, сканируют Интернет, захватывают творческие работы людей в форме текста, изображений или других форм. средства массовой информации и использовать их в коммерческих целях без получения какого-либо разрешения, лицензирования или предоставления компенсации оригиналу. создатели.

Это дикий запад, и компании, занимающиеся искусственным интеллектом, хватаются за все, что попадает в их руки. Крупные веб-сайты, такие как Quora, CNN, The New York Times, Business Insider и Amazon, не очень довольны тем, что их Контент, защищенный авторским правом, собирается этими сканерами, поэтому OpenAI может получить от него финансовую выгоду по своему усмотрению. расход.

Вот почему эти сайты используют «robots.txt», проверенный десятилетиями метод блокировки веб-сканеров. В соответствии с ОпенАИ, GPTBot будет подчиняться инструкциям по сканированию или предотвращению сканирования веб-сайтов на основе правил, встроенных в robots.txt, небольшой текстовый файл, который сообщает веб-сканерам, как вести себя на сайте. Если у вас есть собственный сайт и вы хотели бы запретить GPTBot получать ваши данные, вот как вы можете это сделать: запретить сканерам OpenAI очищать ваш сайт.

Могут ли веб-сайты действительно остановить GPTBot?

Хотя сканеры, такие как GPTBot, незаменимы для сбора огромных объемов данных, необходимых для обучать передовые системы искусственного интеллекта, существуют обоснованные опасения по поводу авторских прав и добросовестного использования, которые не могут быть решены. игнорируется.

Конечно, есть простые инструменты, такие как robots.txt, которые можно использовать для защиты от этого, но подчиняется ли GPTBot инструкциям в этом файле, полностью на усмотрение OpenAI. Нет никаких гарантий, что они это сделают, и не существует немедленного надежного способа узнать, сделали ли они это. В борьбе за защиту GPTBot от доступа к данным, защищенным авторским правом, у OpenAI есть козыри, по крайней мере, на данный момент.