Беспокоитесь о том, что чат-боты с искусственным интеллектом очищают ваш сайт от контента? К счастью, вы можете запретить им это делать. Вот как.

В настоящее время чат-боты с искусственным интеллектом имеют бесплатную лицензию на очистку вашего веб-сайта и использование его содержимого без вашего разрешения. Беспокоитесь о том, что ваш контент может быть очищен такими инструментами?

Хорошая новость заключается в том, что вы можете запретить инструментам ИИ доступ к вашему веб-сайту, но есть некоторые предостережения. Здесь мы покажем вам, как заблокировать ботов с помощью файла robots.txt для вашего веб-сайта, а также плюсы и минусы этого.

Как ИИ-чат-боты получают доступ к вашему веб-контенту?

Чат-боты с искусственным интеллектом обучаются с использованием нескольких наборов данных, некоторые из которых являются открытыми и общедоступными. Например, GPT3 обучался с использованием пяти наборов данных. исследовательская работа, опубликованная OpenAI:

  1. Общий кроль (60% веса на тренировке)
  2. WebText2 (вес 22% в обучении)
  3. instagram viewer
  4. Книги1 (вес 8% на тренировке)
  5. Книги2 (вес 8% на тренировке)
  6. Википедия (3% веса на тренировках)

Общий обход включает петабайты (тысячи ТБ) данных с веб-сайтов, собранных с 2008 года, аналогично тому, как алгоритм поиска Google сканирует веб-контент. WebText2 — это набор данных, созданный OpenAI, содержащий около 45 миллионов веб-страниц, на которые есть ссылки из сообщений Reddit с не менее чем тремя отзывами.

Итак, в случае с ChatGPT бот AI не получает доступ и не сканирует ваши веб-страницы напрямую — во всяком случае, пока. Хотя OpenAI анонс веб-браузера, размещенного на ChatGPT выразил опасения, что это может измениться.

Тем временем владельцы веб-сайтов должны следить за другими чат-ботами с искусственным интеллектом, так как их все больше появляется на рынке. Бард — еще одно громкое имя в этой области, и о нем известно очень мало. наборы данных, используемые для его обучения. Очевидно, мы знаем, что поисковые роботы Google постоянно сканируют веб-страницы, но это не обязательно означает, что Бард имеет доступ к одним и тем же данным.

Почему некоторые владельцы веб-сайтов обеспокоены?

Больше всего владельцев веб-сайтов беспокоит то, что боты с искусственным интеллектом, такие как ChatGPT, Bard и Bing Chat, обесценивают их контент. Боты с искусственным интеллектом используют существующий контент для генерации своих ответов, но также уменьшают потребность пользователей в доступе к исходному источнику. Вместо того, чтобы пользователи посещали веб-сайты для доступа к информации, они могут просто заставить Google или Bing создать сводку необходимой им информации.

Когда дело доходит до чат-ботов с искусственным интеллектом в поиске, владельцев веб-сайтов больше всего беспокоит потеря трафика. В случае с Бардом бот ИИ редко включает цитаты в свои генеративные ответы, сообщая пользователям, с каких страниц он получает информацию.

Таким образом, помимо замены посещений веб-сайтов ответами ИИ, Bard устраняет почти все шансы на то, что исходный веб-сайт получит трафик, даже если пользователь хочет получить больше информации. Bing Chat, с другой стороны, чаще ссылается на источники информации.

Другими словами, текущий парк генеративных инструментов ИИ используя работу создателей контента систематически замещать потребность в создателях контента. В конце концов, вы должны спросить какой стимул это оставляет владельцам веб-сайтов продолжить публикацию контента. И, кроме того, что происходит с ботами ИИ, когда веб-сайты перестают публиковать контент, от которого они зависят?

Как заблокировать ИИ-ботов на вашем сайте

Если вы не хотите, чтобы боты с искусственным интеллектом использовали ваш веб-контент, вы можете заблокировать им доступ к вашему сайту с помощью robots.txt файл. К сожалению, приходится блокировать каждого отдельного бота и указывать их по имени.

Например, бот Common Crawl называется CCBot, и вы можете заблокировать его, добавив следующий код в файл robots.txt:

Агент пользователя: CCBot
Запретить: /

Это заблокирует сканирование вашего веб-сайта Common Crawl в будущем, но не удалит данные, уже собранные в ходе предыдущих обходов.

Если вы беспокоитесь о том, что новые плагины ChatGPT получат доступ к вашему веб-контенту, OpenAI уже опубликовал инструкция по блокировке своего бота. В этом случае бот ChatGPT называется ChatGPT-User, и вы можете заблокировать его, добавив следующий код в файл robots.txt:

Агент пользователя: ChatGPT-User
Запретить: /

Однако блокирование роботов AI поисковых систем от сканирования вашего контента — это совсем другая проблема. Поскольку Google очень тщательно хранит данные об обучении, которые он использует, невозможно определить, каких ботов вам нужно заблокировать, и будут ли они даже соблюдать команды в вашем robots.txt файл (многие поисковые роботы этого не делают).

Насколько эффективен этот метод?

Блокировка ботов ИИ в вашем robots.txt file — наиболее эффективный метод, доступный в настоящее время, но он не особенно надежен.

Первая проблема заключается в том, что вам нужно указать каждого бота, которого вы хотите заблокировать, но кто может отслеживать каждого ИИ-бота, появляющегося на рынке? Следующая проблема заключается в том, что команды в вашем robots.txt файл являются необязательными инструкциями. Хотя Common Crawl, ChatGPT и многие другие боты соблюдают эти команды, многие боты этого не делают.

Еще одно важное предостережение заключается в том, что вы можете только блокировать ботов AI от выполнения сканирования в будущем. Вы не можете удалять данные из предыдущих обходов или отправлять запросы таким компаниям, как OpenAI, на удаление всех ваших данных.

К сожалению, нет простого способа заблокировать доступ всех ботов AI к вашему сайту, а вручную заблокировать каждого отдельного бота практически невозможно. Даже если вы следите за последними ботами ИИ, бродящими по сети, нет гарантии, что все они будут выполнять команды в вашем robots.txt файл.

Реальный вопрос здесь заключается в том, стоят ли результаты усилий, и короткий ответ (почти наверняка) нет.

Есть и потенциальные недостатки блокировки ботов AI на вашем сайте. Прежде всего, вы не сможете собрать значимые данные, чтобы доказать, приносят ли такие инструменты, как Bard, пользу или вред вашей стратегии поискового маркетинга.

Да, вы можете предположить, что отсутствие цитирований вредно, но вы только догадываетесь, если вам не хватает данных, потому что вы заблокировали доступ ИИ-ботов к вашему контенту. Это была похожая история, когда Google впервые представил избранные фрагменты искать.

По релевантным запросам Google показывает фрагмент контента с веб-страниц на странице результатов, отвечая на вопрос пользователя. Это означает, что пользователям не нужно переходить на веб-сайт, чтобы получить ответ, который они ищут. Это вызвало панику среди владельцев веб-сайтов и SEO-специалистов, которые полагаются на генерацию трафика из поисковых запросов.

Тем не менее, тип запросов, которые запускают избранные фрагменты, обычно представляет собой поиск с низким значением, например «что такое X» или «какая погода в Нью-Йорке». Любой, кто хочет получить подробную информацию или подробный отчет о погоде, все равно будет нажимать, а те, кто этого не делает, никогда не были такими ценными.

Вы можете обнаружить, что аналогичная история с инструментами генеративного ИИ, но вам потребуются данные, чтобы доказать это.

Не торопитесь ни с чем

Владельцы и издатели веб-сайтов по понятным причинам обеспокоены технологией искусственного интеллекта и разочарованы идеей о том, что боты используют их контент для получения мгновенных ответов. Однако сейчас не время торопиться с контрнаступательными действиями. Технология искусственного интеллекта — это быстро развивающаяся область, и все будет продолжать развиваться быстрыми темпами. Воспользуйтесь этой возможностью, чтобы увидеть, как обстоят дела, и проанализировать потенциальные угрозы и возможности, которые привносит искусственный интеллект.

Нынешняя система, полагающаяся на работу создателей контента для их замены, не является устойчивой. Независимо от того, меняют ли такие компании, как Google и OpenAI, свой подход или правительства вводят новые правила, что-то должно уступить. В то же время становится все более очевидным негативное влияние чат-ботов с искусственным интеллектом на создание контента, которое владельцы веб-сайтов и создатели контента могут использовать в своих интересах.