Предотвратите очистку вашего веб-сайта поисковыми роботами OpenAI с помощью этого руководства.

В то время как пользователи любят ChatGPT за огромное количество информации, которую он в настоящее время содержит, этого нельзя сказать о владельцах веб-сайтов.

ChatGPT OpenAI использует сканеры для очистки веб-сайтов, но если вы являетесь владельцем веб-сайта и не хотите, чтобы сканер OpenAI получал доступ к вашему веб-сайту, вот несколько вещей, которые вы можете сделать, чтобы предотвратить это.

Как работает сканирование OpenAI?

А поисковый робот (также известный как паук или бот поисковой системы) — это автоматизированная программа, которая сканирует Интернет в поисках информации. Затем он компилирует эту информацию таким образом, чтобы вашей поисковой системе было легко получить к ней доступ.

Поисковые роботы индексируют каждую страницу каждого релевантного URL-адреса, обычно сосредотачиваясь на веб-сайтах, которые более релевантны вашим поисковым запросам. Например, предположим, что вы ищете в Google конкретную ошибку Windows. Поисковый робот в вашей поисковой системе будет сканировать все URL-адреса с веб-сайтов, которые он считает более авторитетными в отношении ошибок Windows.

instagram viewer

Поисковый робот OpenAI называется GPTBot, и, согласно Документация OpenAI, предоставление GPTBot доступа к вашему веб-сайту может помочь обучить модель ИИ, чтобы она стала более безопасной и точной, и даже расширить возможности модели ИИ.

Как запретить OpenAI сканировать ваш сайт

Как и большинству других поисковых роботов, GPTBot можно заблокировать от доступа к вашему веб-сайту, изменив настройки веб-сайта. robots.txt протокол (также известный как протокол исключения роботов). Этот файл .txt размещается на сервере веб-сайта и контролирует поведение поисковых роботов и других автоматизированных программ на вашем веб-сайте.

Вот краткий список того, что robot.txt файл может сделать:

  • Он может полностью заблокировать доступ GPTBot к веб-сайту.
  • Он может блокировать доступ GPTBot только к определенным страницам с URL-адреса.
  • Он может указать GPTBot, по каким ссылкам он может переходить, а по каким нет.

Вот как можно контролировать, что GPTBot может делать на вашем сайте:

Полностью заблокируйте GPTBot доступ к вашему сайту

  1. Настройте файл robot.txt, а затем отредактируйте его с помощью любого текстового редактора.
  2. Добавьте GPTBot на свой сайт robots.txt следующее:
User-agent: GPTBot
Disallow: /

Заблокировать доступ GPTBot только к определенным страницам

  1. Настройте robot.txt файл, а затем отредактируйте его с помощью предпочитаемого инструмента редактирования текста.
  2. Добавьте GPTBot на свой сайт robots.txt следующее:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Однако имейте в виду, что изменение robot.txt файл не является решением с обратной силой, и любую информацию, которую GPTBot, возможно, уже собрал с вашего веб-сайта, нельзя будет восстановить.

OpenAI позволяет владельцам веб-сайтов отказаться от сканирования

С тех пор, как сканеры использовались для обучения моделей ИИ, владельцы веб-сайтов искали способы сохранить конфиденциальность своих данных.

Некоторые опасаются, что модели ИИ в основном крадут их работу, даже объясняя меньшее количество посещений веб-сайтов тем фактом, что теперь пользователи получают свою информацию, даже не посещая их веб-сайты.

В общем, хотите ли вы полностью заблокировать сканирование ваших веб-сайтов чат-ботами с искусственным интеллектом, это полностью ваш выбор.