Предотвратите очистку вашего веб-сайта поисковыми роботами OpenAI с помощью этого руководства.
В то время как пользователи любят ChatGPT за огромное количество информации, которую он в настоящее время содержит, этого нельзя сказать о владельцах веб-сайтов.
ChatGPT OpenAI использует сканеры для очистки веб-сайтов, но если вы являетесь владельцем веб-сайта и не хотите, чтобы сканер OpenAI получал доступ к вашему веб-сайту, вот несколько вещей, которые вы можете сделать, чтобы предотвратить это.
Как работает сканирование OpenAI?
А поисковый робот (также известный как паук или бот поисковой системы) — это автоматизированная программа, которая сканирует Интернет в поисках информации. Затем он компилирует эту информацию таким образом, чтобы вашей поисковой системе было легко получить к ней доступ.
Поисковые роботы индексируют каждую страницу каждого релевантного URL-адреса, обычно сосредотачиваясь на веб-сайтах, которые более релевантны вашим поисковым запросам. Например, предположим, что вы ищете в Google конкретную ошибку Windows. Поисковый робот в вашей поисковой системе будет сканировать все URL-адреса с веб-сайтов, которые он считает более авторитетными в отношении ошибок Windows.
Поисковый робот OpenAI называется GPTBot, и, согласно Документация OpenAI, предоставление GPTBot доступа к вашему веб-сайту может помочь обучить модель ИИ, чтобы она стала более безопасной и точной, и даже расширить возможности модели ИИ.
Как запретить OpenAI сканировать ваш сайт
Как и большинству других поисковых роботов, GPTBot можно заблокировать от доступа к вашему веб-сайту, изменив настройки веб-сайта. robots.txt протокол (также известный как протокол исключения роботов). Этот файл .txt размещается на сервере веб-сайта и контролирует поведение поисковых роботов и других автоматизированных программ на вашем веб-сайте.
Вот краткий список того, что robot.txt файл может сделать:
- Он может полностью заблокировать доступ GPTBot к веб-сайту.
- Он может блокировать доступ GPTBot только к определенным страницам с URL-адреса.
- Он может указать GPTBot, по каким ссылкам он может переходить, а по каким нет.
Вот как можно контролировать, что GPTBot может делать на вашем сайте:
Полностью заблокируйте GPTBot доступ к вашему сайту
- Настройте файл robot.txt, а затем отредактируйте его с помощью любого текстового редактора.
- Добавьте GPTBot на свой сайт robots.txt следующее:
User-agent: GPTBot
Disallow: /
Заблокировать доступ GPTBot только к определенным страницам
- Настройте robot.txt файл, а затем отредактируйте его с помощью предпочитаемого инструмента редактирования текста.
- Добавьте GPTBot на свой сайт robots.txt следующее:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Однако имейте в виду, что изменение robot.txt файл не является решением с обратной силой, и любую информацию, которую GPTBot, возможно, уже собрал с вашего веб-сайта, нельзя будет восстановить.
OpenAI позволяет владельцам веб-сайтов отказаться от сканирования
С тех пор, как сканеры использовались для обучения моделей ИИ, владельцы веб-сайтов искали способы сохранить конфиденциальность своих данных.
Некоторые опасаются, что модели ИИ в основном крадут их работу, даже объясняя меньшее количество посещений веб-сайтов тем фактом, что теперь пользователи получают свою информацию, даже не посещая их веб-сайты.
В общем, хотите ли вы полностью заблокировать сканирование ваших веб-сайтов чат-ботами с искусственным интеллектом, это полностью ваш выбор.