Реклама
если ты запустить сайт 10 способов создать небольшой и простой веб-сайт без излишествWordPress может быть излишним. Как доказывают эти другие отличные сервисы, WordPress - это не все, что нужно для завершения создания сайта. Если вам нужны более простые решения, есть из чего выбрать. Прочитайте больше вы, вероятно, слышали о файле robots.txt (или «стандарте исключения роботов»). Есть ли у вас или нет, пришло время узнать об этом, потому что этот простой текстовый файл является важной частью вашего сайта. Это может показаться незначительным, но вы можете быть удивлены, насколько это важно.
Давайте посмотрим, что такое файл robots.txt, что он делает и как правильно настроить его для вашего сайта.
Что такое файл robots.txt?
Чтобы понять, как работает файл robots.txt, вам нужно знать немного о поисковых системах Как работают поисковые системы?Для многих Google это Интернет. Это, пожалуй, самое важное изобретение с самого Интернета. И хотя поисковые системы сильно изменились с тех пор, основные принципы остались прежними. Прочитайте больше
. Короче говоря, они рассылают «сканеры», которые представляют собой программы, которые ищут информацию в Интернете. Затем они хранят часть этой информации, чтобы потом можно было направлять людей к ней.Эти сканеры, также известные как «боты» или «пауки», находят страницы на миллиардах веб-сайтов. Поисковые системы дают им указания о том, куда идти, но отдельные веб-сайты также могут общаться с ботами и сообщать им, на каких страницах они должны смотреть.
Большую часть времени они на самом деле делают обратное и говорят им, какие страницы они не должен смотреть на Такие вещи, как административные страницы, серверные порталы, страницы категорий и тегов, а также другие вещи, которые владельцы сайтов не хотят отображать в поисковых системах. Эти страницы по-прежнему видны пользователям, и они доступны всем, у кого есть разрешение (а это часто все).
Но, сказав этим паукам не индексировать некоторые страницы, файл robots.txt оказывает всем услугу. Если бы вы искали «MakeUseOf» в поисковой системе, вы бы хотели, чтобы наши административные страницы показывались высоко в рейтинге? Нет. Это никому не поможет, поэтому мы просим поисковые системы не показывать их. Его также можно использовать, чтобы не дать поисковым системам проверять страницы, которые могут не помочь им классифицировать ваш сайт в результатах поиска.
Короче говоря, robots.txt сообщает сканерам, что делать.
Могут ли сканеры игнорировать robots.txt?
Искатели когда-нибудь игнорируют файлы robots.txt? Да. На самом деле, многие сканеры делать игнорируй это. Как правило, однако, эти сканеры не из авторитетных поисковых систем. Они от спамеров, сборщиков электронной почты и другие типы автоматизированных ботов Как создать базовый веб-сканер для извлечения информации с веб-сайтаВсегда хотел получить информацию с веб-сайта? Вот как написать сканер для навигации по сайту и извлечения того, что вам нужно. Прочитайте больше которые бродят по интернету. Важно помнить об этом - использование стандарта исключения роботов для предупреждения ботов не является эффективной мерой безопасности. На самом деле, некоторые боты могут Начните со страницами вы говорите им, чтобы не ходить на.
Однако поисковые системы будут делать то, что говорит ваш файл robots.txt, если он правильно отформатирован.
Как написать файл robots.txt
Есть несколько разных частей, которые входят в стандартный файл исключения роботов. Я разбью их здесь по отдельности.
Объявление агента пользователя
Прежде чем сообщить боту, на какие страницы он не должен смотреть, вы должны указать, с каким ботом вы общаетесь. В большинстве случаев вы будете использовать простое объявление, которое означает «все боты». Это выглядит так:
Пользователь-агент: *
Звездочка означает «все боты». Однако вы можете указать страницы для определенных ботов. Для этого вам нужно знать имя бота, для которого вы выкладываете инструкции. Это может выглядеть так:
Пользователь-агент: Googlebot. [список страниц, которые нельзя сканировать] Пользователь-агент: Googlebot-Image / 1.0. [список страниц, которые нельзя сканировать] Пользователь-агент: Bingbot. [список страниц, которые нельзя сканировать]
И так далее. Если вы обнаружите бота, который вообще не хочет сканировать свой сайт, вы можете указать и это.
Чтобы найти имена пользовательских агентов, проверьте useragentstring.com [Больше не доступно].
Запрещение страниц
Это основная часть вашего файла исключения роботов. Простым объявлением вы указываете боту или группе ботов не сканировать определенные страницы. Синтаксис прост. Вот как вы можете запретить доступ ко всему, что находится в каталоге «admin» вашего сайта:
Disallow: / admin /
Эта строка не позволит ботам сканировать yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html и все остальное, что попадает в каталог администратора.
Чтобы запретить одну страницу, просто укажите ее в строке запрета:
Disallow: /public/exception.html
Теперь страница «исключения» не будет перетаскиваться, но все остальное в папке «public» будет.
Чтобы включить несколько каталогов или страниц, просто перечислите их в следующих строках:
Disallow: / частный / Disallow: / admin / Disallow: / cgi-bin / Disallow: / temp /
Эти четыре строки будут применяться к любому пользовательскому агенту, который вы указали в верхней части раздела.
Если вы хотите, чтобы боты не смотрели любую страницу вашего сайта, используйте это:
Disallow: /
Установка разных стандартов для ботов
Как мы видели выше, вы можете указать определенные страницы для разных ботов. Комбинируя предыдущие два элемента, вот как это выглядит:
Пользователь-агент: googlebot. Disallow: / admin / Disallow: / private / User-agent: bingbot. Disallow: / admin / Disallow: / частный / Disallow: / секрет /
Разделы «admin» и «private» будут невидимы в Google и Bing, но Google увидит «секретный» каталог, а Bing - нет.
Вы можете указать общие правила для всех ботов, используя пользовательский агент звездочки, а затем дать конкретные инструкции для ботов в последующих разделах.
Собираем все вместе
Обладая знаниями выше, вы можете написать полный файл robots.txt. Просто запустите ваш любимый текстовый редактор (мы поклонники возвышенного 11 возвышенных текстовых советов для повышения производительности и ускорения рабочего процессаSublime Text - это универсальный текстовый редактор и золотой стандарт для многих программистов. Наши советы направлены на эффективное кодирование, но обычные пользователи оценят сочетания клавиш. Прочитайте больше где-то здесь) и начните сообщать ботам, что они не приветствуются в определенных частях вашего сайта.
Если вы хотите увидеть пример файла robots.txt, просто зайдите на любой сайт и добавьте «/robots.txt» в конец. Вот часть файла Giant Bicycles robots.txt:

Как вы можете видеть, есть довольно много страниц, которые они не хотят показывать в поисковых системах. Они также включили несколько вещей, о которых мы еще не говорили. Давайте посмотрим, что еще вы можете сделать в своем файле исключения роботов.
Расположение вашего сайта
Если ваш файл robots.txt сообщает ботам, где не идти, твой Карта сайта делает противоположное Как создать XML Sitemap за 4 простых шагаСуществует два типа файлов Sitemap: HTML-страница или XML-файл. HTML-карта сайта - это отдельная страница, которая показывает посетителям все страницы веб-сайта и обычно содержит ссылки на них ... Прочитайте больше и помогает им найти то, что они ищут. И хотя поисковые системы, вероятно, уже знают, где находится ваша карта сайта, не повредит сообщить им об этом снова.
Декларация для местоположения карты сайта проста:
Карта сайта: [URL карты сайта]
Это оно.
В нашем собственном файле robots.txt это выглядит так:
Карта сайта: //www.makeuseof.com/sitemap_index.xml
Вот и все, что нужно сделать.
Установка задержки сканирования
Директива задержки сканирования сообщает определенным поисковым системам, как часто они могут проиндексировать страницу на вашем сайте. Он измеряется в секундах, хотя некоторые поисковые системы интерпретируют его немного по-другому. Некоторые видят, что задержка сканирования 5 означает, что они должны ждать пять секунд после каждого сканирования, чтобы начать следующий. Другие интерпретируют это как инструкцию сканировать только одну страницу каждые пять секунд.
Почему вы говорите сканеру не сканировать как можно больше? к сохранить пропускную способность 4 способа Windows 10 тратит пропускную способность вашего интернетаWindows 10 тратит впустую вашу пропускную способность интернета? Вот как проверить, и что вы можете сделать, чтобы остановить это. Прочитайте больше . Если ваш сервер не справляется с трафиком, вы можете установить задержку сканирования. В общем, большинство людей не должны беспокоиться об этом. Большие сайты с большим трафиком, однако, могут захотеть немного поэкспериментировать.
Вот как вы устанавливаете задержку сканирования в восемь секунд:
Задержка сканирования: 8
Это оно. Не все поисковые системы будут подчиняться вашей директиве. Но это не больно спрашивать. Как и при запрете страниц, вы можете установить различные задержки сканирования для определенных поисковых систем.
Загрузка файла robots.txt
Как только у вас есть все инструкции в вашем файле, вы можете загрузить его на свой сайт. Убедитесь, что это простой текстовый файл с именем robots.txt. Затем загрузите его на свой сайт, чтобы найти его на yoursite.com/robots.txt.
Если вы используете система управления контентом 10 самых популярных систем управления контентом онлайнДни HTML-страниц с ручным кодированием и освоения CSS давно прошли. Установите систему управления контентом (CMS), и через несколько минут у вас появится веб-сайт, которым вы сможете поделиться со всем миром. Прочитайте больше Как и в WordPress, вам, вероятно, нужно определенным образом решить эту проблему. Поскольку это отличается в каждой системе управления контентом, вам необходимо обратиться к документации для вашей системы.
Некоторые системы также могут иметь онлайн-интерфейсы для загрузки вашего файла. Для этого просто скопируйте и вставьте файл, созданный на предыдущих шагах.
Не забудьте обновить файл
Последний совет, который я дам, - время от времени просматривать файл исключений роботов. Ваш сайт меняется, и вам может потребоваться внести некоторые изменения. Если вы заметили странное изменение в трафике вашей поисковой системы, рекомендуется также проверить файл. Также возможно, что стандартная запись может измениться в будущем. Как и все остальное на вашем сайте, стоит проверять его время от времени.
С каких страниц вы исключаете сканеры на своем сайте? Вы заметили какую-либо разницу в поисковом трафике? Поделитесь своими советами и комментариями ниже!
Данн - консультант по контент-стратегии и маркетингу, который помогает компаниям формировать спрос и вести. Он также ведет блог о стратегии и контент-маркетинге на dannalbright.com.