Рекламное объявление
Вы верите в то, что если что-то опубликовано в Интернете, оно публикуется навсегда? Что ж, сегодня мы собираемся развеять этот миф.
Правда в том, что во многих случаях вполне возможно искоренить информацию из Интернета. Конечно, есть запись веб-страниц, которые были удалены при поиске Wayback Machine, верно? Да, абсолютно. На Wayback Machine есть записи о веб-страницах, появившихся много лет назад - страницы, которые вы не найдете с помощью поиска Google, потому что веб-страница больше не существует. Кто-то удалил его, или сайт был закрыт.
Так что, обойти это невозможно, верно? Информация навсегда будет выгравирована на камне Интернета, что там увидят поколения? Ну, не совсем так.
Правда заключается в том, что хотя может быть трудно или невозможно уничтожить основные новостные сюжеты, которые распространяются с одного новостного сайта или блога на другой, как вирус, на самом деле довольно легко полностью удалить веб-страницу или несколько веб-страниц из всех записей о существовании - удалить эту страницу для обеих поисковых систем, а также
Wayback Machine Новая машина Wayback позволяет визуально путешествовать в ИнтернетПохоже, что с момента запуска Wayback Machine в 2001 году владельцы сайтов решили отказаться от серверной части на основе Alexa и перепроектировать ее со своим собственным открытым исходным кодом. После проведения испытаний с ... Подробнее . Конечно, есть одна загвоздка, но мы вернемся к этому.3 способа удалить страницы блога из сети
Первый метод - тот, который используют большинство владельцев веб-сайтов, потому что они не знают ничего лучше - просто удаляют веб-страницы. Это может произойти из-за того, что вы поняли, что на вашем сайте есть дублированный контент, или из-за того, что у вас есть страница, которую вы не хотите показывать в результатах поиска.
Просто удалите страницу
Проблема с полным удалением страниц с вашего веб-сайта заключается в том, что вы уже создали страницу на нет, вероятно, будут ссылки с вашего собственного сайта, а также внешние ссылки с других сайтов на этот конкретный сайт. стр. Когда вы удалите его, Google сразу же распознает вашу страницу как отсутствующую.
Таким образом, удаляя свою страницу, вы не только создали проблему с ошибками сканирования «Не найдено» для себя, но и создали проблему для всех, кто когда-либо ссылался на страницу. Обычно пользователи, которые попадают на ваш сайт по одной из этих внешних ссылок, видят вашу страницу 404, которая не является Основная проблема, если вы используете что-то вроде пользовательского кода Google 404, чтобы дать пользователям полезные советы или альтернативы. Но вы думаете, что могут быть более изящные способы удаления страниц из результатов поиска, не используя все эти 404 для существующих входящих ссылок, верно?
Ну, есть.
Удалить страницу из результатов поиска Google
Прежде всего, вы должны понимать, что если веб-страница, которую вы хотите удалить из результатов поиска Google, не является страницей с вашего собственного сайта, тогда вам не повезет, если на то нет законных оснований или если сайт разместил вашу личную информацию в Интернете без вашего разрешение. Если это так, то используйте Google устранение неполадок удаления отправить запрос на удаление страницы из результатов поиска. Если у вас есть действительный случай, вы можете найти некоторый успех, удалив страницу - конечно, вы могли бы иметь еще больший успех, просто связаться с владельцем сайта Как удалить ложную личную информацию в ИнтернетеКонфиденциальность в Интернете больше не гарантируется. Узнайте, как сообщить о веб-сайте и удалить личную информацию из Интернета. Подробнее как я описал, как это сделать еще в 2009 году.
Теперь, если страница, которую вы хотите удалить из результатов поиска, находится на вашем собственном сайте, вам повезло. Все, что вам нужно сделать, это создать robots.txt файл и убедитесь, что вы запретили либо конкретную страницу, которую вы не хотите в результатах поиска, либо весь каталог с содержимым, которое вы не хотите индексировать. Вот как выглядит блокировка одной страницы.
Пользователь-агент: * Disallow: /my-deleted-article-that-i-want-removed.html
Вы можете запретить ботам сканировать целые каталоги вашего сайта следующим образом.
Пользователь-агент: * Disallow: / content-about-personal-stuff /
У гугл страница поддержки это может помочь вам создать файл robots.txt, если вы никогда его не создавали. Это работает очень хорошо, как я недавно объяснил в статье о структурирование сделок по синдикации Как договориться о сделках синдикации и защитить ваш рейтинг поискаВ наши дни синдицирует вся ярость. Но вдруг вы можете обнаружить, что партнер по синдикации указан выше, чем вы, в результатах поиска по истории, которую вы изначально написали! Защитите свой рейтинг поиска. Подробнее чтобы они не причинили вам вреда (попросив партнеров по синдикации запретить индексацию своих страниц там, где вы синдицированы). Как только мой партнер по синдикации согласился сделать это, страницы с дублированным контентом из моего блога полностью исчезли из поисковых списков.
Только основной веб-сайт занимает третье место для страницы, где они перечисляют наш заголовок, но мой блог теперь указан как на первом, так и на втором месте; что-то, что было бы почти невозможно, если бы сайт с более высоким авторитетом оставил проиндексированную дублированную страницу.
Многие люди не понимают, что этого также можно достичь с помощью Интернет-архива (Wayback Machine). Вот строки, которые нужно добавить в файл robots.txt, чтобы это произошло.
Пользователь-агент: ia_archiver. Disallow: / образец категории /
В этом примере я говорю интернет-архиву, что нужно удалить что-либо из подкаталога категории-образца на моем сайте с Wayback Machine. Интернет-архив объясняет, как это сделать, на странице справки об исключении. Здесь также объясняется, что «Интернет-архив не заинтересован в предоставлении доступа к веб-сайтам или другим интернет-документам, авторы которых не хотят, чтобы их материалы находились в коллекции».
Это противоречит общепринятому мнению, что все, что публикуется в Интернете, попадает в архив на всю вечность. Нет, веб-мастера, владеющие контентом, могут специально удалить контент из архива, используя подход robots.txt.
Удалить отдельную страницу с метатегами
Если у вас есть только несколько отдельных страниц, которые вы хотите удалить из результатов поиска Google, вам на самом деле не нужно использовать подход robots.txt В общем, вы можете просто добавить правильный метатег «роботы» на отдельные страницы и сказать роботам не индексировать и не переходить по ссылкам на всю страницу. стр.
Вы можете использовать мету «роботы», описанную выше, чтобы запретить роботам индексировать страницу, или вы могли бы специально сообщить роботу Google не индексировать, поэтому страница удаляется только из результатов поиска Google, и другие поисковые роботы все еще могут получить доступ к странице содержание.
От вас зависит, как вы захотите управлять тем, что роботы делают со страницей, и будет ли страница указана в списке. Для нескольких отдельных страниц это может быть лучшим подходом. Чтобы удалить весь каталог содержимого, используйте метод robots.txt.
Идея «удаления» контента
Такого рода идея «удаления контента из Интернета» перевернулась с ног на голову. Технически, если вы удалите все свои собственные ссылки на страницу на своем сайте и удалите ее из поиска Google и Интернет-архив, используя технику robots.txt, страница для всех целей «удалена» из Интернета. Круто то, что при наличии существующих ссылок на страницу эти ссылки будут работать, и вы не вызовете 404 ошибки для этих посетителей.
Это более «щадящий» подход к удалению контента из Интернета без полного искажения существующей ссылки вашего сайта в Интернете. В конце концов, как вы решите, какой контент собирается поисковыми системами и интернет-архивом, зависит только от вас, но всегда помните, что, несмотря на то, что люди говорят о продолжительности жизни, публикуемой в Интернете, это действительно полностью в вашем контроль.
Райан имеет степень бакалавра в области электротехники. Он 13 лет проработал в области автоматизации, 5 лет - в сфере информационных технологий, а сейчас является инженером приложений. Бывший управляющий редактор MakeUseOf, он выступал на национальных конференциях по визуализации данных и был представлен на национальном телевидении и радио.