Как, используя robots.txt, удалить содержание своего сайта из индексации поисковой системы Google
Если вы решили запретить роботам поисковых систем индексировать ваш сайт и полностью удалить его из поисковой выдачи, то вам необходимо в корневой папке вашего сайта создать файл robots.txt вот с таким содержанием:
User-agent: * Disallow: / |
Запрет индексации в robots.txt
Иногда бывает необходимо запретить индексацию своего сайта только для одной поисковой системы, например для Google, для этого вам необходимо создать в корневой папке вашего сайта файл robots.txt с таким содержанием:
User-agent: Googlebot Disallow: / |
Индивидуальный файл robots.txt должен создаваться для каждого порта. Если у вас используются протоколы https и http, для каждого нужно составить свой robots.txt. Поэтому, если Для этого, если вам необходимо разрешить индексацию всех страниц поисковому роботу Google протокола http и поставить запрет на сканирование протокола https, то необходимо создать файлы robots.txt с таким содержанием.
Для протокола https (https://site.ru/robots.txt):
User-agent: * Disallow: / |
Для протокола http (http://site.ru/robots.txt):
User-agent: * Allow: / |
Запрет индексации отдельных страниц сайта
Для того, чтобы исключить, например категории или отдельные страницы вашего сайта, нужно разместить файл robots.txt в корневой папке сервера. При создании файла robots.txt необходимо учесть некоторые следующие моменты. Робот Google сканирует ваш сайт, исходя из первой записи в файле robots.txt, где параметр User-agent начинается со слова Googlebot. Если у вас не имеется такой записи, то выполняется первое правило, в котором User-agent – «*». Также Google может использовать файл robots.txt более гибко, применяя звездочки. В шаблоне запрета индексации символ «*» означает любую последовательность символов. Также шаблон может заканчиваться символом «$», он обозначает конец имени.
Если вы хотите удалить все страницы какого-нибудь каталога (к примеру, «forum»), необходимо добавить в файл robots.txt запись такого вида:
User-agent: Googlebot Disallow: /forum |
Также можно удалить все файлы определенного типа (к примеру .png). Для этого нужно добавить в файл robots.txt запись такого вида:
User-agent: Googlebot Disallow: /*.png$ |
Все мы знаем, что на сайтах создаются динамические страницы, например личные сообщения, обратная связь и другие, чтобы робот их не индексировал нужно в файл robots.txt добавить запись такого вида:
User-agent: Googlebot Disallow: /*? |
Использование мета-тегов в файле robots.txt
Для запрета индексации HTML страниц вашего сайта можно использовать мета-теги. Чтобы поставить запрет на индексацию всеми поисковыми роботами, нужно добавить в раздел этой страницы следующий мета-тег:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> |
Для того, чтобы запретить индексировать страницу только поисковому роботу Google, а остальным разрешить нужно применить следующий тег:
<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW"> |
Можно также запретить роботам переходы по внешним ссылкам, но при этом разрешить индексировать страницу, для этого нужно использовать следующий тег:
<META NAME="ROBOTS" CONTENT="NOFOLLOW"> |
Удаление сниппетов
Сниппет – это текст, который располагается под названием страницы в поисковой выдаче и описывает содержание страницы вашего сайта.
Если вы хотите запhетить роботу Google индексировать страницу и выводить ее сниппет, то необходимо в раздел <HEAD> написать следующий тег:
<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET"> |
Удаление сохраненных в кэше страниц
Все мы знаем, что при индексировании сайта Google в автоматическом режиме создает снимок каждой сканируемой страницыи и добавляет ее в архив. Благодаря этим сохраненным в кэше Google старниц, пользователи смогут просмотреть вашу страницу, даже в тот момент, когда ваш сайт недоступен (например из-за неполадки на сервере). Посетители смогут просмотреть страницы в том виде, в каком они были на момент индексации. С самого верху страницы будет написано, что они просматривают сохраненную копию страницы виз кэша Google. Но чтобы зайти на эту страницу нужно в результатах поиска откруть ссылку «Сохранено в кэше».
Многим нашим вебмастерам не нравится эта функция, поэтому чтобы запретить всем поисковым системам выводить эту ссылку на Ваш сайт, необходимо добавить в раздел <HEAD> следующий мета-тег:
<META NAME="ROBOTS" CONTENT="NOARCHIVE"> |
Чтобы сделать эту же операцию, но запретить выводить ссылку «Сохранено в кэше» только поисковой системе Google, нужно написать следующий тег.
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE"> |
Надеюсь вам пригодятся мои советы по использованию файла robots.txt.
С помощью вашей статьи сделал для своего сайта файл robots.txt. Все так подробно расписано, что справиться с этим сможет любой. Особо поравилось, что оказывается можно сделать запрет индексации отдельных страниц сайта. Мне именно это и нужно было. Теперь все работает
Удачи в продвижении сайта Артем!