Файл robots.txt

Файл robots.txt

Как, используя robots.txt, удалить содержание своего сайта из индексации поисковой системы Google

Если вы решили запретить роботам поисковых систем индексировать ваш сайт и полностью удалить его из поисковой выдачи, то вам необходимо в корневой папке вашего сайта создать файл robots.txt вот с таким содержанием:

User-agent: *
Disallow: /

Запрет индексации в robots.txt

Иногда бывает необходимо запретить индексацию своего сайта только для одной поисковой системы, например для Google, для этого вам необходимо создать в корневой папке вашего сайта файл robots.txt с таким содержанием:

User-agent: Googlebot
Disallow: /

Индивидуальный файл robots.txt должен создаваться для каждого порта. Если у вас используются протоколы https и http, для каждого нужно составить свой robots.txt. Поэтому, если Для этого, если вам необходимо разрешить индексацию всех страниц поисковому роботу Google протокола http и поставить запрет на сканирование протокола https, то необходимо создать файлы robots.txt с таким содержанием.

Для протокола https (https://site.ru/robots.txt):

User-agent: *
Disallow: /

Для протокола http (http://site.ru/robots.txt):

User-agent: *
Allow: /

Запрет индексации отдельных страниц сайта

Для того, чтобы исключить, например категории или отдельные страницы вашего сайта, нужно разместить файл robots.txt в корневой папке сервера. При создании файла robots.txt необходимо учесть некоторые следующие моменты. Робот Google сканирует ваш сайт, исходя из первой записи в файле robots.txt, где параметр User-agent начинается со слова Googlebot. Если у вас не имеется такой записи, то выполняется первое правило, в котором User-agent – «*». Также Google может использовать файл robots.txt более гибко, применяя звездочки. В шаблоне запрета индексации символ «*» означает любую последовательность символов. Также шаблон может заканчиваться символом «$», он обозначает конец имени.

Если вы хотите удалить все страницы какого-нибудь каталога (к примеру, «forum»), необходимо добавить в файл robots.txt запись такого вида:

User-agent: Googlebot
Disallow: /forum

Также можно удалить все файлы определенного типа (к примеру .png). Для этого нужно добавить в файл robots.txt запись такого вида:

User-agent: Googlebot
Disallow: /*.png$

Все мы знаем, что на сайтах создаются динамические страницы, например личные сообщения, обратная связь и другие, чтобы робот их не индексировал нужно в файл robots.txt добавить запись такого вида:

User-agent: Googlebot
Disallow: /*?

Использование мета-тегов в файле robots.txt

Для запрета индексации HTML страниц вашего сайта можно использовать мета-теги. Чтобы поставить запрет на индексацию всеми поисковыми роботами, нужно добавить в раздел этой страницы следующий мета-тег:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Для того, чтобы запретить индексировать страницу только поисковому роботу Google, а остальным разрешить нужно применить следующий тег:

<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">

Можно также запретить роботам переходы по внешним ссылкам, но при этом разрешить индексировать страницу, для этого нужно использовать следующий тег:

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

Удаление сниппетов

Сниппет – это текст, который располагается под названием страницы в поисковой выдаче и описывает содержание страницы вашего сайта.

Если вы хотите запhетить роботу Google индексировать страницу и выводить ее сниппет, то необходимо в раздел <HEAD> написать следующий тег:

<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET">

Удаление сохраненных в кэше страниц

Все мы знаем, что при индексировании сайта Google в автоматическом режиме создает снимок каждой сканируемой страницыи и добавляет ее в архив. Благодаря этим сохраненным в кэше Google старниц, пользователи смогут просмотреть вашу страницу, даже в тот момент, когда ваш сайт недоступен (например из-за неполадки на сервере). Посетители смогут просмотреть страницы в том виде, в каком они были на момент индексации. С самого верху страницы будет написано, что они просматривают сохраненную копию страницы виз кэша Google. Но чтобы зайти на эту страницу нужно в результатах поиска откруть ссылку «Сохранено в кэше».

Многим нашим вебмастерам не нравится эта функция, поэтому чтобы запретить всем поисковым системам выводить эту ссылку на Ваш сайт, необходимо добавить в раздел <HEAD> следующий мета-тег:

<META NAME="ROBOTS" CONTENT="NOARCHIVE">

Чтобы сделать эту же операцию, но запретить выводить ссылку «Сохранено в кэше» только поисковой системе Google, нужно написать следующий тег.

<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">

Надеюсь вам пригодятся мои советы по использованию файла robots.txt.

2 комментария

  1. Артем
    12 Июн 2013 в 22:23

    С помощью вашей статьи сделал для своего сайта файл robots.txt. Все так подробно расписано, что справиться с этим сможет любой. Особо поравилось, что оказывается можно сделать запрет индексации отдельных страниц сайта. Мне именно это и нужно было. Теперь все работает

    Ответить

Ваш отзыв

Проверка на смекалку ;) соберите картинку, а потом жмите отправить комментарий!