Форум твоего направления - Инфо Создание файла robots.txt

Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать области сайта, которые не должны индексироваться.

Файл robot.txt
Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем "robots.txt" (http://www.mydomain.com/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет. Формат файла robots.txt - особый. Он состоит из записей. Каждая запись состоит из двух полей:

строка с названием клиентского приложения (user-agent)
одна или несколько строк, начинающихся с директивы Disallow:

Robots.txt должен создаваться в текстовом формате Unix. Большинство хороших текстовых редакторов уже умеют превращать символы перевода строки Windows в Unix. Либо ваш FTP-клиент должен уметь это делать. Для редактирования не пытайтесь пользоваться HTML-редактором, особенно таким, который не имеет текстового режима отображения кода.

Поле User-agent

Строка User-agent содержит название робота. Например:
---------------------------------------------------------------------------------------------------------------------------------
User-agent: googlebot
---------------------------------------------------------------------------------------------------------------------------------
Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки "*":
---------------------------------------------------------------------------------------------------------------------------------
User-agent: *
---------------------------------------------------------------------------------------------------------------------------------
Названия роботов вы можете найти в логах вашего веб-сервера. Для этого выберите только запросы к файлу robots.txt. большинство поисковых серверов присваивают короткие имена своим паукам-индексаторам.

Поле Disallow

Вторая часть записи состоит из строк Disallow. Эти строки - директивы для данного робота. Они сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Например следующая директива запрещает паукам индексировать файл email.htm:
---------------------------------------------------------------------------------------------------------------------------------
Disallow: email.htm
---------------------------------------------------------------------------------------------------------------------------------
Директива может содержать и название каталога:
---------------------------------------------------------------------------------------------------------------------------------
Disallow: /cgi-bin/
---------------------------------------------------------------------------------------------------------------------------------
Эта директива запрещает паукам-индексаторам лезть в каталог "cgi-bin".

В директивах Disallow могут также использоваться и символы подстановки. Стандарт диктует, что директива /bob запретит паукам индексировать и /bob.html и /bob/index.html.

Если директива Disallow будет пустой, это значит, что робот может индексировать ВСЕ файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Пробелы и комментарии

Любая строка в robots.txt, начинающаяся с #, считается комментарием. Стандарт разрешает использовать комментарии в конце строк с директивами, но это считается плохим стилем:
---------------------------------------------------------------------------------------------------------------------------------
Disallow: bob #comment
---------------------------------------------------------------------------------------------------------------------------------
Некоторые пауки не смогут правильно разобрать данную строку и вместо этого поймут ее как запрет на индексацию ресурсов bob#comment. Мораль такова, что комментарии должны быть на отдельной строке.

Пробел в начале строки разрешается, но не рекомендуется.
---------------------------------------------------------------------------------------------------------------------------------
Disallow: bob #comment
---------------------------------------------------------------------------------------------------------------------------------

Примеры robots.txt

Следующая директива разрешает всем роботам индексировать все ресурсы сайта, так как используется символ подстановки "*".
---------------------------------------------------------------------------------------------------------------------------------
User-agent: *
Disallow:
---------------------------------------------------------------------------------------------------------------------------------

Эта директива запрещает всем роботам это делать:
---------------------------------------------------------------------------------------------------------------------------------
User-agent: *
Disallow: /
---------------------------------------------------------------------------------------------------------------------------------

Данная директива запрещает всем роботам заходить в каталоги "cgi-bin" и "images":
---------------------------------------------------------------------------------------------------------------------------------
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
---------------------------------------------------------------------------------------------------------------------------------

Данная директива запрещает роботу Roverdog индексировать все файлы сервера:
---------------------------------------------------------------------------------------------------------------------------------
User-agent: Roverdog
Disallow: /
---------------------------------------------------------------------------------------------------------------------------------

Данная директива запрещает роботу googlebot индексировать файл cheese.htm:
---------------------------------------------------------------------------------------------------------------------------------
User-agent: googlebot
Disallow: cheese.htm
---------------------------------------------------------------------------------------------------------------------------------
Если вас интересуют более сложные примеры, попутайтесь вытянуть файл robots.txt с какого-нибудь крупного сайта.

Несмотря на то, что директив для создания файла robots.txt не так много, и создать его, по крайней мере, для небольшого сайта не составляет особого труда вебмастера при написании файла robots.txt допускают некоторые ошибки, которые влияют тем или иным образом на индексацию сайта в целом. Список некоторых распространненых ошибок:

1. Перевернутый синтаксис
---------------------------------------------------------------------------------------------------------------------------------
User-agent: *
Disallow: scooter

А должно быть так:

User-agent: scooter
Disallow: *
---------------------------------------------------------------------------------------------------------------------------------

2. Несколько директив Disallow в одной строке:
---------------------------------------------------------------------------------------------------------------------------------
Disallow: /css/ /cgi-bin/ /images/

А должно быть так:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
---------------------------------------------------------------------------------------------------------------------------------
Различные пауки поймут эту директиву по разному. Некоторые проигнорируют пробелы и поймут директиву как запрет на индексацию каталога /css//cgi-bin//images/. Либо они возьмут только один каталог (/images/ или /css/) и проигнорируют все остальное.

3. Комментарии в конце строки:

Согласно стандарту, это верно:
---------------------------------------------------------------------------------------------------------------------------------
Disallow: /cgi-bin/ #this bans robots from our cgi-bin
---------------------------------------------------------------------------------------------------------------------------------
Но в недавнем прошлом были роботы, которые заглатывали всю строку в качестве директивы. Сейчас нам такие роботы неизвестны, но оправдан ли риск? Размещайте комментарии на отдельной строке.

4. Пробелы в начале строки:
---------------------------------------------------------------------------------------------------------------------------------
Disallow: /cgi-bin/
---------------------------------------------------------------------------------------------------------------------------------
Стандарт ничего не говорит по поводу пробелов, но это считается плохим стилем. И опять-таки, стоит ли рисковать?

5. Редирект на другую страницу при ошибке 404:

Весьма распространено, когда веб-сервер при ошибке 404 (Файл не найден) выдает клиенту особую страницу. При этом веб-сервер не выдает клиенту код ошибки и даже не делает редиректа. В этом случае робот не понимает, что файл robots.txt отсутствует, вместо этого он получит html-страницу с каким-то сообщением. Конечно никаких проблем здесь возникнуть не должно, но стоит ли рисковать? Бог знает, как разберет робот этот html-файл, приняв его за robots.txt. чтобы этого не происходило, поместите хотя бы пустой robots.txt в корневой каталог вашего веб-сервера.

6. Конфликты директив:

Чтобы вы сделали на месте робота googlebot, увидев данные директивы?
---------------------------------------------------------------------------------------------------------------------------------
User-agent: *
Disallow: /
#
User-agent: googlebot
Disallow:
---------------------------------------------------------------------------------------------------------------------------------
Первая директива запрещает всем роботам индексировать сайт, но вторая директива разрешает роботу googlebot это делать. Так что же все-таки должен делать googlebot? Нет гаранти, что все роботы поймут эти директивы правильно. В данном примере googlebot должен проиндексировать весь сайт, а все остальные не должны уйти прямо с порога.

7. Верхний регистр всех букв - плохой стиль:
---------------------------------------------------------------------------------------------------------------------------------
USER-AGENT: EXCITE
DISALLOW:
---------------------------------------------------------------------------------------------------------------------------------
Несмотря на то, что стандарт безразлично относится к регистру букв в robots.txt, в именах каталогов и файлов регистр все-таки важен. Лучше всего следовать примерам и в верхнем регистре писать первые буквы только в словах User и Disallow.

8. Список всех файлов

Еще одна ошибка - перечисление всех файлов в каталоге:
---------------------------------------------------------------------------------------------------------------------------------
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html

Вышеприведенный пример можно заменить на:

Disallow: /AL
Disallow: /Az
---------------------------------------------------------------------------------------------------------------------------------
Помните, что начальная наклонная черта обозначает, что речь идет о каталоге. Конечно, ничто не запрещает вам перечислить парочку файлов, но мы речь ведем о стиле. Данный пример взят из файла robots.txt, размер которого превышал 400 килобайт, в нем было упомянуто 4000 файлов! Интересно, сколько роботов-пауков, посмотрев на этот файл, решили больше не приходить на этот сайт.

9. Есть только директива Disallow!

Нет такой директивы Allow, есть только Disallow! Этот пример неверный:
---------------------------------------------------------------------------------------------------------------------------------
User-agent: Spot
Disallow: /john/
allow: /jane/

Правильно будет так:

User-agent: Spot
Disallow: /john/
Disallow:
---------------------------------------------------------------------------------------------------------------------------------

10. Отсутствует открывающая наклонная черта:

Что должен сделать робот-паук с данной директивой:
---------------------------------------------------------------------------------------------------------------------------------
User-agent: Spot
Disallow: john
---------------------------------------------------------------------------------------------------------------------------------
Согласно стандартам эта директива запрещает индексировать файл "john" и каталог john". Но лучше всего, для верности, использовать наклонную черту, чтобы робот мог отличить файл от каталога.

Также некоторые вебмастера записывают в файл robots.txt ключевые слова для своего сайта - это бессмысленно! Есть такие файлы robots.txt, которые были сделаны в виде html-документов. Помните, во FrontPage делать robots.txt не стоит.

11. Неправильно настроенный сервер

Почему вдруг на запрос robots.txt веб-сервер выдает бинарный файл? Это происходит в том случае, если ваш веб-сервер настроен неправильно, либо вы неправильно закачали на сервер сам файл.

Всегда после того, как вы закачали файл robots.txt на сервер, проверяйте его. Достаточно в броузере набрать простой запрос: http://www.mydomain.com/robots.txt. Вот и все что нужно для проверки.

Также стоит помнить, что Google - первый поисковый сервер, который поддерживает в директивах регулярные выражения. Что позволяет запрещать индексацию файлов по их расширениям. Например:
---------------------------------------------------------------------------------------------------------------------------------
User-agent: googlebot
Disallow: *.cgi
---------------------------------------------------------------------------------------------------------------------------------
В поле user-agent вам следует использовать имя "googlebot". Не рискуйте давать подобную директиву другим роботам-паукам.

МЕТА-тег robots

МЕТА тег robots служит для того, чтобы разрешать или запрещать роботам, приходящим на сайт, индексировать данную страницу. Кроме того, этот тег предназначен для того, чтобы предлагать роботам пройтись по всем страницам сайта и проиндексировать их. Сейчас этот тег приобретает все большее значение.

Кроме того, этим тегом могут воспользоваться те, кто не имеет доступ к корневому каталогу сервера и соответственно не может изменить файл robots.txt.

Формат мета-тега Robots

Мета тег robots помещается в тег html-документа. Формат достаточно прост (регистр букв значения не играет):
---------------------------------------------------------------------------------------------------------------------------------
<HTML>
<HEAD>
<META NAME=ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<META NAME="DESCRIPTION" CONTENT="Эта страница ….">
<TITLE>...</TITLE>
</HEAD>
<BODY>
---------------------------------------------------------------------------------------------------------------------------------

Значения мета-тега robots

Данному мета-тегу можно присвоить четыре варианта значений. Атрибут content может содержать следующие значения:

INDEX - говорит роботу, что данную страницу можно индексировать
NOINDEX - говорит роботу, что данная страница запрещена к индексированию
FOLLOW - сообщает роботу, что ему разрешается пройтись по ссылкам, присутствующим на данной странице. Некоторые вебмастера утверждают, что при отсутствии данных значений, поисковые сервера по умолчанию действуют так, как если бы им даны были директивы INDEX и FOLLOW.
NOFOLLOW - сообщает роботу, что ему запрещено посещать ссылки на странице

Итак, глобальные директивы выглядят так:

Индексировать всё = INDEX, FOLLOW

Не индексировать ничего = NOINDEX,NOFLLOW

Примеры мета-тега robots:

<META NAME=ROBOTS" CONTENT="NOINDEX, FOLLOW"> - Запрещено индексировать страницу, но разрешено обойти ссылки
<META NAME=ROBOTS" CONTENT="INDEX, NOFOLLOW"> - Разрешено индексировать страницу, но запрещено следовать по ссылкам
<META NAME=ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> - Полный запрет на индексирование

Источник давно валялось на пк так што источник не помню:60: