Товаров: 0 (0р.)

Robots noindex nofollow: Robots meta tag, data-nosnippet, and X-Robots-Tag specifications

Содержание

Мета-тег Robots — Robots.Txt по-русски

МЕТА-тег “Robots” позволяет указывать Роботам, можно ли индексировать данную страницу и можно ли использовать ссылки, приведенные на странице. Этот тег указывается на каждой конкретной странице, доступ к которой требуется ограничить.

В этом простом примере:

META NAME=»ROBOTS» CONTENT=»NOINDEX, NOFOLLOW»

робот не должен ни индексировать документ, ни анализировать стоящие на нем ссылки.

МЕТА-тег “Robots” – это простой инструмент для указания роботам, может ли страница быть проиндексирована и можно ли следовать по ссылкам со страницы.

Он отличается от Стандарта исключения для роботов тем, что вам не нужно тратить много усилий или получать доступ у Администратора cервера.

Куда писать META-тег “Robots”

Как и любой META-тег он должен быть помещен в область HEAD HTML страницы:

<html>
<head>
<meta name=“robots” content=“noindex,nofollow”>
<meta name=“description” content=“Эта страница ….”>
<title>…</title>

</head>
<body>

Что писать в META-теге “Robots”

META-тег “Robots” содержит указания, разделенные запятыми. В настоящее время определены существующие указания [NO]INDEX и [NO]FOLLOW. Директивы INDEX указывают, может ли робот индексировать страницу. Директива FOLLOW указывает роботу, может ли он следовать по ссылкам со страницы. Значения по умолчанию – INDEX и FOLLOW. Значения ALL и NONE обозначают активность всех директив и, соответственно, наоборот: ALL=INDEX,FOLLOW и NONE=NOINDEX,NOFOLLOW.

Несколько примеров:

<meta name=“robots” content=“index,follow”>
<meta name=“robots” content=“noindex,follow”>
<meta name=“robots” content=“index,nofollow”>
<meta name=“robots” content=“noindex,nofollow”>


Следует учесть, что параметр content тега “robots” нечувствителен к регистру.

Вы не должны включать конфликтующие и повторяющиеся директивы, как например:

<meta name=“robots” content=“INDEX,NOINDEX,NOFOLLOW,FOLLOW,FOLLOW”>

Правильный синтаксис атрибутов META-тега “Robots”:

content = all | none | directives
all = «ALL»
none = «NONE»
directives = directive [«,» directives]
directive = index | follow
index = «INDEX» | «NOINDEX»
follow = «FOLLOW» | «NOFOLLOW»

это программы, помогающие пользователям – например в выборе продукта, заполнении форм или даже в поиске. Такие программы имеют очень небольшое отношение к сетевому взаимодействию.

Дополнительно

Несколько ссылок по теме – постепенно надо будет добавить информацию из них на эту страницу.

Мета-тег Robots в стандарте HTML 4 на W3C
Как разные поисковики обрабатывают noindex
Запрет использования в выдаче описания из ODP

Зачем в SEO использовать noindex и nofollow

Первое на что стоит обратить внимание, это на то, что существует несколько разных понятий: атрибут – rel=”nofollow”, тег – <noindex> и метатег – <meta name=”robots” content=”noindex, nofollow” />.

Ниже в статье мы подробнее разберёмся с определениями и предназначениями данных понятий.

Тег noindex

С помощью тега noindex можно выделить отдельный фрагмент текста и закрыть его от индексации робота поисковой системы. Также с его помощью, можно блокировать индексацию отдельных страниц сайта, которые предназначены для публикации пользовательского контента например, страницы с отзывами или комментариями и пр.

Данный тег в HTML-коде может прописываться где угодно вне зависимости от уровня вложенности. Пример написания тега выглядит следующим образом:

  • < !—noindex— >текст, который мы хотим скрыть от индексации<!—/noindex— >
  • <noindex>ссылка, которою необходимо скрыть от индексации</noindex>

Важно знать, что тег noindex не учитывается ПС Google. Система попросту игнорирует его присутствие и проводит полную индексацию текстового содержания на страницах сайта.

Атрибут nofollow

В HTML-коде nofollow, является одним из множества значений, которое способно принимать атрибут rel. Использование данного атрибута rel=”nofollow” полагается в том, что бы запрещать роботам ПС индексировать и переходить по активной ссылке, на которой стоит данный атрибут.

В коде, rel=”nofollow” выглядит следующим образом:

<a href=»https://site.com/» rel=»nofollow»>текст ссылки</a>

Причины, по которым стоит пользоваться атрибутом nofollow

На самом деле есть множество причин, по которым стоит запрещать индексацию ссылок, перечислим самые актуальные и важные из них.

  • Ссылка на некачественный или нетематический сайт.
  • Огромное количество ссылок ведущие на сторонние ресурсы.
  • Защита от тех ссылок, что оставили пользователи в комментариях или отзывах.
  • Перераспределение и сохранение веса страниц.
  • Потребность в создании естественного ссылочного профиля.

Также, можно использовать одновременно тех noindex и атрибут nofollow, выглядеть данное сочетание будет так:

<noindex><a href=»http://site.com/» rel=»nofollow»>текст ссылки</a></noindex>

Что правда, такой метод работать полноценно не будет для роботов ПС Google, так как они понимают только атрибут – rel=»nofollow».

Мета-тег <meta name=”robots” content=”noindex, nofollow” />

Для начала рассмотрим, что такое метатег robots и зачем он нужен. Мета-тег robots – это код гипертекстовой разметки, который позволяет контролировать индексирование и показ страниц веб-сайта в результатах поиска. Метатег, можно писать на любой странице ресурса в специально отведённом для него месте в HTML-коде в теге <head>. Во время индексирования, Поисковые роботы будут читать значение мета-тега robots и учитывать его в дальнейшей работе над ресурсом.

Выглядит метатег robots следующим образом:

<meta name=»robots» content=» » />

Между кавычек content указываются следующие команды для поисковых роботов:

  • Index;
  • Noindex;
  • Follow;
  • Nofollow и пр.

Суть значений в мета-теге robots команд noindex и nofollow

  • запрещать индексацию на уровне страницы, при этом не запрещать роботам посещать её и переходить по ссылкам.
  • запрещать роботам ПС переходить по внешним и внутреннем ссылкам.

На практике комбинация <meta name=”robots” content=”noindex, nofollow” />, используются в случае, когда нужно запретить поисковым роботом индексировать контент на странице сайта и переходить по ссылкам.

Директивы noindex nofollow для управления контентом в поиске

Вступление

В этой статье я покажу, как, используя мета-тег robots и директивы noindex и nofollow можно управлять показом материалов сайта в результатах поиска поисковых систем Google и Яндекс.

Управление индексацией и показом материалов

Веб-мастер, имеющий доступ к каталогу и коду сайта может довольно просто управлять индексацией и показом материалов сайта в поисковых выдачах.

Управлять контентом сайта в поиске можно двумя способами:

Во-первых, создать текстовой файл robots.txt в кодировке UTF-8 и разместить его в корневом каталоге сайта. В файле, используя специальные директивы и правила, необходимо указать поисковым роботам, как обрабатывать материалы сайта.

Во-вторых, вставить мета-тег robots с директивами noindex, nofollow и нужными параметрами на (X)HTML страницы сайта или в HTTP-заголовок.

Например, синтаксис комбинированного тега robots (для поискового робота) выглядит так:

<meta name="robots" content="noindex, nofollow">

Такая же директива, обращённая к ботам Google выглядит так:

<meta name="googlebot" content="noindex, nofollow">

Эта же директива обращённая к ботам Яндекс выглядит так:

<meta name="yandex" content="noindex, nofollow" />

Директивы noindex и nofollow

Важно понимать, что директивы noindex и nofollow дают разные инструкции поисковым ботам. Кроме этих директив есть другие директивы, которые не пользуются популярностью.

noindex запрещает ботам показывать данную страницу сайта и сохранённой копии страницы в результатах поиска.

nofollow — запрещает ботам обходить ссылки на данной странице сайта.

Можно использовать директивы:

  • none — приравнивается комбинированным директивам noindex, nofollow.
  • noarchive — указывает ботам не показывать в поиске ссылку сохранённая копия.
  • all — директива по умолчанию, соответствует директивам index, follow (показывать в поиске и обходить ссылки). Разрешающие директивы можно не указывать, однако они имеют приоритет над запрещающими директивами.

Перечисленные директивы универсальны и одинаково работают для поисковиков Google и Яндекс.

Практика использования мета тегов и директив noindex, nofollow

Мета тег robots с директивами noindex и/или nofollow необходимо разместить в тегах <head> страницы (страниц) сайта.

<html>

<head>

<meta name="robots" content="noindex, nofollow" />

</head>

<body>...</body>

</html>

На практике внедрение этих тегов в код страницы делается следующим образом.

На WordPress. Установите серьёзный SEO плагин (Yoast SEO или All in One SEO Pack) и используйте теги noindex, nofollow инструментами плагина.

Для Joomla использование директив noindex, nofollow обеспечивают инструменты CMS. Для любой статьи и категории вы можете использовать теги noindex и/или nofollow в разделе мета-данные.

Директивы noindex nofollow в файле .htaccess для Apache

Можно для указания запрещающих директив использовать файл

.htaccess.

Например, запретить показ картинок PNG, JPEG, JPG, GIF в поиске можно так:

<Files ~ "\.(png|jpe?g|gif)$">

Header set X-Robots-Tag "noindex"

</Files>

Конфликт файла robots.txt и мета-тега robots

Важно понимать, что если вы запретите сканирование страницы в файле robots.txt, то директивы мета-тега robots будут проигнорированы.

Чтобы директивы работали не нужно запрещать сканирование URL станиц, где они заданы.

Кроме этого, запрещающими директивами можно закрыть весь сайт, а не только отдельные страницы.

Вывод

Мета-тег robots и директивы noindex и nofollow позволяют более тонко указывать поисковым роботам инструкции по обработке страниц сайта.

Еще статьи

Похожее

Как скрыть ссылки и текст от индексации на странице сайта?

Встречаются такие ситуации, когда требуется закрыть контент от индексации. Это может быть:

  • неуникальный контент;
  • шаблонный текст, встречающийся на всех страницах сайта;
  • ссылки на сторонние ресурсы.

Ссылки


(внешние и внутренние)

Закрывать от поисковых систем внешние ссылки необходимо, если вы не хотите, чтобы страница, имеющая ссылку, теряла свой вес.

Это может происходить следующим образом:

  • Удалением внешних ссылок. Рекомендуется убирать внешние ссылки на сторонние ресурсы.
  • Если удалить ссылку нет возможности, то необходимо скрыть ссылку от индексации посредством скрипта так, чтобы в исходном коде страницы не было <a href=»» …></a>, а блок выводился в виде: <div></div>. Далее при формировании страницы скриптом выводилось содержимое данного блока в виде ссылок и прочего.
    Сам скрипт требуется закрыть от индексации в файле robots.txt.
  • Добавлением атрибута rel=»nofollow». Необходимо прописать атрибут rel=»nofollow» для внешней ссылки (<a href=»» rel=»nofollow» target=»_blank»>текст ссылки</a>).

Помимо внешних ссылок, аналогичное рекомендуют проводить с внутренними ссылками вида добавить в корзину, вход, авторизация, фильтр, сбросить фильтр и т.д. (для всех элементов, которые сверстаны ссылками <a href>, но при этом не ведут на реальные страницы).

Текст

Если у вас на сайте используется большое количество неуникального или дублирующегося контента, то его необходимо скрыть от индексации.

Это можно сделать двумя способами:

  • выделить кусок необходимого текста с помощью тега <!—noindex—>…<!—/noindex—>
  • прописать мета-тег <meta name=»robots» content=»noindex»/> странице.

Важно

Если Вы прописали мета-тег <meta name=»robots» content=»noindex»/>, то ссылки на странице все будут доступны для поисковых систем и роботы будут переходить по ним. Поэтому необходимо добавить атрибут, nofollow, если необходимо полностью запретить индексацию страницы. Выглядеть это может следующим образом: <meta name=»robots» content=»noindex, nofollow»/> или <meta name=»robots» content=»none»/>.

#104

Февраль’19 1270 21

#94

Декабрь’18 3294 28

#60

Февраль’18 3897 19

Руководство по метатегам Robots и X-robots-tag

Перед вами дополненный (конечно же, выполненный с любовью) перевод статьи Robots Meta Tag & X-Robots-Tag: Everything You Need to Know c блога Ahrefs. Дополненный, потому что в оригинальном материале «Яндекс» упоминается лишь вскользь, а в главе про HTTP-заголовки затрагивается только сервер Apache. Мы дополнили текст информацией по метатегам «Яндекса», а в части про X-Robots-Tag привели примеры для сервера Nginx. Так что этот перевод актуален для наиболее популярных для России поисковых систем и веб-серверов. Круто, правда?

Приятного чтения!

Направить поисковые системы таким образом, чтобы они сканировали и индексировали ваш сайт именно так, как вы того хотите, порой может быть непросто. Хоть robots.txt и управляет доступностью вашего контента для ботов поисковых систем, он не указывает краулерам на то, стоит индексировать страницы или нет.

Для этой цели существуют метатеги robots и HTTP-заголовок X-Robots-Tag.

Давайте проясним одну вещь с самого начала: вы не можете управлять индексацией через robots.txt. Распространенное заблуждение — считать иначе.

Правило noindex в robots.txt официально никогда не поддерживалось Google. 2 июля 2019 года Google опубликовал новость, в которой описал нерелевантные и неподдерживаемые директивы файла robots.txt. С 1 сентября 2019 года такие правила, как noindex в robots.txt, официально не поддерживаются.

Из этого руководства вы узнаете:

  • что такое метатег robots;
  • почему robots важен для поисковой оптимизации;
  • каковы значения и атрибуты метатега robots;
  • как внедрить robots;
  • что такое X-Robots-Tag;
  • как внедрить X-Robots-Tag;
  • когда нужно использовать метатег robots, а когда — X-Robots-Tag;
  • как избежать ошибок индексации и деиндексации.

Что такое метатег robots

Это фрагмент HTML-кода, который указывает поисковым системам, как сканировать и индексировать определенную страницу. Robots помещают в контейнер <head> кода веб-страницы, и выглядит это следующим образом:

<meta name="robots" content="noindex" />

Почему метатег robots важен для SEO

Метатег robots обычно используется для того, чтобы предотвратить появление страниц в выдаче поисковых систем. Хотя у него есть и другие возможности применения, но об этом позже.

Есть несколько типов контента, который вы, вероятно, хотели бы закрыть от индексации поисковыми системами. В первую очередь это:

  • страницы, ценность которых крайне мала для пользователей или отсутствует вовсе;
  • страницы на стадии разработки;
  • страницы администратора или из серии «спасибо за покупку!»;
  • внутренние поисковые результаты;
  • лендинги для PPC;
  • страницы с информацией о грядущих распродажах, конкурсах или запуске нового продукта;
  • дублированный контент. Не забывайте настраивать тег canonical для того, чтобы предоставить поисковым системам наилучшую версию для индексации.

В общем, чем больше ваш веб-сайт, тем больше вам придется поработать над управлением краулинговой доступностью и индексацией. Еще вы наверняка хотели бы, чтобы Google и другие поисковые системы сканировали и индексировали ваш сайт с максимально возможной эффективностью. Да? Для этого нужно правильно комбинировать директивы со страницы, robots.txt и sitemap.

Какие значения и атрибуты есть у метатега robots

Метатег robots содержит два атрибута: name и content.

Следует указывать значения для каждого из этих атрибутов. Их нельзя оставлять пустыми. Давайте разберемся, что к чему.

Атрибут name и значения user-agent

Атрибут name уточняет, для какого именно бота-краулера предназначены следующие после него инструкции. Это значение также известно как user-agent (UA), или «агент пользователя». Ваш UA отражает то, какой браузер вы используете для просмотра страницы, но вот у Google UA будет, например, Googlebot или Googlebot-image.

Значения user-agent, robots, относится только к ботам поисковых систем. Цитата из официального руководства Google:

Тег <meta name="robots" content="noindex" /> и соответствующая директива применяются только к роботам поисковых систем. Чтобы заблокировать доступ другим поисковым роботам, включая AdsBot-Google, возможно, потребуется добавить отдельные директивы для каждого из них, например <meta name="AdsBot-Google" content="noindex" />.

Вы можете добавить столько метатегов для различных роботов, сколько вам нужно. Например, если вы не хотите, чтобы картинки с вашего сайта появлялись в поисковой выдаче Google и Bing, то добавьте в шапку следующие метатеги:

<meta name="googlebot-image" content="noindex" />
<meta name="MSNBot-Media" content="noindex" />

Примечание: оба атрибута — name и content — нечувствительны к регистру. То есть абсолютно не важно, напишите ли вы их с большой буквы или вообще ЗаБоРчИкОм.

Атрибут content и директивы сканирования и индексирования

Атрибут content содержит инструкции по поводу того, как следует сканировать и индексировать контент вашей страницы. Если никакие метатеги не указаны или указаны с ошибками, и бот их не распознал, то краулеры расценят гнетущую тишину их отсутствия как «да», т. е. index и follow. В таком случае страница будет проиндексирована и попадет в поисковую выдачу, а все исходящие ссылки будут учтены. Если только ссылки непосредственно не завернуты в тег rel=»nofollow» .

Ниже приведены поддерживаемые значения атрибута content.

all

Значение по умолчанию для index, follow. Вы спросите: зачем оно вообще нужно, если без этой директивы будет равным образом то же самое? И будете чертовски правы. Нет абсолютно никакого смысла ее использовать. Вообще.

<meta name="robots" content="all" />

noindex

Указывает ПС на то, что данную страницу индексировать не нужно. Соответственно, в SERP она не попадет.

<meta name="robots" content="noindex" />

nofollow

Краулеры не будут переходить по ссылкам на странице, но следует заметить, что URL страниц все равно могут быть просканированы и проиндексированы, в особенности если на них ведут внешние ссылки.

<meta name="robots" content="nofollow" />

none

Комбинация noindex и nofollow как кофе «два в одном». Google и Yandex поддерживают данную директиву, а вот, например, Bing — нет.

<meta name="robots" content="none" />

noarchive

Предотвращает показ кешированной версии страницы в поисковой выдаче.

<meta name="robots" content="noarchive" />

notranslate

Говорит Google о том, что ему не следует предлагать перевод страницы в SERP. «Яндексом» не поддерживается.

<meta name="robots" content="notranslate" />

noimageindex

Запрещает Google индексировать картинки на странице. «Яндексом» не поддерживается.

<meta name="robots" content="noimageindex" />

unavailadle_after

Указывает Google на то, что страницу нужно исключить из поисковой выдачи после указанной даты или времени. В целом это отложенная директива noindex с таймером. Бомба деиндексации с часовым механизмом, если изволите. Дата и время должны быть указаны в формате RFC 850. Если время и дата указаны не будут, то директива будет проигнорирована. «Яндекс» ее тоже не знает.

<meta name="robots" content="unavailable_after: Sunday, 01-Sep-19 12:34:56 GMT" />

nosnippet

Отключает все текстовые и видеосниппеты в SERP. Кроме того, работает и как директива noarchive. «Яндексом» не поддерживается.

<meta name="robots" content="nosnippet" />

Важное примечание

С октября 2019 года Google предлагает более гибкие варианты управления отображением сниппетов в поисковой выдаче. Сделано это в рамках модернизации авторского права в Евросоюзе. Франция стала первой страной, которая приняла новые законы вместе со своим обновленным законом об авторском праве.

Новое законодательство хоть и введено только в Евросоюзе, но затрагивает владельцев сайтов повсеместно. Почему? Потому что Google больше не показывает сниппеты вашего сайта во Франции (пока только там), если вы не внедрили на страницы новые robots-метатеги.

Мы описали каждый из нововведенных тегов ниже. Но вкратце: если вы ищете быстрое решение для исправления сложившейся ситуации, то просто добавьте следующий фрагмент HTML-кода на каждую страницу сайта. Код укажет Google на то, что вы не хотите никаких ограничений по отображению сниппетов. Поговорим об этом более подробно далее, а пока вот:

<meta name="robots" content=”max-snippet:-1, max-image-preview:large, max-video-preview:-1" />

Заметьте, что если вы используете Yoast SEO, этот фрагмент кода уже добавлен на все ваши страницы, при условии, что они не отмечены директивами noindex или nosnippet.

Нижеуказанные директивы не поддерживаются ПС «Яндекс».

max-snippet

Уточняет, какое максимальное количество символов Google следует показывать в своих текстовых сниппетах. Значение «0» отключит отображение текстовых сниппетов, а значение «-1» укажет на то, что верхней границы нет.

Вот пример тега, указывающего предел в 160 символов (стандартная длина meta description):

<meta name="robots" content="max-snippet:160" />

max-image-preview

Сообщает Google, какого размера картинку он может использовать при отображении сниппета и может ли вообще. Есть три опции:

  • none — картинки в сниппете не будет вовсе;
  • standart — в сниппете появится (если появится) картинка обыкновенного размера;
  • large — может быть показана картинка максимального разрешения из тех, что могут влезть в сниппет.

<meta name="robots" content="max-image-preview:large" />

max-video-preview

Устанавливает максимальную продолжительность видеосниппета в секундах. Аналогично текстовому сниппету значение «0» выключит опцию показа видео, значение «-1» укажет, что верхней границы по продолжительности видео не существует.

Например, вот этот тег скажет Google, что максимально возможная продолжительность видео в сниппете — 15 секунд:

<meta name="robots" content="max-video-preview:15" />

noyaca

Запрещает «Яндексу» формировать автоматическое описание с использованием данных, взятых из «Яндекс.Каталога». Для Google не поддерживается.

Примечание относительно использования HTML-атрибута data-nosnippet

Вместе с новыми директивами по метатегу robots, представленными в октябре 2019 года, Google также ввел новый HTML-атрибут data-nosnippet. Атрибут можно использовать для того, чтобы «заворачивать» в него фрагменты текста, который вы не хотели бы видеть в качестве сниппета.

Новый атрибут может быть применен для элементов <div>, <span> и <section>. Data-nosnippet — логический атрибут, то есть он корректно функционирует со значениями или без них.

Вот два примера:

<p>Фрагмент этого текста может быть показан в сниппете <span data-nosnippet>за исключением этой части.</span></p>
<div data-nosnippet>Этот текст не появится в сниппете.</div><div data-nosnippet="true">И этот тоже.</div>

Использование вышеуказанных директив

В большинстве случаев при поисковой оптимизации редко возникает необходимость выходить за рамки использования директив noindex и nofollow, но нелишним будет знать, что есть и другие опции.

Вот таблица для сравнения поддержки различными ПС упомянутых ранее директив.

Директива Google «Яндекс» Bing
all
noindex
nofollow
none
noarchive
nosnippet
max-snippet
max-snippet-preview
max-video-preview
notranslate
noimageindex
unavailable_after:
noyaca
index|follow|archive

Вы можете сочетать различные директивы.

И вот здесь очень внимательно

Если директивы конфликтуют друг с другом (например, noindex и index), то Google отдаст приоритет запрещающей, а «Яндекс» — разрешающей директиве. То есть боты Google истолкуют такой конфликт директив в пользу noindex, а боты «Яндекса» — в пользу index.

Примечание: директивы, касающиеся сниппетов, могут быть переопределены в пользу структурированных данных, позволяющих Google использовать любую информацию в аннотации микроразметки. Если вы хотите, чтобы Google не показывал сниппеты, то измените аннотацию соответствующим образом и убедитесь, что у вас нет никаких лицензионных соглашений с ПС, таких как Google News Publisher Agreement, по которому поисковая система может вытягивать контент с ваших страниц.

Как настроить метатеги robots

Теперь, когда мы разобрались, как выглядят и что делают все директивы этого метатега, настало время приступить к их внедрению на ваш сайт.

Как уже упоминалось выше, метатегам robots самое место в head-секции кода страницы. Все, в принципе, понятно, если вы редактируете код вашего сайта через разные HTML-редакторы или даже блокнот. Но что делать, если вы используете CMS (Content Management System, в пер. — «система управления контентом») со всякими SEO-плагинами? Давайте остановимся на самом популярном из них.

Внедрение метатегов в WordPress с использованием плагина Yoast SEO

Тут все просто: переходите в раздел Advanced и настраивайте метатеги robots в соответствии с вашими потребностями. Вот такие настройки, к примеру, внедрят на вашу страницу директивы noindex, nofollow:

Строка meta robots advanced дает вам возможность внедрять отличные от noindex и nofollow директивы, такие как max-snippet, noimageindex и так далее.

Еще один вариант — применить нужные директивы сразу по всему сайту: открывайте Yoast, переходите в раздел Search Appearance. Там вы можете указать нужные вам метатеги robots на все страницы или на выборочные, на архивы и структуры сайта.

Примечание: Yoast — вовсе не единственный способ управления вашим метатегами в CMS WordPress. Есть альтернативные SEO-плагины со сходным функционалом.

Что такое X-Robots-Tag

Метатеги robots замечательно подходят для того, чтобы закрывать ваши HTML-страницы от индексирования, но что делать, если, например, вы хотите закрыть от индексирования файлы типа изображений или PDF-документов? Здесь в игру вступает X-Robots-Tag.

X-Robots-Tag — HTTP-заголовок, но, в отличие от метатега robots, он находится не на странице, а непосредственно в файле конфигурации сервера. Это позволяет ему сообщать ботам поисковых систем инструкции по индексации страницы даже без загрузки содержимого самой страницы. Потенциальная польза состоит в экономии краулингового бюджета, так как боты ПС будут тратить меньше времени на интерпретацию ответа страницы, если она, например, будет закрыта от индексации на уровне ответа веб-сервера.

Вот как выглядит X-Robots-Tag:

Чтобы проверить HTTP-заголовок страницы, нужно приложить чуть больше усилий, чем требуется на проверку метатега robots. Например, можно воспользоваться «дедовским» методом и проверить через Developer Tools или же установить расширение на браузер по типу Live HTTP Headers.

Последнее расширение мониторит весь HTTP-трафик, который ваш браузер отправляет (запрашивает) и получает (принимает ответы веб-серверов). Live HTTP Headers работает, так сказать, в прямом эфире, так что его нужно включать до захода на интересующий сайт, а уже потом смотреть составленные логи. Выглядит все это следующим образом:

Как правильно внедрить X-Robots-Tag

Конфигурация установки в целом зависит от типа используемого вами сервера и того, какие страницы вы хотите закрыть от индексирования.

Строчка искомого кода для веб-сервера Apache будет выглядеть так:

Header set X-Robots-Tag «noindex»

Для nginx — так:

add_header X-Robots-Tag «noindex, noarchive, nosnippet»;

Наиболее практичным способом управления HTTP-заголовками будет их добавление в главный конфигурационный файл сервера. Для Apache обычно это httpd.conf или файлы .htaccess (именно там, кстати, лежат все ваши редиректы). Для nginx это будет или nginx.conf, где лежат общие конфигурации всего сервера, или файлы конфигурации отдельных сайтов, которые, как правило, находятся по адресу etc/nginx/sites-available.

X-Robots-Tag оперирует теми же директивами и значениями атрибутов, что и метатег robots. Это из хороших новостей. Из тех, что не очень: даже малюсенькая ошибочка в синтаксисе может положить ваш сайт, причем целиком. Так что два совета:

  • при каких-либо сомнениях в собственных силах, лучше доверьте внедрение X-Robots-Tag тем, кто уже имеет подобный опыт;
  • не забывайте про бекапы — они ваши лучшие друзья.

Подсказка: если вы используете CDN (Content Delivery Network), поддерживающий бессерверную архитектуру приложений для Edge SEO, вы можете изменить как метатеги роботов, так и X-Robots-теги на пограничном сервере, не внося изменений в кодовую базу.

Когда использовать метатеги robots, а когда — X-Robots-tag

Да, внедрение метатегов robots хоть и выглядит более простым и понятным, но зачастую их применение ограничено. Рассмотрим три примера.

Файлы, отличные от HTML

Ситуация: нужно впихнуть невпихуемое.

Фишка в том, что у вас не получится внедрить фрагмент HTML-кода в изображения или, например, в PDF-документы. В таком случае X-Robots-Tag — безальтернативное решение.

Вот такой фрагмент кода задаст HTTP-заголовок со значением noindex для всех PDF-документов на сайте для сервера Apache:

Header set X-Robots-Tag «noindex»

А такой — для nginx:

location ~* \.pdf$ { add_header X-Robots-Tag «noindex»; }

Масштабирование директив

Если есть необходимость закрыть от индексации целый домен (поддомен), директорию (поддиректорию), страницы с определенными параметрами или что-то другое, что требует массового редактирования, ответ будет один: используйте X-Robots-Tag. Можно, конечно, и через метатеги, но так будет проще. Правда.

Изменения заголовка HTTP можно сопоставить с URL-адресами и именами файлов с помощью различных регулярных выражений. Массовое редактирование в HTML с использованием функции поиска и замены, как правило, требует больше времени и вычислительных мощностей.

Трафик с поисковых систем, отличных от Google

Google поддерживает оба способа — и robots, и X-Robots-Tag. «Яндекс» хоть и с отставанием, но в конце концов научился понимать X-Robots-Tag и успешно его поддерживает. Но, например, чешский поисковик Seznam поддерживает только метатеги robots, так что пытаться закрыть сканирование и индексирование через HTTP-заголовок не стоит. Поисковик просто не поймет вас. Придется работать с HTML-версткой.

Как избежать ошибок доступности краулинга и деиндексирования страниц

Вам, естественно, нужно показать пользователям все ваши страницы с полезным контентом, избежать дублированного контента, всевозможных проблем и не допустить попадания определенных страниц в индекс. А если у вас немаленький сайт с тысячами страниц, то приходится переживать еще и за краулинговый бюджет. Это вообще отдельный разговор.

Давайте пробежимся по распространенным ошибкам, которые допускают люди в отношении директив для роботов.

Ошибка 1. Внедрение noindex-директив для страниц, закрытых через robots.txt

Официальные инструкции основных поисковых систем гласят:

«Яндекс»Google

Никогда не закрывайте через disallow в robots.txt те страницы, которые вы пытаетесь удалить из индекса. Краулеры поисковых систем просто не будут переобходить такие страницы и, следовательно, не увидят изменения в noindex-директивах.

Если вас не покидает чувство, что вы уже совершили подобную ошибку в прошлом, то не помешает выяснить истину через Ahrefs Site Audit. Смотрите на страницы, отмеченные ошибкой noindex page receives organic traffic («закрытые от индексации страницы, на которые идет органический трафик»).

Если на ваши страницы с директивой noindex идет органический трафик, то очевидно, что они все еще в индексе, и вполне вероятно, что робот их не просканировал из-за запрета в robots.txt. Проверьте и исправьте, если это так.

Ошибка 2. Плохие навыки работы с sitemap.xml

Если вы пытаетесь удалить контент из индекса, используя метатеги robots или X-Robots-Tag, то не стоит удалять их из вашей карты сайта до момента их деиндексации. В противном случае переобход этих страниц может занять у Google больше времени.

— …ускоряет ли процесс деиндексации отправка Sitemap.xml с URL, отмеченным как noindex?

— В принципе все, что вы внесете в sitemap.xml, будет рассмотрено быстрее.

Для того чтобы потенциально ускорить деиндексацию ваших страниц, установите дату последнего изменения вашей карты сайта на дату добавления тега noindex. Это спровоцирует переобход и переиндексацию.

Еще один трюк, который вы можете проделать, — загрузить sitemap.xml с датой последней модификации, совпадающей с датой, когда вы отметили страницу 404, чтобы вызвать переобход.

Джон Мюллер говорит здесь про страницы с ошибкой 404, но можно полагать, что это высказывание справедливо и для директив noindex.

Важное замечание

Не оставляйте страницы, отмеченные директивой noindex, в карте сайта на долгое время. Как только они выпадут из индекса, удаляйте их.

Если вы переживаете, что старый, успешно деиндексированный контент по каким-то причинам все еще может быть в индексе, проверьте наличие ошибок noindex page sitemap в Ahrefs Site Audit.

Ошибка 3. Оставлять директивы noindex на страницах, которые уже не находятся на стадии разработки

Закрывать от сканирования и индексации все, что находится на стадии разработки, — это нормальная, хорошая практика. Тем не менее, иногда продукт выходит на следующую стадию с директивами noindex или закрытым через robots.txt доступом к нему. Органического трафика в таком случае вы не дождетесь.

Более того, иногда падение органического трафика может протекать незамеченным на фоне миграции сайта через 301-редиректы. Если новые адреса страниц содержат директивы noindex, или в robots.txt прописано правило disallow, то вы будете получать органический трафик через старые URL, пока они будут в индексе. Их деиндексация поисковой системой может затянуться на несколько недель.

Чтобы предотвратить подобные ошибки в будущем, стоит добавить в чек-лист разработчиков пункт о необходимости удалять правила disallow в robots.txt и директивы noindex перед отправкой в продакшен.

Ошибка 4. Добавление «секретных» URL в robots.txt вместо запрета их индексации

Разработчики часто стараются спрятать страницы о грядущих промоакциях, скидках или запуске нового продукта через правило disallow в файле robots.txt. Работает это так себе, потому что кто угодно может открыть такой файл, и, как следствие, информация зачастую сливается в интернет.

Не запрещайте их в robots.txt, а закрывайте индексацию через метатеги или HTTP-заголовки.

Заключение

Правильное понимание и правильное управление сканированием и индексацией вашего сайта крайне важны для поисковой оптимизации. Техническое SEO может быть довольно запутанным и на первый взгляд сложным, но метатегов robots уж точно бояться не стоит. Надеемся, что теперь вы готовы применять их на практике!

Метатег robots | Закрыть страницу от индексации


 Статья для тех, кому лень читать справку по GoogleWebmaster и ЯндексВебмастер

Закрывание ненужных страниц веб-ресурса от поисковой индексации очень важно для его SEO-оптимизации, особенно на начальном этапе становления сайта или блога «на ноги». Такое действие способствует продвижению в SERP (СЕРП) и рекомендовано к применению для служебных страниц. К служебным страницам относятся технические и сервисные страницы, предназначенные исключительно для удобства и обслуживания уже состоявшихся клиентов. Эти страницы с неудобоваримым или дублирующим контентом, который не представляет абсолютно никакой поисковой ценности. Сюда входят – пользовательская переписка, рассылка, статистика, объявления, комментарии, личные данные, пользовательские настройки и т.д. А, также – страницы для сортировки материала (пагинация), обратной связи, правила и инструкции и т.п.
  1. Метатег robots
  2. Почему метатег robots лучше файла robots.txt
Метатег robots

Для управления поведением поисковых роботов на веб-странице, в HTML существует метатег robots и его атрибут content. закрытия веб-страницы от поисковой индексации,


nofollow и noindex – самые загадочные персонажи разметки html-страницы, главная задача которых состоит в запрете индексирования ссылок и текстового материала веб-страницы поисковыми роботами.

nofollow (Яндекс & Google)

nofollow – валидное значение в HTML для атрибута rel тега «a» (rel=»nofollow»)
Это значение предназначено для поисковых систем.
Оно устанавливает запрет на переход по ссылке и последующее её индексирование.

rel=»nofollow» – не переходить по ссылке

Оба главных русскоязычных поисковика (Google и Яндекс) – прекрасно знают атрибут rel=»nofollow» и, поэтому – превосходно управляются с ним. В этом, и Google, и Яндекс, наконец-то – едины. Ни один поисковый робот не пойдёт по ссылке, если у неё имеется атрибут rel=»nofollow»:

<a href=»http://example.ru» rel=»nofollow»>анкор (видимая часть ссылки)</a>

content=»nofollow» – не переходить по всем ссылкам на странице

Допускается указывать значение nofollow для атрибута content метатега <meta>.
В этом случае, от поисковой индексации будут закрыты все ссылки на веб-странице

<meta name=»robots» content=»nofollow»/>

Атрибут content является атрибутом тега <meta> (метатега). Метатеги используются для хранения информации, предназначенной для браузеров и поисковых систем. Все метатеги размещаются в контейнере <head>, в заголовке веб-страницы.

Действие атрибутов rel=»nofollow» и content=»nofollow»

на поисковых роботов Google и Яндекса

Действие атрибутов rel=»nofollow» и content=»nofollow»
на поисковых роботов Google и Яндекса несколько разное:

Google
Увидев атрибут rel=»nofollow» у отдельно стоящей ссылки, поисковые роботы Google не переходят по такой ссылке и не индексируют её видимую часть (анкор). Увидев атрибут content=»nofollow» у метатега <meta> в заголовке страницы, поисковые роботы Google сразу «разворачивают оглобли» и катят к себе восвояси, даже не пытаясь заглянуть на такую страницу. Таким образом, чтобы раз и навсегда закрыть от роботов Google отдельно стоящую ссылку (тег <а>) достаточно добавить к ней атрибут rel=»nofollow»:
<a href=»http://example.ru» rel=»nofollow»>Анкор</a>
А, чтобы раз и навсегда закрыть от роботов Google всю веб-страницу,
достаточно добавить в её заголовок строку с метатегом:
<meta name=»robots» content=»nofollow»/>
Яндекс
Для роботов Яндекса атрибут rel=»nofollow» имеет действие запрета только! на индексацию ссылки и переход по ней. Видимую текстовую часть ссылки (анкор) – роботы Яндекса всё равно проиндексируют.
Для роботов Яндекса атрибут метатега content=»nofollow» имеет действие запрета только! на индексацию ссылок на странице и переходов по них. Всю видимую текстовую часть веб-страницы – роботы Яндекса всё равно проиндексируют.
Для запрета индексации видимой текстовой части ссылки или страницы для роботов Яндекса – ещё потребуется добавить его любимый тег или значение noindex
noindex – не индексировать текст

(тег и значение только для Яндекса)

Тег <noindex> не входит в спецификацию HTML-языка.
Тег <noindex> – это изобретение Яндекса, который предложил в 2008 году использовать этот тег в качестве маркера текстовой части веб-страницы для её последующего удаления из поискового индекса. Поисковая машина Google это предложение проигнорировала и Яндекс остался со своим ненаглядным тегом, один на один. Поскольку Яндекс, как поисковая система – заслужил к себе достаточно сильное доверие и уважение, то придётся уделить его любимому тегу и его значению – должное внимание.

Тег <noindex> – не признанное изобретение Яндекса

Тег <noindex> используется поисковым алгоритмом Яндекса для исключения служебного текста веб-страницы поискового индекса. Тег <noindex> поддерживается всеми дочерними поисковыми системами Яндекса, вида Mail.ru, Rambler и иже с ними.

Тег noindex – парный тег, закрывающий тег – обязателен!

Учитывая не валидность своего бедного и непризнанного тега,
Яндекс соглашается на оба варианта для его написания:
Не валидный вариант – <noindex></noindex>,
и валидный вариант – <!— noindex —><!—/ noindex —>.

Хотя, во втором случае – лошади понятно, что для гипертекстовой разметки HTML, это уже никакой не тег, а так просто – html-комментарий на веб-странице.

Тег <noindex> – не индексировать кусок текста

Как утверждает справка по Яндекс-Вебмастер, тег <noindex> используется для запрета поискового индексирования служебных участков текста. Иными словами, часть текста на странице, заключённая в теги <noindex></noindex> удаляется поисковой машиной из поискового индекса Яндекса. Размеры и величина куска текста не лимитированы. Хоть всю страницу можно взять в теги <noindex></noindex>. В этом случае – останутся в индексе одни только ссылки, без текстовой части.

Поскольку Яндекс подходит раздельно к индексированию непосредственно самой ссылки и её видимого текста (анкора), то для полного исключения отдельно стоящей ссылки из индекса Яндекса потребуется наличие у неё сразу двух элементов – атрибута rel=»nofollow» и тега <noindex>. Такой избирательный подход Яндекса к индексированию ссылок даёт определённую гибкость при наложении запретов.

Так, например, можно создать четыре конструкции, где:

Ссылка индексируется полностью
<a href=»http://example.ru»>Анкор (видимая часть ссылки)</a>
Индексируется только анкор (видимая часть) ссылки
<a href=»http://example.ru» rel=»nofollow»>Анкор</a>
Индексируется только ссылка, без своего анкора
<a href=»http://example.ru»><noindex>Анкор</noindex></a>
Ссылка абсолютно НЕ индексируется
<a href=»http://example.ru» rel=»nofollow»><noindex>Анкор</noindex></a>

Для справки: теги <noindex></noindex>, особенно их валидный вариант <!— noindex —><!—/ noindex —> – абсолютно не чувствительны к вложенности. Их можно устанавливать в любом месте HTML-кода. Главное, не забывать про закрывающий тег, а то – весь текст, до самого конца страницы – вылетит из поиска Яндекса.

Метатег noindex – не индексировать текст всей страницы

Допускается применять noindex в качестве значения для атрибута метатега content –
в этом случае устанавливается запрет на индексацию Яндексом текста всей страницы.

Атрибут content является атрибутом тега <meta> (метатег). Метатеги используются для хранения информации, предназначенной для браузеров и поисковых систем. Все метатеги размещаются в контейнере <head>, в заголовке веб-страницы.

Абсолютно достоверно, ясно и точно, что использование noindex в качестве значения атрибута content для метатега <meta> даёт очень хороший результат и уверенно «выбивает» такую страницу из поискового индекса Яндекса.

<meta name=»robots» content=»noindex»/>
Текст страницы, с таким метатегом в заголовке –
Яндекс совершенно не индексирует, но при этом он –
проиндексирует все ссылки на ней.

 

Разница в действии тега и метатега noindex

Визуально, разница в действии тега и метатега noindex заключается в том, что запрет на поисковую индексацию тега noindex распространяется только на текст внутри тегов <noindex></noindex>, тогда как запрет метатега – сразу на текст всей страницы.
Пример: <noindex>Этот текст будет не проиндексирован</noindex>

<meta name=»robots» content=»noindex»/>
Текст страницы, с таким метатегом – Яндекс полностью не индексирует

Принципиально, разница в действии тега и метатега проявляется в различиях алгоритма по их обработке поисковой машиной Яндекса. В случае с метатегом noindex, робот просто уходит со страницы, совершенно не интересуясь её содержимым (по крайней мере – так утверждает сам Яндекс). А, вот в случае с использованием обычного тега <noindex> – робот начинает работать с контентом на странице и фильтровать его через своё «ситечко». В момент скачивания, обработки контента и его фильтрации возможны ошибки, как со стороны робота, так и со стороны сервера. Ведь ни что не идеально в этом мире.
Поэтому, кусок текста страницы, заключённого в теги <noindex></noindex> – могёт запросто попасть Яндексу «на зуб» для дальнейшей поисковой индексации. Как утверждает сам Яндекс – это временное неудобство будет сохраняться до следующего посещения робота. Чему я не очень охотно верю, потому как, некоторые мои тексты и страницы, с тегом и метатегом noindex – висели в Яндексе по нескольку месяцев.

Особенности метатега noindex

Равно, как и в случае с тегом <noindex>, действие метатега noindex позволяет гибко накладывать запреты на всю страницу. Примеры метатегов для всей страницы сдерём из Яндекс-Вебмастера:

не индексировать текст страницы
<meta name=»robots» content=»noindex»/>
не переходить по ссылкам на странице
<meta name=»robots» content=»nofollow»/>
не индексировать текст страницы и не переходить по ссылкам на странице
<meta name=»robots» content=»noindex, nofollow»/>
что, аналогично следующему:
запрещено индексировать текст и переходить
по ссылкам на странице для роботов Яндекса
<meta name=»robots» content=»none»/>

Вот такой он, тег и значение noindex на Яндексе :):):).

Тег и метатег noindex для Google

Что-же касается поисковика Google, то он никак не реагирует на присутствие выражения noindex, ни в заголовке, ни в теле веб-страницы. Google остаётся верен своему валидному «nofollow», который он понимает и выполняет – и для отдельной ссылки, и для всей страницы сразу (в зависимости от того, как прописан запрет). После некоторого скрипения своими жерновами, Яндекс сдался и перестал продвижение своего тега и значения noindex, хотя – и не отказывается от него полностью. Если роботы Яндекса находят тег или значение noindex на странице – они исправно выполняют наложенные запреты.

Универсальный метатег (Яндекс & Google)

С учётом требований Яндекса, общий вид универсального метатега,
закрывающего полностью всю страницу от поисковой индексации,
выглядит так:

<meta name=»robots» content=»noindex, nofollow»/>
– запрещено индексировать текст и переходить по ссылкам на странице
для всех поисковых роботов Яндекса и Google
Почему метатег robots лучше файла robots.txt

Самый простой и популярный способ закрыть веб-страницу от индексации – это указать для неё соответствующую директиву в файле robots.txt. Для этого, собственно файл robots.txt и существует. Однако, закрывать через метатег robots – гораздо надёжнее.

И, вот почему.
Алгоритмы обработки роботами метатега robots и файла robots – совершенно различные. Работу этих алгоритмов можно сравнить с действием в известном анекдоте, где бьют не «по паспорту», а – «по морде». Пусть этот пример весьма груб и примитивен, но он, как нельзя лучше – отображает поведение поискового робота на странице:

  • В случае использования метатега robots, поисковик просто и прямо заходит на веб-страницу и читает её заголовок («смотрит в её морду». Если робот там находит метатег robots – он разворачивается и уходит восвояси. Вуаля! Всё предельно просто. Робот увидел запись, что здесь ловить нечего, и сразу же – «свалил». Ему проблемы не нужны. Это есть работа по факту записи прямо в заголовке страницы («по морде»).
  • В случае использования файла robots.txt, поисковик, перед заходом на страницу – сверяется с этим файлом (читает «паспорт»). Это есть работа по факту записи в постороннем файле («по паспорту»). Если в файле robots.txt («паспорте») прописана соответствующая директива – робот её выполняет. Если нет, то он – сканирует страницу в общем порядке, поскольку по-умолчанию – к сканированию разрешены все страницы.

Казалось-бы, какая разница.

Тем более, что сам Яндекс рассказывает следующее:

При сканировании сайта, на основании его файла robots.txt – составляется специальный список (пул), в котором ясно и чётко указываются и излагаются директории и страницы, разрешённые к поисковому индексированию сайта.

Ну, чего ещё проще – составил списочек,

прошёлся списочком по сайту,

и всё – можно «баиньки»…

Простота развеется, как майский дым, если мы вспомним, что роботов много, что все они разные, и самое главное – что все роботы ходят по ссылкам. А сей час, представим себе стандартную ситуацию, которая случается в интернете миллионы раз на дню – поисковый робот пришёл на страницу по ссылке из другого сайта. Вот он, трудяга Сети – уже стоит у ворот (у заголовка) странички. Ну, и где теперь файл robots.txt?

У робота, пришедшего на сайт по внешней ссылке, выбор не большой. Робот может, либо лично «протопать» к файлу robots.txt и свериться с ним, либо просто скачать страницу себе в кэш и уже потом разбираться – индексировать её или нет.

Как поступит наш герой, мы не знает. Это коммерческая тайна каждой поисковой системы. Несомненно, одно. Если в заголовке страницы будет указан метатег robots – поисковик выполнит его немедля. И, если этот метатег запрещает индексирование страницы – робот уйдёт немедля и без раздумий.

 

Вот теперь, совершенно ясно, что прямой заход на страницу, к метатегу robots –
всегда короче и надёжнее, нежели долгий путь через закоулки файла robots.txt

Метатег robots | Закрыть страницу от индексации на tehnopost.info

  1. Метатег robots
  2. Почему метатег robots лучше файла robots.txt

Внимание! У Вас нет прав для просмотра скрытого текста.

Индексация: использование noindex, nofollow, robots и др.

На индексацию веб-страниц можно влиять по-разному. Кроме задания специальных директив в файле robots.txt используются noindex, nofollow, robots и др. элементы в коде веб-страницы.

Тег noindex

Используется для запрета индексации части страницы, но учитывается только
поисковыми роботами Яндекса и Рамблера (Google его игнорирует)

<noindex>то, что нужно скрыть</noindex>

Атрибут rel=»nofollow»

Это атрибут тега <a>. Он не влияет на индексацию ссылки. Большинство поисковиков (кроме Google) по ней не переходит. Используется для того, чтобы сообщить поисковой системе, что рейтинг со страницы, на которой ссылка размещена, не должен передаваться по этой ссылке.

<a href="http://site.ru" rel="nofollow">Текст ссылки</a>

Это значит, что «закрывать» ссылку нужно так:

<noindex><a href="http://site.ru" rel="nofollow">Текст ссылки</a></noindex>

meta-тег

На странице meta-тег «robots» (как и все meta-теги) находится между тегами <head> и </head>. Он позволяет управлять индексацией всей страницы.

Инструкция для всех роботов:

<meta name="robots" content="значение">

Атрибут content может иметь значение

  • noindex — не индексировать
  • index -индексировать
  • nofollow- не следовать по ссылкам
  • follow- следовать по ссылкам
  • all — индексировать и следовать по ссылкам
  • none — не индексировать и не следовать по ссылкам
  • noimageindex — запретить индексирование картинок
  • noarchive — запретить выводить ссылку «Сохранено в кэше» (поисковики будут по-прежнему индексировать страницу и выводить ее фрагмент)
  • nosnippet — выводить выводить
    фрагменты страницы ( это текст, который поисковики показывают под названием страницы в результатах поиска ). При удалении фрагментов удаляются также и сохраненные в кэше страницы.

Допустимо указывать несколько значений через запятую:

<meta name="robots" content="noindex, nofollow">

Инструкция для робота Google

не индексировать картинки (ссылки будут индексироваться):

<meta name="googlebot" content="noimageindex">

Атрибут alt

Атрибут alt тега <a> задает альтернативный текст для изображения, который отображается в браузере, если не удается показать само изображение

<a href="http://site.ru"><img src="http://www.mysite.ru/image.gif" alt="Мой рисунок"/></a>

Поисковые системы запоминают значение атрибута alt при индексации страницы, но не используют его при ранжировании результатов поиска.

Известно, что Google учитывает текст атрибута alt только тех изображений, которые являются ссылками на другие страницы.

Когда используется зеркало сайта

Для того чтобы в поисковиках не было дублирования страниц с зеркала сайта, следует задать в meta-теге URL абсолютный адрес страницы, а на зеркале – абсолютный адрес страницы основного сайта.

<meta name="URL" content="абсолютный адрес страницы">

Канонизированный URL: noindex, nofollow

Высокая Этот совет очень важен и определенно требует внимания. Проблема Этот совет представляет собой ошибку или проблему, которую необходимо исправить.

Это означает, что рассматриваемый URL канонизирован, а также noindex, nofollow.

Почему это важно?

Смысл канонических ссылок — явно и недвусмысленно указывать предпочтительный URL.Если страница A канонизирована как страница B, поисковым системам будет дана инструкция «не индексировать меня, вместо этого проиндексируйте страницу B». Однако канонические индексы объединяют и комбинируют сигналы индексации, поэтому, если на странице A есть noindex, этот noindex также может быть передан на страницу B.

Таким образом, noindex и rel = canonical не должны использоваться вместе.

Джон Мюллер из Google предлагает больше ясности в ветке Reddit, где он подробно ответил на этот вопрос:

Что проверяет подсказка?

Эта подсказка сработает для любого внутреннего URL-адреса, который является noindex, nofollow и содержит элемент канонической ссылки, указывающий на другой URL-адрес.

Примеры, которые запускают эту подсказку:

Рассмотрим URL: https://example.com/page-a

Подсказка сработает для этого URL-адреса, если у него есть канонический URL-адрес, указывающий на другую внутреннюю страницу, и для роботов установлено значение noindex nofollow:

  


example


...

...

Как решить эту проблему?

Это сценарий, в котором канонический адрес явно установлен на другой URL, а директивы robots служат только для того, чтобы запутать поисковые системы и / или ослабить сигнал. Решение — просто удалить директивы robots, чтобы они не мешали каноническому.

Дополнительная литература

Протокол Robots.txt

Протокол Robots.txt

Иногда владельцы веб-сайтов могут захотеть повлиять на то, как поисковые системы в Интернете просматривают и индексируют свои сайты.Может быть много причин, чтобы посоветовать паукам держаться подальше от целых веб-сайтов или определенных элементов. Независимо от причины, стандартный способ сделать это — создать файл robots.txt, который может запретить поисковым системам посещать и индексировать определенные страницы на веб-сайте. Файл robots.txt также можно использовать для полной блокировки «пауков» поисковых систем от входа и сканирования сайта.

Файлы Robots.txt должны быть помещены в каталог HTML корневого сервера.

Составляем роботов.txt файл

Файл robots.txt может либо полностью заблокировать пауков, либо запретить поисковым системам доступ и перечисление определенных каталогов, файлов или целых веб-страниц. Чтобы создать файл robots.txt, откройте Блокнот Windows или любой другой текстовый редактор, который может сохранять простой текст ASCII. Когда файл будет готов, загрузите его в корневой каталог веб-сайта. Файл robots.txt должен содержать следующий код:

.

User-agent:
Disallow: /

Первая строка «User-agent:» указывает, какие агенты, пауки или браузеры должны читать и подчиняться командам в файле.Звездочка («*») означает «всех пауков». Вторая строка «Disallow:» определяет, какие файлы и каталоги должны быть заблокированы поисковыми системами. Косая черта (например, «Запрещать: /») означает «все».

Чтобы полностью заблокировать доступ всех пауков к веб-сайту, файл robots.txt должен иметь следующий вид:

Агент пользователя: *
Disallow: /

Чтобы исключить определенные файлы и каталоги в этом случае со спортивного веб-сайта, файл должен иметь следующую формулировку:

User-agent: *
Disallow: / hockey
Disallow: / soccer
Disallow: / press
Disallow: / about

В приведенном выше примере файл robots.txt предписывает всем поисковым системам не читать и не индексировать следующие каталоги:

http: www.websitename / hockey /
http: www.websitename / soccer /
http: www.websitename / press /
http: www.websitename / about /

Мета-тег роботов

Альтернативой использованию файла robots.txt для управления поведением пауков на веб-сайте является метатег Robots, который можно использовать для блокировки индексирования и / или сканирования гиперссылок на веб-странице «пауками». В отличие от robots.txt, который может обращаться к любой области веб-сайта, отдельный метатег Robots должен быть составлен и вставлен на каждую из страниц веб-сайта, на которых вы хотите ограничить активность посещающих пауков.

Мета-тег роботов может включать любую комбинацию параметров «noindex», «nofollow» и «noarchive», которые предписывают паукам не добавлять страницу в индекс поисковой системы, не переходить по гиперссылкам на странице и не сохранять соответственно закешированная версия страницы в архиве поисковой системы.Обратите внимание, что из основных поисковых систем только Google уважает команду «noarchive». Ниже приведены примеры метатегов для роботов:



Тег Robots Meat должен быть включен на на каждую веб-страницу , которую вы хотите исключить. Даже если домашняя страница вашего веб-сайта содержит следующий код:

Приведенный выше код указывает паукам не индексировать страницу («noindex») и не переходить по ссылкам на странице на другие страницы веб-сайта («nofollow»).Однако другие сайты могут напрямую ссылаться на внутренние страницы веб-сайта. Это означает, что поисковые пауки могут обходить домашнюю страницу и индексировать внутренние страницы, если на этих страницах нет собственных мета-команд роботов noindex.

noindex, nofollow, noarchive, noodp & noydir

Мета-тег роботов контролирует сканирование и индексацию вашей веб-страницы или публикации «пауками». В этом посте мы подробно рассмотрим все типы тегов. Мы можем использовать более одного метатега на веб-странице, но это не очень хорошая практика, потому что это может вызвать конфликты.Следовательно, это должно происходить только один раз на веб-странице.

Мета-тег роботов по умолчанию

Если вы не укажете метатег на веб-странице, то по умолчанию Spider будет сканировать и индексировать вашу веб-страницу. можно сказать, что по умолчанию он учитывает метатег ниже.

Мета-роботы noindex

Предотвращает индексацию страницы.Это означает, что если вы укажете ниже метатег для страницы, эта страница не будет отображаться в результатах поиска. Например: вы не хотите, чтобы страницы с вашими авторами появлялись в результатах поиска, поэтому для предотвращения этого вы можете использовать метатег роботов ниже на страницах авторов.

Мета-роботы nofollow

Этот метатег запрещает паукам переходить по любой ссылке на странице. Если вы новичок, это может вас сбить с толку.Позвольте мне объяснить вам подробно. Каждый раз, когда паук (бот Google) находит ссылку (внутреннюю или внешнюю) на странице, он попадает на эту веб-страницу для сканирования и индексации, чтобы заставить паука не переходить по какой-либо ссылке на странице, мы можем использовать этот тег. Чтобы лучше понять это, вы можете обратиться к моему посту Dofollow vs nofollow.

Мета-роботы noarchive

Вы должны были видеть в результатах поиска, что всякий раз, когда вы наводите курсор на какой-либо результат, он показывает снимок этой страницы в правой части поиска Google ( см. Снимок экрана ниже !! ).Это мы называем кэшированной копией веб-страницы. Чтобы предотвратить кеширование страницы, мы можем указать тег ниже.

Мета-роботы noodp

Запрещает поисковой системе (Google, Yahoo и MSN) отображать собственное описание, взятое из его каталога, вместо вашего метаописания. Использование тега ниже гарантирует, что поисковая система будет отображать ваше метаописание под результатами поиска, и было бы полезно улучшить ваш CTR.

Мета роботы нойдир

Это то же самое, что и вышеупомянутый тег NOODP, с той лишь разницей, что он применим только для Yahoo.

Рекомендации по использованию noodp и noydir: Вы можете использовать тег ниже для всех своих веб-страниц —

ИЛИ (над тегом и под двумя тегами — оба одинаковые)

Что делать, если на странице есть несколько мета-тегов роботов

Мы должны использовать его только один раз на странице и это лучшая практика, но иногда из-за комбинации SEO-дружественных тем и SEO-плагинов у нас может быть несколько экземпляров таких тегов.Поэтому для таких случаев давайте обсудим, как это интерпретируют пауки (или краулеры).

ВАРИАНТ 1: Нет конфликтующих значений в метатеге robots.

Приведенные выше два тега будут взяты так же, как:

CASE 2: Значение конфликта присутствует в метатеге robots.

Первый экземпляр:

Второй экземпляр:

В этом случае оба значения конфликтуют, так как одно сообщает noindex, а другое заставляет паука индексировать страницу. В таких случаях краулеры рассматривают первый случай конфликта.

Таким образом, бот поисковой системы будет принимать его как , потому что noindex encountres перед первым индексом.

Как заблокировать конкретного бота поисковой системы

Указав мета-имя «robots», вы фактически блокируете всех роботов поисковых систем. Однако, если вы хотите заблокировать определенного бота поисковой системы, вы можете указать имя бота вместо «роботы»

Имя BOT:

Google: GOOGLEBOT

Yahoo: SLURP

MSN: MSNBOT

СПРОСИТЬ: TEOMA

Итак, если вы хотите сделать свою страницу nofollow только для бота Google, вы можете использовать тег ниже.

Примечание. В мета-имени я дал «Googlebot» вместо «robots», чтобы сделать его применимым только для бота поисковой системы Google.

Номер ссылки

Мета-тег роботов: блог Google для веб-мастеров

<Кредит изображения>

Как удалить метатег noindex

Я случайным образом проверил несколько сообщений и страниц вашего сайта, но не нашел никакого содержания, отмеченного значком

Это все еще отображается при просмотре исходного кода сообщений или страниц? Если да, не могли бы вы предоставить несколько URL-адресов, отображающих этот тег robots.

Поддержка плагинов Джерлин

(@jerparx)

Закрыто. Больше никаких проблем.

У меня такие же проблемы, как я получаю это сообщение на всех своих страницах


Я проверил все настройки внутри WordPress, и плагин ничего не должен блокировать robots.

Не знаю, что делать, помогите пожалуйста

Hi davidaviv,

Вы имеете в виду, что нашли для всех своих страниц в Google Search Console. Если это так, единственное, что вам нужно, это подождать, пока Google проиндексирует ваши страницы, потому что он показывает результат, который был несколько дней назад. Когда вы вводите свой URL-адрес в поле поиска Google Search Console, чтобы проверить, проиндексирован ли он, вам нужно нажать кнопку, например «проверить фактический URL-адрес», чтобы увидеть правильный.Или вы можете использовать этот инструмент для этого. URL тестирования: https://www.google.com/webmasters/tools/robots-testing-tool?utm_source=support.google.com/webmasters/&utm_medium=referral&utm_campaign=+6062598&siteUrl=https://www.yecayehome.com. / & pli = 1 & authuser = 1

Я покажу вам, как удалить мета-имя = ’robots’ content = ’noindex nofollow’ в WordPress, используя замену некоторого кода внутри панели администратора.

войдите в каталог public_html , теперь вы найдете папку с именем wp-includes , дважды щелкните, чтобы открыть эту папку, найдите файл с именем general-template.php хочу отредактировать две функции.

Первый код находится внутри файла general-template.php :

  function wp_no_robots () {
if (get_option ('blog_public')) {
echo " \ n";
возвращение;
}

echo " \ n";
}  

Заменить первый код

  function wp_no_robots () {
if (get_option ('blog_public')) {
echo " \ n";
возвращение;
}
echo " \ n";
}  

Найдите второй код в файле general-template.php :

  function wp_sensitive_page_meta () {
?>


 

Заменить второй код ниже:

  function wp_sensitive_page_meta () {
?>


 

Когда это будет завершено, вернитесь к проверке веб-сайта, перейдите в Search Console, повторно отправьте URL-адрес, который вы пробовали ранее.Если вы правильно заменяете все коды, все должно петь другую мелодию.

Для получения полной информации проверьте: https://www.techboto.com/how-to-remove-wordpress-robots-meta-tag-noindex-nofollow.html

Используете .htaccess для переопределения существующего заголовка X-Robots-Tag "noindex, nofollow"?

Я пытаюсь установить X-Robots-Tag , чтобы робот Googlebot мог индексировать мой веб-сайт. У меня нет файла robots.txt , и у меня нет метатегов, относящихся к X-Robots-Tag , ни в одном из моих html-файлов.Сервер Apache возвращает заголовок с X-Robots-Tag , установленным на «noindex, nofollow» . Как отключить этот тег, отредактировав файл .htaccess ?

Вот что я получаю при использовании надстройки Chrome «Проверка исключения роботов»:

Статус X-Robots ЗАБЛОКИРОВАН noindex, nofollow.

  Дата: Вт, 23 июл 2020 20:27:46 GMT
Тип содержимого: текст / html
Длина содержимого: 1272
Подключение: keep-alive
Keep-Alive: тайм-аут = 30
Сервер: Apache / 2
X-Robots-Tag: noindex, nofollow
Последнее изменение: пт, 09 марта 2018 г., 19:26:43 GMT
ETag: "ae0-xxxxxxxxxx-gzip"
Accept-Ranges: байты
Vary: Accept-Encoding
Кодирование содержимого: gzip
Cache-Control: max-age = 3600
Истекает: Thu, 23 Jul 2020 21:27:46 GMT
  

Содержимое моего .htaccess файл:

  # сжатие текста, html, javascript, css, xml:
AddOutputFilterByType DEFLATE текст / простой
AddOutputFilterByType DEFLATE text / html
AddOutputFilterByType DEFLATE текст / xml
AddOutputFilterByType DEFLATE text / css
AddOutputFilterByType DEFLATE application / xml
AddOutputFilterByType DEFLATE application / xhtml + xml
AddOutputFilterByType DEFLATE application / rss + xml
AddOutputFilterByType DEFLATE application / javascript
AddOutputFilterByType DEFLATE application / x-javascript

# Или сжимайте файлы определенных типов по расширению:
<файлы *.html>
SetOutputFilter DEFLATE


Заголовок при успешном отключении X-Robots-Tag
В заголовке всегда указывается X-Robots-Tag "index, follow"
  

Я пробовал добавить это в конец файла .htaccess :

  <файлы * .html>
Заголовочный набор X-Robots-Tag "index, follow"

  

Затем я получаю ответ от расширения Chrome:

X-Robots ЗАБЛОКИРОВАН noindex, nofollow, index, follow.

(обратите внимание, что он дважды появляется в списке ниже.)

  Дата: Вт, 23 июл 2020 20:39:42 GMT
Тип содержимого: текст / html
Длина содержимого: 1272
Подключение: keep-alive
Keep-Alive: тайм-аут = 30
Сервер: Apache / 2
X-Robots-Tag: noindex, nofollow
Последнее изменение: пт, 09 марта 2018 г., 19:26:43 GMT
ETag: "ae0-xxxxxxxxxxxxx-gzip"
Accept-Ranges: байты
Vary: Accept-Encoding
Кодирование содержимого: gzip
Cache-Control: max-age = 3600
Истекает: Thu, 23 Jul 2020 21:39:42 GMT
X-Robots-Tag: индекс, подписка
  

Есть ли способ удалить исходный заголовок X-Robots-tag и заменить его новым? Я попробовал Header отключить X-Robots-Tag , но не пошел (все еще показывает «ЗАБЛОКИРОВАНО noindex, nofollow»).


Решение. У меня сработало включение файла robots.txt и обеспечение того, чтобы все гиперссылки заканчивались косой чертой в конце. Кажется, без косой черты я получаю перенаправление 301, которое включает оскорбительный заголовок noindex, nofollow.

Использование Noindex и Nofollow в WordPress - WPLounge.org

Атрибуты Noindex и nofollow определяют, какие части вашего сайта должны или не должны индексироваться или отслеживаться пауками поисковых систем.Итак, как реализовать эти атрибуты и какие страницы должны иметь «noindex», а какие ссылки на «nofollow»? В этой статье вы прочитаете все об использовании noindex и nofollow.

Не все части вашего сайта служат поисковым системам. В большинстве случаев паукам поисковых систем не нужно сканировать весь ваш сайт WordPress. Таким образом, вы должны тщательно выбирать, какие страницы использовать для noindex или nofollow. Давайте сначала обсудим реализацию noindex и nofollow.

Noindex или Nofollow

Noindex и nofollow - это метатеги, которые можно применять в HTML-коде страницы или путем возврата заголовка noindex в HTTP-запросе. Атрибут noindex указывает, какие страницы не следует индексировать, а атрибут nofollow указывает, по каким ссылкам не следует переходить. Обязательно различайте эти термины, прежде чем применять их. Давайте посмотрим на метатеги роботов:

В этом случае страница не будет проиндексирована и по ссылкам не будет переходить.Эти метатеги часто используются, когда это касается тестовой среды или когда веб-мастер хочет скрыть контент от индексации.

Эта страница не будет проиндексирована. Однако встроенные ссылки относятся к ценным страницам и поэтому должны быть проиндексированы.Этот метатег часто применяется к страницам фильтра товаров, чтобы избежать дублирования контента.

Что касается index и nofollow, администратор веб-сайта уверен в качестве контента на странице, но не полностью уверен в том, что по обратным ссылкам нужно переходить.Например, при ссылке на внешние ресурсы, которым вы не обязательно доверяете.

Добавить атрибут Nofollow в WordPress

Вы можете добавить атрибут nofollow к отдельным ссылкам, чтобы поисковые системы не переходили по ним. Обычная ссылка в HTML-коде выглядит так:

WordPress

WordPress

Когда вы добавляете атрибут «nofollow», HTML-код выглядит так:

WordPress

WordPress

Когда вы добавляете этот метатег, поисковые системы не отслеживают ссылку и не присваивают ей значение. Вы также можете загрузить плагин Rel Nofollow Checkbox из репозитория плагинов WordPress. После активации плагина вы заметите, что можете вставлять или редактировать каждую гиперссылку и добавлять код rel = "nofollow" .

Как добавить атрибуты Noindex или Nofollow с помощью Yoast SEO

Плагин

Yoast для SEO имеет специальный флажок, который называется « Noindex subpages of archives ». Однако пользователям необходимо перейти на премиум-аккаунт, чтобы получить доступ. После этого перейдите к Расширенные функции и, при желании, выберите noindex в пустом поле после Meta Robots Index .

Роботы с метатегами по умолчанию (индекс, подписка)

По умолчанию пауки поисковых систем будут сканировать ваши страницы и ссылки.Вы можете применить index и после метатегов роботов, но это не имеет никакой дополнительной ценности.

Примеры использования Noindex

Согласно статье поддержки Google, вы можете использовать noindex, когда root-доступ к серверу отсутствует. Это позволяет администраторам веб-сайтов контролировать доступ к вашему веб-сайту WordPress на постраничной основе. Давайте рассмотрим пять примеров использования noindex.

Авторский архив

Важно установить для архивов авторов значение , чтобы вы не пропустили «пауки» поисковых систем, просматривая дублированный контент, но при этом переходя по встроенным ссылкам.Причина в том, что у большинства блогов есть только один или два автора, что делает большинство страниц авторов такими же, как и домашняя страница блога.

Пользовательский тип сообщения

Для некоторых типов сообщений, например « Media », требуется метатег noindex. Например, когда вы загружаете изображение, вы автоматически создаете новую страницу на своем веб-сайте WordPress. Это означает целую страницу только для одного изображения и (возможно) некоторого описания. Это считается тонким контентом, и его следует держать подальше от роботов поисковых систем.Более того, часто бывает, что разработчик или плагин включает нежелательные пользовательские типы сообщений, которые вы не хотите индексировать. Следовательно, вы должны использовать пользовательские страницы для своих продуктов вместо обычных страниц продуктов, которые выводит WooCommerce, Shopify или Magento.

Спасибо страниц

Страницы с благодарностями не имеют никакой дополнительной ценности, кроме как поблагодарить нового подписчика или клиента. Следовательно, это считается тонким контентом, для которого требуется метатег noindex, который будет выглядеть так:

Это предотвратит сканирование «пауками» поисковых систем тонкого содержания, но следование ссылкам на вашей (подтверждающей) странице.

Страницы администратора и входа

Страницы администратора и входа автоматически имеют метатег noindex. Однако для некоторых веб-сайтов важно, чтобы страница входа была проиндексирована. Например, пользователи Google Drive, OneDrive, Mediafire и Dropbox часто ищут страницу входа. В этом случае вам следует добавить метатег индекса, чтобы убедиться, что поисковые системы ранжируют его.

Результаты внутреннего поиска

Результаты внутреннего поиска относятся, например, к виджету поиска в WordPress или к поиску продукта в WooCommerce.Когда вы установили Yoast SEO, вы можете добавить мета роботов noindex, просто перейдите в WordPress admin> SEO и нажмите Search Appearance . Внешний вид поиска относится к категориям, тегам, формату или другим таксономиям, если вы не хотите индексировать группу элементов. Одна из адаптаций, которую вы должны сделать, - это переключить « Показать теги в результатах поиска » на « нет », как показано на изображении ниже:

Примеры использования Nofollow

Вы можете добавлять атрибуты nofollow в текстовые ссылки.По умолчанию ссылка будет выглядеть так:

Как добавить NoFollow

Как добавить NoFollow

Чтобы поисковые системы не переходили по этой ссылке, вам нужно добавить к ссылке метатег nofollow:

Как добавить NoFollow

Как добавить NoFollow

Согласно статье поддержки Google, есть три примера использования nofollow.

Ненадежный контент

Недоверенные комментарии пользователей или записи в гостевой книге считаются ненадежным контентом. Как администратор, подумайте, следует ли добавлять атрибут nofollow в эти разделы автоматически или вручную.На некоторых веб-сайтах есть надежные участники, которые публикуют качественные ссылки. В этом случае атрибутом по умолчанию является dofollow.

Платные ссылки

Когда дело доходит до платных ссылок, вы должны добавить атрибут nofollow. Например, если ваша страница рекламирует продукты через встроенные партнерские ссылки (например, Amazon, Alibaba), подумайте о том, чтобы отказаться от подписки на нее, если она не предоставляет ценную информацию, которая добавляет к вашему контенту.

Приоритет сканирования

Google предлагает сосредоточиться на надежной информационной архитектуре, чтобы направлять робота Googlebot через ваш сайт.Это означает, что ваш веб-сайт должен иметь интуитивно понятную навигацию и понятные URL-адреса. Например, не предлагайте роботу Google перейти по ссылкам « войдите, » или « зарегистрируйтесь здесь, », добавив атрибуты nofollow.

Оцените статью
Груженый ...

Мета-тег robots

Мета-тег robots

Если ваш веб-хостинг запрещает вам загружать robots.txt в корень каталог, или вы просто хотите ограничить поисковые роботы нескольких избранных страниц на ваш сайт, альтернатива robots.txt "- использовать метатег robots.

Создание ваш метатег "robots"

Мета-тег robots похож на любой метатег и должен быть добавлен между разделом HEAD вашей страницы (ов), о которой идет речь:

  

Вот список значений, которые вы можете указать в «содержимом». атрибут этого тега:

Значение Описание
(нет) индекс Определяет, должен ли краулер проиндексируйте эту страницу.Возможные значения: noindex или index
(нет) следовать Определяет, должен ли краулер переходите по ссылкам на этой странице и просматривайте их. Возможные значения: «nofollow» и «следовать».

Вот несколько примеров:

1) Это запрещает как индексацию, так и переход по ссылкам поисковый робот на этой странице:

  

2) Это запрещает индексацию страницы, но позволяет поисковому роботу продолжить и переходить / сканировать ссылки, содержащиеся в нем.

  

3) Позволяет индексировать страницу, но указывает поисковому роботу не сканировать содержащиеся в нем ссылки:

  

4) Наконец, есть сокращенный способ объявления 1) выше (не индексировать и переходить по ссылкам на странице):

    
Полезный Ссылки на «robots.txt "

В заключение этого руководства приведу несколько полезных ресурсов на "robots.txt". В интернете. Наслаждаться!

.

alexxlab

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *