Noindex что значит: что это такое за тег для Яндекса
что это такое за тег для Яндекса
Noindex – это тег, с помощью которого можно управлять функцией индексации поискового робота. Если выделить отдельный фрагмент текста и закрыть его тегом noindex, он не будет проиндексирован поисковой системой и, соответственно, не попадет в ее кэш. Впервые данный инструмент был предложен специалистами Яндекса, чтобы у веб-мастеров появился простой способ отделения части текстового контента, которая не несет смысловой нагрузки и не должна учитываться при оценке страницы.
Вторая, не менее важная функция тега noindex, состоит в том, чтобы блокировать индексацию отдельных страниц сайта, предназначенных для публикации пользовательского контента. К таким относятся страницы с отзывами, комментариями, сообщениями и др. В данном случае noindex позволяет избежать распространения нежелательной информации и использовать менее жесткий режим модерирования пользовательских сообщений.
Тег noindex учитывает только Яндекс. Google игнорирует его присутствие и проводит полную индексацию текстового содержания страницы. Для задействования блокировки индексации, актуальной для всех поисковиков, следует прописывать соответствующий метатег для отдельных страниц или всего сайта в файле robots.txt. Недостаток данного способа очевиден: запрет на индексацию возможен только по отношению ко всей странице, но не отдельному текстовому фрагменту.
Преимущества тега noindex
- Сокрытие второстепенной информации позволяет повысить релевантность индексируемой страницы за счет возрастания относительной плотности ключевых фраз.
- С помощью noindex можно спрятать содержимое сквозных блоков, информация в которых будет дублироваться на нескольких страницах, что отразится на пессимизации сайта в поисковой выдаче Yandex.
- В некоторых случаях в сниппет может попасть нежелательная или служебная информация, которую проще всего скрыть тегом noindex.
Принцип действия
Noindex может находиться в любом месте HTML-кода вне зависимости от уровня вложенности. Для сохранения валидности кода тег следует использовать в следующем формате:
<!—noindex—>Здесь находится закрытый для индексации текст<!—/noindex—>.
Несмотря на тот факт, что noindex был изначально предложен разработчиками Yandex, использование данного инструмента может быть расценено в качестве серого метода оптимизации. Это связано с тем, что некоторые веб-мастера применяют его не по прямому назначению. В частности, от робота прячется неуникальный контент или качественный текст, не содержащий ключевых слов, рассчитанный на прочтение посетителем сайта. Одновременно поисковику предлагается насыщенный ключевыми фразами текст, тяжелый для восприятия человека.
Для борьбы с подобными методами оптимизации Yandex анализирует текст, закрытый тегом noindex, проводя его индексацию, но впоследствии отфильтровывая скрытое содержимое. В результате изучения контента страницы поисковик может принять решение о наложении санкций на сайт, если сочтет, что его владелец использует неправомерные способы влияния на результаты поисковой выдачи.
что это за тег для Яндекса
Для того чтобы сайт или отдельные его страницы попадали в выдачу поисковых машин, они должны проходить индексацию. Однако зачастую не весь текстовый контент должен индексироваться, так как на любом ресурсе могут присутствовать не несущие полезной нагрузки для SEO данные. Тег noindex позволяет скрывать ненужные фрагменты текста, в результате чего они не проходят индексацию, так как поисковик их игнорирует. Этот инструмент ввели специалисты «Яндекса», значительно упростив задачи для веб-разработчиков.
Также noindex позволяет блокировать индексацию целых страниц. Чаще всего это необходимо для того, чтобы в поисковом продвижении не участвовал пользовательский контент, например комментарии, сообщения или отзывы. Это снимает нагрузку с модераторов и позволяет без помех проводить кампании по SEO-продвижению.
На текущий момент этот тег работает только для поисковой машины «Яндекса», а Google игнорирует его и индексирует весь контент сайта, поэтому при ориентировании на него необходимо использовать файл robots.txt и соответствующие метатеги. Однако так удастся скрыть только отдельные страницы ресурса целиком, но не локальные фрагменты текста.
Что дает использование тега noindex?
- Обеспечивает максимальную релевантность страниц за счет исключения из индексации второстепенного текстового контента, способного изменить плотность ключевых слов и смысловое содержание в целом;
- Позволяет избежать блокировок или игнорирования ресурса, которые могут возникнуть по причине дублируемого на страницах текста. Его можно просто скрыть от поисковой машины;
- Исключает вероятность попадания в сниппеты ненужной информации – каких-либо технических, служебных данных.
Как это работает?
Каждая страница построена на основе HTML-кода с различными уровнями вложенности. Тег может быть прописан абсолютно в любом месте, и правильный формат его вставки будет таким:
<!—noindex—>Неиндексируемый контент<!—/noindex—>
Изначально этот тег был внедрен специалистами «Яндекса» для облегчения задач веб-разработчикам, но нередко он используется в качестве инструмента для так называемой «серой» оптимизации. То есть некоторые веб-мастера применяют его для сокрытия контента, который предназначен для прочтения пользователем, но при этом не содержит ключевых слов. Причем это может быть неуникальный контент или копипаст, использование которого в обычном режиме может привести к утрате позиций в поисковой выдаче и к блокировке ресурса. А для SEO на сайте оставляют оптимизированный фрагмент уникального текста, который остается видимым для робота.
В связи с этим «Яндекс» усовершенствовал алгоритм работы с тегом noindex, и сейчас его содержимое также проходит первичную индексацию, но впоследствии при отсутствии проблем со скрытым контентом он просто игнорируется. Если же машина сочтет, что разработчик использовал тег для «серого» продвижения, найдет признаки нерелевантности ресурса используемым запросам, то сайт будет заблокирован и не попадет в выдачу.
что такое за HTML-тег и как его использовать
Noindex – метатег, с помощью которого вы можете управлять индексацией поискового робота. Если вы выделите отдельный текстовый фрагмент и закроете его тегом noindex, то он не проиндексируется поисковой системой. Соответственно, он не будет находиться в его кеше.
Функции
Первый раз этот инструмент предложили специалисты «Яндекса», чтобы веб-мастеры могли быстро и с минимальными усилиями отделить часть текстового контента, не несущую смысловой нагрузки и нежелательную для оценки страницы.
Другая функция метатега noindex, не менее важная, заключается в блокировании индексации отдельных страниц ресурса, на которых публикуется контент пользователей. Как правило, это страницы, на которых размещены отзывы, комментарии, сообщения и др. В этом случае с помощью noindex можно использовать не самый жесткий режим модерации сообщений пользователей и избежать популяризации нежелательной информации.
Метатег noindex учитывается только «Яндексом». Для Google его наличие не играет роли. Поисковик проводит полную индексацию текстового контента страницы. Чтобы заблокировать индексацию для всех поисковиков, нужно прописать соответствующий метатег для всего сайта или отдельных страниц в файле robots.txt. Этот способ имеет очевидный недостаток: у вас не будет индексироваться целая страница, а не только отдельный текстовый фрагмент.
Преимущества noindex
-
Когда скрыта второстепенная информация, можно увеличить плотность ключевых слов и повысить релевантность индексируемой страницы.
-
Метатег noindex позволяет скрыть контент сквозных блоков, дублирующихся на нескольких страницах и негативно влияющих на позиции сайта в выдаче «Яндекса».
-
С помощью этого метатега можно скрыть нежелательную или служебную информацию, которая иногда попадает в сниппет.
Принцип действия
Noindex может располагаться в любом месте HTML-кода. Уровень вложенности не имеет значения. Чтобы сохранить валидность кода, тег нужно использовать в таком формате:
[!—noindex—] текст, спрятанный от индексации[!—/noindex—].
Несмотря на то, что noindex изначально предложили разработчики Yandex, применение этого инструмента может расцениваться как серый метод оптимизации. Причиной являются недобросовестные веб-мастеры, которые не всегда применяют его по прямому назначению и прячут от робота контент с низкой уникальностью или текст без ключевых фраз, рассчитанный на прочтение посетителями ресурса. Вместе с ним поисковику предлагается текст с обилием ключей, тяжелый для восприятия обычным человеком.
«Яндекс» борется с серыми методами оптимизации, поэтому выполняет анализ текста, закрытого метатегом noindex, проводит его индексацию, а затем отфильтровывает скрытое содержимое. После изучения контента поисковик может наложить санкции на сайт, если решит, что его владелец пользуется неправомерными способами влияния на поисковую выдачу.
| HTML | WebReference
Поисковый робот Яндекса «ходит» по сайтам, просматривает и анализирует их содержимое, после чего сохраняет указатель на текст и изображения в поисковую базу данных Яндекса. Такой процесс называется индексированием. Часть веб-страницы можно закрыть от индексирования, поместив её внутрь элемента <noindex>. Тогда при следующем посещении веб-страницы поисковый робот проигнорирует такое содержимое и не станет добавлять его в свою базу данных. Это делается по разным причинам, к примеру, закрытые от индексации ссылки не передают ТИЦ (тематический индекс цитирования).
Важно понимать, что это нестандартный элемент и придуман Яндексом для своих целей. Браузеры никак не поддерживают <noindex> и просто выводят его содержимое как обычно.
Если вам нужно закрыть ссылку для поисковиков, добавьте к ней атрибут rel со значением nofollow:
<a href="//webref.ru" rel="nofollow">Ссылка не индексируется</a>
Если требуется закрыть для поисковиков всю страницу используйте элемент <meta>, добавив его в код HTML:
<meta name="robots" content="noindex">
Или добавьте в файл robots.txt следующую строку:
Disallow: /private.html
Где private.html адрес страницы.
Закрывающий тег
Пример
<!DOCTYPE html> <html> <head> <meta charset=»utf-8″> <title>noindex</title> </head> <body> <noindex> <p>Данный текст Яндекс не будет индексировать.</p> </noindex> </body> </html>
Браузеры
В таблице браузеров применяются следующие обозначения.
- — элемент полностью поддерживается браузером;
- — элемент браузером не воспринимается и игнорируется;
- — при работе возможно появление различных ошибок, либо элемент поддерживается с оговорками.
Число указывает версию браузреа, начиная с которой элемент поддерживается.
Автор и редакторы
Автор: Клим Щербаков
Последнее изменение: 28.02.2020
Редакторы: Влад Мержевич
Noindex — Словарь— PromoPult.ru
Noindex — это инструкция для поискового робота, запрещающая индексировать определенный контент.
Noindex может быть HTML-тегом, атрибутом метатега robots, заголовком HTTP-ответа.
Тег Noindex для запрета индексации
Тег Noindex предназначен для блокировки индексации заданной части страницы. Можно выделить определенный отрезок контента в HTML-документе (например, счетчики статистики или сквозной блок на сайте), заключить между тегами Noindex и поисковый робот не станет помещать его в индекс. Синтаксис выглядит так:
<!--noindex-->Текст, не подлежащий индексации<!--/noindex-->
Данное правило блокировки работает только в отношении поисковой машины Яндекс — Google его игнорирует.
Атрибут Noindex для запрета индексации
Можно закрыть от индексации отдельную страницу сайта — для этого служит атрибут Noindex метатега Robots. Данное правило прописывается в директиве <head>
> страницы и поддерживает и Яндекс, и Google. Синтаксис следующий:
<meta name="robots" content="noindex">
В таком виде страница будет запрещена к индексации всеми известными роботами. Однако можно указать конкретный вид робота, например Googlebot:
<meta name="googlebot" content="noindex">
HTTP-заголовок для запрета индексации
Вместо использования метатега можно возвращать заголовок X-Robots-Tag. В ответе должно быть указано значение noindex. Пример HTTP-ответа, где X-Robots-Tag запрещает индексировать страницу:
HTTP/1.1 200 OK () X-Robots-Tag: noindex ()
Отличие Noindex и Nofollow
Инструкции Noindex и Nofollow часто путают, при этом они выполняют разные функции. Атрибут Nofollow тега <а>
или метатега Robots используется только в отношении ссылок на странице — для запрета перехода по ним и их учета при оценке страницы.
См. также
Noindex — это… Что такое Noindex?
noindex — имя не входящего в официальную спецификацию тега языка гипертекстовой разметки веб-страниц HTML, предназначенного для включения в него частей веб-страниц, не предлагаемых к индексации поисковыми системами.
Тег предложен российской компанией «Яндекс» в качестве альтернативы атрибуту nofollow и в настоящее время только им и распознаётся[1].
Данный тег предназначен для поисковых систем: он указывает им на то, что часть страницы, находящуюся между <noindex> и </noindex>, не следует никаким образом учитывать при индексировании данной страницы.
При использовании этого метода часть страницы, где он применяется, становится неэффективной для поисковой оптимизации.
С мая 2010 года «Яндекс» также стал учитывать микроформат nofollow[2].
Мета-тег noindex
Существует также мета-тег en:Noindex с тем же именем и с похожим предназначением. Отличие от «российского» — несколько другое использование, а также область действия (на всю страницу)[3].
Пример тега noindex:
<body> ... <noindex><a href="http://www.example.com">Попытка рекламы</a></noindex>
Пример мета-тега noindex:
<html> <head> <meta name="robots" content="noindex" /> <title>Don't index this page</title> </head>
Noindex и Википедия
Стоит отметить, что в отличие от nofollow, Википедия не «обертывает» внешние ссылки тегами noindex, что раньше могло давать почву для спама вики-статей внешними ссылками, добавляемыми «поисковыми оптимизаторами» и владельцами некоторых сайтов для собственной «раскрутки» «под Яндекс». Однако с мая 2010 и это стало бесполезным занятием.
Совместимость
Поскольку тег noindex не входит в официальную спецификацию языка HTML, то большинство HTML-валидаторов считает его ошибкой. Потому для того, чтобы сделать код с noindex валидным рекомендуется использовать тот факт, что noindex не чувствителен к вложенности и это позволяет использовать следующую конструкцию[1]:
<!--noindex-->Текст или код, который нужно исключить из индексации<!--/noindex-->
Подсветка Noindex
Подсветка seo тега noindex на сайтах в браузере Firefox [4] реализована в плагине RDS bar.
Примечания
Что такое Noindex ᐈ Хочу знать?!
Noindex – достаточно востребованный на просторах Рунета тег HTML, который ввела компания Яндекс. Представленный тег используют вебмастера, когда им необходимо запретить индексацию конкретного фрагмента странички сайта. Представленный тег учитывает только поисковой робот Яндекса.
Как использовать Noindex
Если вам необходимо, чтобы некоторые фрагменты странички были скрыты от процесса индексации, просто заключите этот самый фрагмент в тег Noindex. В итоге Яндексом данный фрагмент будет проигнорирован, но другими поисковыми системами он все-равно будет учтен.
Поскольку данный тег состоит в классе нестандартных, для соблюдения «валидности» всего текстового контента можно использовать его как комментарий.
Noindex можно использовать исключительно с текстовым контентом. Картинки или ссылки с его помощью спрятать у вас не выйдет. Любой веб-мастер знает об этом. Если вы закрываете ссылку, имеющую анкор, то поисковая система Яндекс проигнорирует только само описание. Линк все-равно будет проиндексирован.
Как прописывать Noindex с метатегом роботс
Существует метод, с помощью которого можно спрятать страницу от индексации не только Яндексом, но и другими поисковыми системами. Для этого следует воспользоваться метатегом роботс. Но если в случае с Яндексом закрывается только определенная часть страницы, то для любой другой поисковой системы документ будет невидимым полностью.
Страницы для установки на noindex
1 Авторские архивы в блоге с одним автором
Поисковый бот трепетно относится к уникальности контента. Но домашняя страница блога часто выглядит как нарезка из разных публикаций статей, размещенных на сайте в разное время. Решить задачу можно разными способами. Опубликовать на Главной странице большую статью, посвященную тематике сайта. Можно отключить от индексирования архив авторов или наоборот, запретить индексировать некоторые элементы главной страницы. Перечисленное реализуется с помощью noindex. В результате читатели смогут видеть контент, который поисковый бот не индексирует.
2 Определенные (настраиваемые) типы сообщенийИногда плагин или веб-разработчик добавляют пользовательский тип сообщения не желательный к индексированиюь. Изображение продукта, фильтры размеров и технических характеристик на вкладке рядом с описанием. Поэтому обычные страницы продуктов закрывают от индексации, которые выводит WooCommerce и используем наши собственные записи.
Решения для электронной коммерции, которые добавляют такие характеристики, как размеры и вес, в качестве настраиваемого типа публикации, считаются некачественным контентом . Эти страницы бесполезны для посетителей и ботов Google, поэтому их тоже нужно держать подальше от результатов поиска.
3 Страницы благодарности
Запись служит одной цели — поблагодарить клиента/подписчика на новостную рассылку/комментатора. Надо помнить, что подобный контент считается тонким, хотя и предоставляет возможность продавать из социальных сетей. Но он не представляет ценности для тех, кто использует Google для поиска информации. Такие страницы также лучше удалять из индекса, если нет весомых причин полностью занять ТОП-10. Например, из-за репутационных рисков.
4 Страницы администратора и входа
Большинство страниц входа не должны находиться в Google. Но это так. Не допускайте их попадания в индекс, добавив noindex. Исключением являются страницы входа, которые обслуживают сообщество, например Dropbox или аналогичные службы. Пользователи вряд ли станут искать страницы входа через поиск Гугл. Поэтому Google не нужно индексировать эти записи. В WordPress CMS автоматически не индексирует страницу входа на ваш сайт.
5 Результаты внутреннего поиска
Результаты внутреннего поиска — это в значительной степени последние страницы, на которые Google хотел бы отправлять своих посетителей. Если вы хотите испортить поиск, можно ссылаться на другие страницы поиска вместо фактического результата. Но ссылки на странице результатов поиска по-прежнему очень ценны, вы определенно хотите, чтобы Google следил за ними. Итак, все ссылки должны быть пройдены, а мета-настройка robots должна быть:
<meta name=»robots» content=»noindex, follow»>
Что такое Noindex и как его реализовать?
Что такое noindex?
Noindex — это значение, которое можно использовать в метатеге robots в HTML-коде веб-сайта. Он предназначен для сканеров поисковых систем, таких как Google, Bing и Yahoo. Если они находят это значение в метатегах веб-страницы, эта страница не включается в индекс поисковых систем и, следовательно, не отображается для пользователей в списках результатов поиска. Аналог noindex — это «index», который явно разрешает индексацию.
С помощью noindex вы можете решить, должна ли определенная веб-страница быть включена в индекс поисковых систем или нет. Таким образом, noindex — отличное средство для управления индексированием каждой отдельной подстраницы с небольшими усилиями. Таким образом, директива является важным инструментом поисковой оптимизации (SEO). Google всегда придерживается директивы noindex, тогда как index рассматривается только как рекомендация.
Для чего используется директива и когда она (нет) имеет смысл?
С помощью noindex вы можете исключить страницы из индекса поисковых систем, которые не принесли бы пользователям никакой дополнительной ценности, если бы они отображались в результатах поиска.Сюда входят, например, карты сайта или результаты внутреннего поиска. Подстраницы с конфиденциальными данными или защищенными паролем загрузками и разделами для участников также могут быть исключены из индексации таким образом.
Для страниц с повторяющимся, похожим или разбитым на страницы содержанием индексирование также не всегда рекомендуется с точки зрения SEO. Исключая этот контент, Google не оценивает такие страницы как дублирующий контент, и поэтому отдельные подстраницы не конкурируют друг с другом в отношении рейтинга.Это может пригодиться, например, в категориях интернет-магазинов. Если продукты там можно отсортировать по разным критериям, могут возникнуть совпадения. Например, если пользователи могут отсортировать довольно небольшое количество элементов по размеру, продукты, доступные в нескольких размерах, появятся в нескольких дисплеях категорий. Если эти страницы исключить из индексации, сайт не будет дублироваться, что отлично для SEO. В этом контексте, однако, обратите внимание на релевантность этих страниц, которая может быть связана с обратными ссылками и т. Д., также теряется из-за директивы noindex. Таким образом, вы всегда должны использовать канонический тег для дублированного контента, поскольку этот тег объединяет количество ссылок затронутых страниц на канонический URL-адрес и одновременно сигнализирует роботу Googlebot, какая страница должна быть включена в индекс.
Другой часто встречающийся вариант использования noindex — это разбивка на страницы, которая часто используется для длинных текстов или серий изображений. Здесь может иметь смысл проиндексировать только первую страницу, чтобы пользователи не оказывались в середине содержания серии изображений, а в начале.Однако использование noindex в этом контексте не всегда имеет смысл. Особенно длинные редакционные статьи содержат не только полезную информацию на первой странице. Таким образом, исключение следующих страниц может привести к потере трафика, что может отрицательно сказаться на SEO. Чтобы избежать этого, вы должны использовать rel = «next» / «prev» для нумерации страниц.
Как реализовать noindex
Одна из возможностей исключить определенную веб-страницу из индексации — добавить noindex к метатегу robots в метаданных этой страницы.Этот метатег содержит инструкции для сканеров Google и других поисковых систем. Чтобы исключить страницу из индекса поисковой системы, вам необходимо интегрировать следующий тег в заголовок HTML-кода:
Вместо того, чтобы отклонять все сканеры, вы также можете обратиться к определенной поисковой системе с помощью этого метатега. Например, если вы хотите запретить Googlebot индексировать определенную подстраницу, замените значение в атрибуте name на «googlebot».Имя бота Yahoo — «slurp». Однако в практике SEO вряд ли имеет смысл исключать только отдельных ботов.
В качестве альтернативы вы можете реализовать директиву noindex через поле в заголовке ответа HTTP. Для этого вам нужно добавить следующий код в заголовок HTTP-ответа:
X-Robots-Тег: noindex
Комбинирование noindex с follow или nofollow
При желании вы можете комбинировать директиву noindex со значениями «follow» или «nofollow». Они сообщают поисковым роботам, как обрабатывать ссылки на неиндексированной странице.Поисковые боты переходят по ссылкам на соответствующей странице, если установлена директива Follow. Эта комбинация директив часто используется для карт сайта в формате HTML. Индексирование карты сайта в формате HTML редко имеет смысл, но с точки зрения SEO карта сайта имеет ценность, поскольку Google и другие поисковые системы могут получить доступ ко всем подстраницам веб-сайта всего за несколько шагов.
Следующая директива также может быть полезна для SEO в отношении страниц категорий с разбивкой на страницы или страниц результатов функции внутреннего поиска интернет-магазинов.Многие операторы веб-сайтов решают не индексировать такие подстраницы из-за их низкого информационного содержания и потенциальных проблем с дублированием контента. В этом случае значение «следовать» полезно для обеспечения того, чтобы поисковые системы могли находить и индексировать отдельные продукты, предлагаемые в этих категориях.
В этом контексте, однако, обратите внимание, что Google перестает переходить по ссылкам на странице noindex через определенный период времени. Следовательно, этот подход только частично рекомендуется для долгосрочного SEO.
В отличие от следующего, директива nofollow гарантирует, что поисковые роботы не будут оценивать ссылки на подстранице.
Отличие от директивы disallow в файле robots.txt
Используя директиву disallow в файле robots.txt, вы можете запретить поисковым роботам сканировать определенные там области. Команда используется, например, для файлов, таких как изображения в больших базах данных, чтобы сэкономить ценный бюджет сканирования SEO. Однако вы не должны использовать эту директиву, если хотите, чтобы определенный контент не индексировался. Хотя команда запрещает сканирование определенной страницы, эта страница все равно может отображаться в индексе, если на нее указывают обратные ссылки с других веб-сайтов.
По этой причине вам никогда не следует комбинировать noindex и disallow на одной странице. Поскольку сканеры всегда сначала вызывают файл robots.txt при индексировании веб-сайта, они сначала замечают директиву disallow и, следовательно, воздерживаются от сканирования соответствующих подстраниц. Следствием этого является то, что они не могут видеть возможные директивы noindex на этих страницах и по-прежнему включать подстраницы в индекс, если они связаны через обратные ссылки. Если вы не хотите, чтобы определенная страница была включена в индекс поисковых систем, вам следует использовать только noindex.
Ссылки по теме
Похожие статьи
Отправленный URL с пометкой «noindex» в Google Search Console: как исправить
«Отправленный URL с пометкой« noindex »» означает, что Google обнаружил в вашей XML-карте сайта URL-адреса, которые были помечены как noindex
, в результате чего Google не индексирует этот URL, поскольку они часто следуют этим директивам роботов.
Подавая неиндексируемые URL-адреса поисковым системам, вы посылаете им противоречивые сигналы, что приводит к растрате бюджета сканирования.
Как исправить ошибку «Отправленный URL с пометкой« noindex »»
Проверить статус
Просмотрите список страниц из отчета и убедитесь, что эти страницы все еще перечислены в XML sitemp и помечены ли они как noindex. Очистите кеш своего сайта, чтобы убедиться, что вы просматриваете последнюю версию своего сайта.
Если это всего лишь несколько URL-адресов, вы можете сделать это вручную. Если это больше, мы настоятельно рекомендуем подключить ваш сайт к ContentKing, чтобы наша платформа могла делать тяжелую работу и следить за этим в дальнейшем.
Наконечник Pro
Имейте в виду, что вы можете определить директивы robots через заголовок HTTP, используя X-Robots-Tag. X-Robots-Tag часто используется в промежуточных средах, и его легко пропустить.
Устранение этой проблемы
Вы получите следующие возможные результаты:
- Страницы правильно помечены как
noindex
и неправильно включены в карту сайта XML: удалите эти страницы из карты сайта XML. - Страницы неправильно помечены как
noindex
и включены в карту сайта XML: обновите их статус индексируемости, и все в порядке.
Следующим шагом является использование инструмента проверки URL-адресов консоли поиска Google (открывается в новой вкладке), чтобы проверить, правильно ли вы устранили проблему. После этого запросите переиндексацию через Google Search Console, чтобы ускорить процесс переиндексации и переиндексации.
Вы страдаете от новых недобросовестных директив noindex?
Проверь свой сайт и сразу узнай!
В этом видео подробно объясняется, как работают инструменты проверки URL:
Исправляем это в WordPress
Большинство плагинов WordPress для SEO, таких как Yoast и Rank Math, автоматически удаляют неиндексируемые страницы из XML-карты сайта.Просто имейте в виду, что тег noindex
может быть определен на уровне заголовка HTTP, который управляется вне WordPress на уровне веб-сервера.
Исправляем это на Shopify
Если вы хотите исправить это для продуктов, вы можете использовать массовый редактор Shopify (открывается в новой вкладке), чтобы пометить продукты как «скрытые» — который автоматически добавляет метатег noindex
и удаляет продукты из карты сайта XML. .
В качестве альтернативы вы можете использовать такое приложение, как Sitemap и NoIndex Manager (открывается в новой вкладке).Это приложение также поддерживает его определение для других типов контента.
ContentKing Academy
Прочтите всю статью Академии, чтобы узнать все об отчете о покрытии индекса Google Search Console
Что делать NOINDEX?
Ладно, кому-то этот пост будет колоссально скучен. Но я хотел дать вам возможность взглянуть на дебаты за кулисами в группе качества поиска Google. Вот обсуждение политики NOINDEX и того, как Google должен обрабатывать метатег NOINDEX.Во-первых, вы хотите прочитать этот пост о том, как Google обрабатывает метатег NOINDEX. Вы также можете посмотреть это видео о том, как удалить свой контент из Google или вообще предотвратить его индексирование. Вот вывод из моего предыдущего сообщения в блоге:
Таким образом, исходя из размера выборки в одну страницу, похоже, что поисковые системы обрабатывают метатег «NOINDEX»:
— Google никак не отображает страницу
— Ask никак не отображает страницу
— MSN показывает ссылку на URL и кешированную ссылку, но без фрагмента.Нажатие на кешированную ссылку ничего не возвращает.
— Yahoo! показывает ссылку на URL и кешированную ссылку, но без фрагмента. Щелчок по кэшированной ссылке возвращает кешированную страницу.
Вопрос в том, должен ли Google полностью исключать страницу с NOINDEX из результатов поиска или показывать ссылку на страницу или что-то среднее между ними? Приведу аргументы по каждому:
Полностью удалить страницу NOINDEX
Так мы поступаем последние несколько лет, и веб-мастера к этому привыкли.Мета-тег NOINDEX дает хороший способ — по сути, один из немногих — полностью удалить все следы сайта из Google (другой способ — наш инструмент для удаления URL-адресов). Это невероятно полезно для веб-мастеров. Единственный угловой случай заключается в том, что если Google видит ссылку на страницу A, но на самом деле не сканирует страницу, мы не узнаем, что страница A имеет тег NOINDEX, и можем показать страницу как непросканированный URL. Для этого есть интересное средство: в настоящее время Google разрешает директиву NOINDEX в файле robots.txt, которая полностью удаляет все совпадающие URL-адреса сайтов из Google.(Конечно, это поведение может измениться в результате обсуждения политики, поэтому мы не особо об этом говорили.)
веб-мастера иногда стреляют себе в ногу, используя NOINDEX, но если посещаемость сайта из Google очень низкая, веб-мастер будет заинтересован в диагностике проблемы самостоятельно. Кроме того, мы могли бы добавить проверку NOINDEX в консоль для веб-мастеров, чтобы помочь веб-мастерам самостоятельно диагностировать, удалили ли они свой собственный сайт с помощью NOINDEX. Мета-тег NOINDEX выполняет полезную роль, отличную от robots.txt, а тег находится достаточно далеко от проторенного пути, поэтому мало кто использует тег NOINDEX по ошибке.
Показать ссылку / ссылку на страницы NOINDEX
Наш высший долг — перед нашими пользователями, а не перед отдельным веб-мастером. Когда пользователь выполняет навигационный запрос, а мы не возвращаем нужную ссылку из-за тега NOINDEX, это ухудшает взаимодействие с пользователем (плюс это похоже на проблему Google). Если веб-мастер действительно хочет, чтобы его не было в Google, он может использовать инструмент удаления URL-адресов Google.Цифры небольшие, но мы определенно видим, что некоторые сайты случайно удаляются из Google. Например, если веб-мастер добавляет метатег NOINDEX для завершения сайта, а затем забывает удалить этот тег, сайт не будет отображаться в Google, пока веб-мастер не поймет, в чем проблема. Кроме того, недавно мы увидели, как несколько популярных корейских сайтов не возвращаются в Google, потому что все они имеют метатег NOINDEX. Если громкие сайты вроде
— http://www.police.go.kr/main/index.do (Национальное полицейское агентство Кореи)
— http: // www.nmc.go.kr/ (Национальный медицинский центр Кореи)
— http://www.yonsei.ac.kr/ (Университет Йонсей)
не отображаются в Google из-за метатега NOINDEX, что плохо для пользователей (и, следовательно, для Google).
Некоторая золотая середина между
Подавляющее большинство веб-мастеров, использующих NOINDEX, делают это намеренно и правильно используют метатег (например, для припаркованных доменов, которые они не хотят отображать в Google). Больше всего пользователей обескураживает, когда они ищут известный сайт и не могут его найти.Что, если бы Google по-другому относился к NOINDEX, если бы сайт был хорошо известен? Например, если сайт находился в открытом каталоге, показать ссылку на страницу, даже если сайт использовал метатег NOINDEX. В противном случае вообще не показывать сайт. Большинство веб-мастеров могут удалить свой сайт из Google, но Google по-прежнему будет возвращать сайты с более высоким профилем, когда пользователи будут искать их.
Как вы думаете?
Это внутреннее обсуждение, которое мы вели по поводу метатегов NOINDEX.Теперь мне любопытно, что вы думаете. Вот опрос:
{демократия: 6}
Мне также были бы интересны (конструктивные) предложения в комментариях о том, как Google должен обрабатывать метатег NOINDEX. Прежде чем оставлять комментарий, постарайтесь занять место как обычного пользователя, так и владельца сайта.
Что такое Noindex и для чего он нужен? с Гэри Иллисом
В нашем втором виртуальном выступлении с аналитиком Google Webmaster Trends Гэри Иллиесом Эрик Энге спросил его о том, как Google обрабатывает различные теги SEO.В этом посте я резюмирую то, что Гэри сказал о теге noindex.
Вы можете посмотреть отрывок, в котором происходит это обсуждение, в этом видео:
Что такое тег noindex?
По словам Эрика Энге, «Тег NoIndex — это инструкция для поисковых систем, что вы не хотите, чтобы страница оставалась в их результатах поиска. Вам следует использовать это, если вы считаете, что у вас есть страница, которую поисковые системы могут посчитать некачественной ».
Что делает тег noindex?
- Это директива, а не предложение.То есть Google будет подчиняться ему, а не индексировать страницу.
- Страница все еще может сканироваться Google.
- Страница все еще может накапливать PageRank.
- Страница все еще может передавать PageRank через любые ссылки на странице.
[Твитнуть: «Страницы Noindex все еще собирают и передают PageRank (Гэри Иллис). См. »]
(Гэри отметил, что, хотя Эрик упомянул PageRank, на самом деле существует множество других сигналов, которые потенциально могут передаваться через любую ссылку. Лучше сказать« сигналы пройдены », чем« PageRank пройдены.”)
Уменьшается ли частота сканирования страницы noindex со временем?
Частота сканирования — это то, как часто Google возвращается на страницу, чтобы проверить, существует ли еще страница, есть ли какие-либо изменения, накопленные или потерянные сигналы.
Обычно частота сканирования снижается для любой страницы, которую Google не может проиндексировать по какой-либо причине. Google попытается выполнить повторное сканирование несколько раз, чтобы проверить, исчезли ли или исправлены ли noindex, ошибка или что-то, что блокировало сканирование.
Если инструкция noindex остается, Google начнет постепенно увеличивать время до следующей попытки сканирования страницы, в конечном итоге сокращаясь до проверки примерно каждые два-три месяца, чтобы увидеть, есть ли еще тег noindex.
Эрик заметил, что это означает, что тег noindex — это способ контролировать, как Google сканирует ваш сайт, и Гэри согласился.
[Твитнуть: «Тег Noindex постепенно снижает частоту сканирования страницы Google» (Гэри Иллис). См. »]
Узнайте, как реализовать тег noindex на своем сайте.
Узнайте, что Perficient Digital может сделать для SEO вашей компании.
Об авторе
Эрик Энге возглавляет отдел цифрового маркетинга Perficient.Он разрабатывает исследования и проводит отраслевые исследования, чтобы помочь доказать, опровергнуть или развить предположения о методах цифрового маркетинга и их ценности. Эрик — писатель, блоггер, исследователь, преподаватель, основной докладчик и участник крупных отраслевых конференций. В партнерстве с несколькими другими экспертами Эрик был ведущим автором книги «Искусство SEO».
Больше от этого автора
Что такое Noindex и как он работает?
В то время как тег noindex сообщает боту или сканеру не добавлять страницу в индекс результатов поиска, директива disallow предписывает поисковым системам вообще не сканировать страницу.Это должно быть сделано через файл robots.txt и иногда используется вместе с noindex.
Хотя тег disallow — полезный инструмент, важно соблюдать особую осторожность при использовании директивы disallow. Запрещая страницу, вы, по сути, удаляете ее со своего сайта в отношении поиска, а также лишаете ее возможности передавать PageRank — значение, присвоенное веб-странице поисковой системой, которая позволяет ей появляться в результатах поиска. Случайное отклонение неправильной страницы — например, страницы, которая привлекает трафик на ваш сайт — может иметь катастрофические последствия для трафика и вашей тактики SEO.
Почему я должен запретить страницу?
Запрет страниц, которые не имеют ценности для читателей или SEO, может ускорить сканирование и индексирование вашего сайта ботами. Примером может служить функция поиска на сайте электронной коммерции. Хотя функция поиска обеспечивает ценность для пользователя, различные страницы, которые она извлекает, не обязательно являются страницами, которые повышают ценность вашего сайта для SEO.
Объединение Noindex и Disallow
Если есть внешние ссылки или канонические теги — теги, которые сообщают ботам, какую страницу из группы похожих страниц следует проиндексировать — указывающие на страницу, которая была запрещена, ее все равно можно проиндексировать и ранжировать, даже если она не может быть просканирована.Это означает, что он все еще может отображаться в поисковой выдаче.
Чтобы применить обе директивы, добавьте их обе в файл robot.txt. Например:
- Запретить: /example-folder/example-page.html
- Noindex: /example-folder/example-page.html
Что такое метатег Nofollow?
Тег nofollow используется для указания поисковым системам не оценивать достоинства ссылок (или конкретной ссылки), существующих на странице. Мета-директивы Nofollow также указывают ботам не открывать больше URL-адресов на сайте, устанавливая для всех ссылок значение «nofollow» — по умолчанию все ссылки на странице настроены на переход.Вы можете добавить тег nofollow к отдельным ссылкам или скрыть их с помощью метатега robots в заголовке HTML страницы. Ссылки Nofollow можно использовать в качестве тактики SEO, чтобы иметь возможность ссылаться на страницы, которые они хотят предоставить читателю, без связывания ботом или поисковым роботом этой страницы со своей собственной.
Например, одиночная ссылка nofollowed может выглядеть так:
< a href = ”https://example.com/” rel = ”nofollow”>
В то время как метатег nofollow в заголовке будет выглядеть так:
< meta name = «robots» content = «nofollow»>
Когда мне следует использовать ссылки Nofollow?
ТегиNofollow полезны, когда применяются к ссылкам, которые вы не можете напрямую контролировать, например, ссылкам в разделах комментариев, неорганическим или нерелевантным платным ссылкам, гостевым сообщениям, ссылкам на что-то не по теме на веб-сайте или странице, или к встраиваемым таким в виде виджета или инфографики.
Что такое Noindex Nofollow?
Добавление тега nofollow к ссылке не предотвратит сканирование или индексирование связанной страницы, хотя и предотвращает ассоциацию или передачу полномочий между связанными страницами.
Чтобы одновременно дать команду ботам не индексировать страницу и не переходить по ссылкам на ней, вы должны просто объединить определения noindex, nofollow в один метатег. Например:
< meta name = «robots» content = «noindex, nofollow»>
Если вы не хотите, чтобы Google сканировал страницу полностью, вам все равно необходимо запретить это.
Хотите больше трафика? Деиндексируйте свои страницы. Вот почему.
Большинство людей беспокоятся о том, как заставить Google индексировать их страницы, а не деиндексировать их. Фактически, большинство людей стараются избежать деиндексации, как чумы.
Если вы пытаетесь повысить свой авторитет на страницах результатов поисковых систем, может возникнуть соблазн проиндексировать как можно больше страниц на вашем веб-сайте. И в большинстве случаев это работает.
Но это не всегда может помочь вам получить максимально возможное количество трафика.
Почему? Это правда, что публикация большого количества страниц, содержащих целевые ключевые слова, может помочь вам получить рейтинг по этим конкретным ключевым словам.
Однако на самом деле может быть более полезным для вашего рейтинга, если некоторые страницы вашего сайта не попадут в индекс поисковой системы.
Вместо этого направляет трафик на релевантные страницы и предотвращает появление неважных страниц, когда пользователи ищут контент на вашем сайте с помощью Google.
Вот почему (и как) вам следует деиндексировать свои страницы, чтобы привлечь больше трафика.
Для начала давайте рассмотрим разницу между сканированием и индексированием.
Объяснение сканирования и индексации
В мире SEO сканирование сайта означает следование по пути.
Под сканированием понимается поисковый робот (также известный как «паук»), который следует по вашим ссылкам и просматривает каждый дюйм вашего сайта.
Сканерымогут проверять HTML-код или гиперссылки. Они также могут извлекать данные с определенных веб-сайтов, что называется веб-парсингом.
Когда боты Google заходят на ваш сайт для сканирования, они переходят по другим связанным страницам, которые также есть на вашем сайте.
Затем боты используют эту информацию для предоставления поисковикам актуальных данных о ваших страницах. Они также используют его для создания алгоритмов ранжирования.
Это одна из причин, почему карты сайта так важны. Файлы Sitemap содержат все ссылки на вашем сайте, поэтому боты Google могут легко изучить ваши страницы.
С другой стороны, индексированиеотносится к процессу добавления определенных веб-страниц в индекс всех страниц, доступных для поиска в Google.
Если веб-страница проиндексирована, Google сможет сканировать и проиндексировать эту страницу. После деиндексации страницы Google больше не сможет ее проиндексировать.
По умолчанию индексируются все записи и страницы WordPress.
Хорошо проиндексировать релевантные страницы, потому что присутствие в Google может помочь вам заработать больше кликов и привлечь больше трафика, что приведет к увеличению доходов и увеличению узнаваемости бренда.
Но если вы позволите проиндексировать части вашего блога или веб-сайта, которые не являются жизненно важными, вы можете принести больше вреда, чем пользы.
Вот почему деиндексирование страниц может увеличить трафик.
Почему удаление страниц из результатов поиска может увеличить посещаемость
Вы можете подумать, что невозможно чрезмерно оптимизировать свой сайт.
Но это так.
Слишком много SEO может испортить способность вашего сайта занимать высокие позиции. Не переусердствуйте.
Есть много разных случаев, когда вам может потребоваться (или вы захотите) исключить веб-страницу (или, по крайней мере, ее часть) из индексации и сканирования поисковой системой.
Очевидная причина — предотвратить индексирование дублированного контента.
Дублированный контент означает, что существует более одной версии одной из ваших веб-страниц. Например, одна версия может быть удобной для печати, а другая — нет.
Обе версии не должны появляться в результатах поиска. Только один. Деиндексируйте версию для печати и сохраните индексируемую обычную страницу.
Еще один хороший пример страницы, которую вы, возможно, захотите деиндексировать, — это страница с благодарностью — страница, на которую посетители попадают после выполнения желаемого действия, такого как загрузка вашего программного обеспечения.
Обычно на этой странице посетитель сайта получает доступ ко всему, что вы ему обещали, в обмен на их действия, например, к электронной книге.
Вы хотите, чтобы люди попали на ваши страницы с благодарностью только потому, что они выполнили действие, которое вы хотите, чтобы они предприняли, например, приобрели продукт или заполнили форму для потенциальных клиентов.
Не потому, что они нашли вашу страницу благодарности через поиск Google. Если они это сделают, они получат доступ к тому, что вы предлагаете, без необходимости выполнять желаемое действие.
Это не только бесплатная раздача вашего самого ценного контента, но также может испортить аналитику всего вашего сайта из-за неточных данных.
Если эти страницы проиндексированы, вы подумаете, что привлекаете больше потенциальных клиентов, чем есть на самом деле.
Если на ваших страницах благодарности есть ключевые слова с длинным хвостом, и вы не деиндексировали их, они могут иметь довольно высокий рейтинг, хотя в этом нет необходимости.
Что делает еще проще , чтобы их находило все больше и больше людей.
Вам также необходимо деиндексировать страницы профилей сообщества, распространяющие спам.
Удалить спам на страницах профилей сообщества
Бритни Мюллер из Moz недавно деиндексировала 75% веб-сайта Moz и добилась огромного успеха.
Большинство типов страниц, которые она деиндексировала? Страницы профилей сообщества, рассылающие спам.
Она заметила, что при поиске по сайту: moz.com более 56% результатов приходилось на страницы профиля сообщества Moz.
Ей нужно было деиндексировать тысячи этих страниц.
Профили сообществаMoz работают по системе баллов. Пользователи зарабатывают больше очков, называемых MozPoints, за выполнение действий на сайте, например, за комментирование сообщений или публикацию блогов.
Поговорив с разработчиками, Бритни решила деиндексировать страницы профиля, набрав менее 200 баллов.
Мгновенно вырос органический трафик и рейтинг.
Путем деиндексации страниц профилей сообщества таких пользователей, как этот, с небольшим количеством баллов MozPoints, нерелевантные профили не попадают на страницы результатов поисковой системы.
Таким образом, только наиболее известные пользователи сообщества Moz с тоннами MozPoints, такие как Бритни, будут отображаться в поисковой выдаче.
Затем профили с наибольшим количеством комментариев и действий появляются, когда кто-то их ищет, так что на сайте легко найти влиятельных людей.
Если вы предлагаете профили сообщества на своем веб-сайте, следуйте примеру Moz и деиндексируйте профили, которые не принадлежат влиятельным или известным пользователям.
Вы можете подумать, что отключения «видимости для поисковых систем» в WordPress достаточно, чтобы уменьшить видимость для поисковых систем, но это не так.
Фактически поисковые системы должны выполнить этот запрос.
Вот почему вам нужно деиндексировать их вручную, чтобы убедиться, что они не появятся на странице результатов. Во-первых, вы должны понять разницу между тегами noindex и nofollow.
Объяснение тегов Noindex и nofollow
Вы можете легко использовать метатег, чтобы страница не отображалась в поисковой выдаче.
Все, что вам нужно знать, это копировать и вставлять.
Теги, позволяющие удалять страницы, называются «noindex» и «nofollow».”
Прежде чем мы перейдем к тому, как вы можете добавлять эти теги, вам необходимо знать разницу между тем, как работают эти два тега.
Это два разных тега, но их можно использовать по отдельности или вместе.
Когда вы добавляете на страницу тег noindex, он сообщает поисковым системам, что, хотя они все еще могут сканировать страницу, они не могут добавить страницу в свой индекс.
Любая страница с директивой noindex не попадет в индекс поисковой системы, а это означает, что она не будет отображаться на страницах результатов поисковой системы.
Вот как выглядит тег noindex в HTML-коде сайта:
Когда вы добавляете на веб-страницу тег nofollow, он запрещает поисковым системам сканировать любые ссылки на странице.
Это означает, что любой рейтинг, присвоенный странице, не будет передан страницам, на которые она ссылается.
Тем не менее, любая страница с тегом nofollow может индексироваться в поиске. Вот как выглядит тег nofollow в коде веб-сайта:
Вы можете добавить тег noindex отдельно или с тегом nofollow.
Вы также можете добавить тег nofollow отдельно. Добавляемые вами теги будут зависеть от ваших целей для конкретной страницы.
Добавьте только тег noindex, если вы не хотите, чтобы поисковая система индексировала вашу веб-страницу в результатах поиска, но вы хотите, чтобы она продолжала переходить по ссылкам на этой странице.
Если у вас есть платные целевые страницы, было бы неплохо добавить к ним тег noindex.
Вы не хотите, чтобы поисковые системы приводили к ним посетителей, поскольку люди должны платить за их просмотр, но вы можете захотеть, чтобы связанные страницы извлекали выгоду из его авторитета.
Добавьте только тег nofollow, если вы хотите, чтобы поисковая система проиндексировала определенную страницу на страницах результатов, но вы не хотите, чтобы она переходила по ссылкам, которые есть у вас на этой конкретной странице.
Добавьте на страницу теги noindex и nofollow, если вы не хотите, чтобы поисковые системы индексировали страницу или могли переходить по ссылкам на ней.
Например, вы можете добавить теги noindex и nofollow к страницам благодарности.
Теперь, когда вы знаете, как работают теги noindex и nofollow, вот как добавить их на свой сайт.
Как добавить метатег «noindex» и / или «nofollow»
Если вы хотите добавить тег noindex и / или nofollow, первым делом нужно скопировать нужный тег.
Для тега noindex скопируйте следующий тег:
Для тега nofollow скопируйте следующий тег:
Для обоих тегов скопируйте следующий тег:
Добавить теги так же просто, как добавить тег, который вы скопировали, в раздел
HTML-кода вашей страницы.Он также известен как заголовок страницы.Просто откройте исходный код веб-страницы, которую вы хотите деиндексировать. Затем вставьте тег в новую строку в разделе
HTML.Вот как выглядит тег для noindex и nofollow в заголовке.
Имейте в виду, что тег обозначает конец заголовка. Никогда не вставляйте теги noindex или nofollow за пределами этой области.
Сохраните обновления кода, и все готово.Теперь поисковая система исключит вашу страницу из результатов поиска.
Вы можете сделать невозможным сканирование нескольких страниц, изменив файл robots.txt.
Что такое robots.txt и как к нему получить доступ?
Robots.txt — это просто текстовый файл, который веб-мастера могут создать, чтобы сообщить роботам поисковых систем, как именно они хотят сканировать свои страницы или переходить по их ссылкам.
ФайлыRobots.txt просто указывают, разрешено ли определенному программному обеспечению для веб-сканирования сканировать определенные части веб-сайта.
Если вы хотите «nofollow» сразу нескольких веб-страниц, вы можете сделать это из одного места, открыв файл robots.txt на своем сайте.
Во-первых, неплохо сначала выяснить, есть ли на вашем сайте файл robots.txt. Чтобы в этом разобраться, перейдите на свой веб-сайт и добавьте файл robots.txt.
Это должно выглядеть примерно так: www.yoursitehere.com/robots.txt.
Вот как выглядит наш файл robots.txt.
На наш сайт добавлена задержка сканирования 10, из-за которой роботы поисковых систем не будут сканировать ваш сайт слишком часто.Это предотвращает перегрузку серверов.
Если по этому адресу ничего не появляется, значит, на вашем веб-сайте нет файла robots.txt. На Disney.com нет файла robots.txt.
Вместо пустой страницы вы также можете увидеть ошибку 404.
Вы можете создать файл robots.txt практически в любом текстовом редакторе. Чтобы узнать, как именно его добавить, прочтите это руководство.
Чистый костяк файла robots.txt должен выглядеть примерно так:
Агент пользователя: *
Disallow: /
Затем вы можете добавить конечные URL-адреса всех страниц, сканирование которых робот Googlebot не должен сканировать.
Вот несколько кодов robots.txt, которые могут вам понадобиться:
Разрешить индексирование всего:
User-agent: *
Disallow:
или
User-agent: *
Allow: /
Запретить индексирование:
Агент пользователя: *
Запретить: /
Деиндексировать определенную папку:
User-agent: *
Disallow: / folder /
Запретить роботу Googlebot индексировать папку, кроме одного определенного файла в этой папке:
User-agent: Googlebot
Disallow: / folder1 /
Allow: / folder1 / myfile.html
Google и Bing позволяют людям использовать подстановочные знаки в файлах robots.txt.
Чтобы заблокировать доступ к URL-адресам, которые содержат специальный символ, например вопросительный знак, используйте следующий код:
User-agent: *
Disallow: / *?
Google также поддерживает использование noindex внутри robots.txt.
Для noindex из robots.txt используйте этот код:
User-agent: Googlebot
Disallow: / page-uno /
Noindex: / page-uno /
Вместо этого вы также можете добавить заголовок X-Robots-tag на определенную страницу.
Вот как выглядит тег X-Robots, запрещающий сканирование:
HTTP / 1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)
Этот тег можно использовать как для кодов nofollow, так и для кодов noindex.
В некоторых случаях вы могли добавить теги nofollow и / или noindex или изменить файл robots.txt, но некоторые страницы все еще отображаются в результатах поиска. Это нормально.
Вот как это исправить.
Почему ваши страницы все еще могут отображаться в поисковой выдаче (сначала)
Если ваши страницы по-прежнему отображаются в результатах поиска, возможно, это связано с тем, что Google не сканировал ваш веб-сайт с тех пор, как вы добавили тег.
Отправьте запрос на повторное сканирование вашего сайта в Google с помощью инструмента «Просмотреть как Google».
Просто введите URL своей страницы, нажмите, чтобы просмотреть результаты Fetch, и проверьте статус отправки URL.
Еще одна причина того, что ваши страницы все еще отображаются, заключается в том, что в вашем файле robots.txt могут быть ошибки.
Вы можете отредактировать или протестировать файл robots.txt с помощью инструмента robots.txt Tester. Выглядит это примерно так:
Никогда не используйте теги noindex вместе с тегом disallow в robots.текст.
Не использовать мета-индекс noindex И запретить в robots.txt
Когда вы используете метатег noindex для группы страниц, но по-прежнему запрещаете их использование в файле robots.txt, боты проигнорируют ваш метатег noindex.
Никогда не используйте оба тега одновременно. Также рекомендуется оставить карты сайта на некоторое время, чтобы их видели сканеры.
Когда Moz деиндексировал несколько страниц своего профиля сообщества, они оставили карту сайта профиля сообщества на месте на пару недель.
Было бы неплохо сделать то же самое.
Также есть возможность запретить сканирование вашего сайта вообще, при этом позволяя Google AdSense работать на страницах.
Подумайте об одной из своих страниц, например, о странице «Свяжитесь с нами» или даже о странице политики конфиденциальности. Вероятно, он связан с каждой страницей вашего веб-сайта либо в нижнем колонтитуле, либо в главном меню.
На эти страницы идет огромное количество ссылок. Вы же не хотите просто выбросить его. Особенно, когда он появляется прямо из главного меню или нижнего колонтитула.
Имея это в виду, вы никогда не должны включать страницу, которую вы блокируете, в robots.txt в карту сайта XML.
Не включать эти страницы в карты сайта XML
Если вы заблокируете страницу в файле robots.txt, но затем включите ее в карту сайта XML, вы просто дразните Google.
В карте сайта написано: «Вот блестящая страница, которую нужно проиндексировать, Google». Но затем ваш файл robots.txt удаляет эту страницу.
Вы должны поместить весь контент на своем сайте в две разные категории:
- Качественные поисковые лендинги
- Служебные страницы, которые полезны для пользователей, но не обязательно должны быть целевыми страницами поиска
Нет необходимости блокировать что-либо в первой категории в robots.текст. Этот контент также никогда не должен иметь тега noindex. Включите все эти страницы в карту сайта XML, несмотря ни на что.
Вы должны заблокировать все, что находится во второй категории, с помощью тегов noindex, nofollow или robots.txt. Вы действительно не хотите включать это содержание в карту сайта.
Google будет использовать все, что вы отправляете в свою карту сайта XML, чтобы понять, что должно или не должно быть важным для инструмента на вашем сайте.
Но то, что чего-то нет в вашей карте сайта, не означает, что Google полностью его проигнорирует.
Сделайте сайт: выполните поиск, чтобы увидеть все страницы, которые Google в настоящее время индексирует с вашего сайта, чтобы найти любые страницы, которые вы, возможно, пропустили или забыли.
Самые слабые страницы, которые Google все еще индексирует, будут перечислены последними на вашем сайте: search.
Вы также можете легко просмотреть количество отправленных и проиндексированных страниц в Инструментах Google для веб-мастеров.
Заключение
Большинство людей беспокоятся о том, как они могут индексировать свои страницы, а не деиндексировать их.
Но индексирование слишком большого количества неправильных страниц может на самом деле повредить вашему общему рейтингу.
Для начала вы должны понимать разницу между сканированием и индексированием.
Сканирование сайта — это сканирование ботов по всем ссылкам на каждой веб-странице, принадлежащей сайту.
Индексирование означает добавление страницы в индекс Google всех страниц, которые могут отображаться на страницах результатов Google.
Удаление ненужных страниц со страниц результатов, таких как страницы с благодарностями, может увеличить трафик, потому что Google будет сосредоточиваться только на ранжировании релевантных страниц, а не незначительных.
Удалите страницы профилей сообщества, содержащие спам, если они у вас есть. Moz деиндексировал страницы профилей сообщества, набравшие менее 200 баллов, и это быстро увеличило их посещаемость.
Затем выясните разницу между тегами noindex и nofollow.
ТегиNoindex удаляют страницы из индекса Google, доступных для поиска. Теги Nofollow не позволяют Google сканировать ссылки на странице.
Вы можете использовать их вместе или по отдельности. Все, что вам нужно сделать, это добавить код для одного или каждого тега в HTML-заголовок вашей страницы.
Затем узнайте, как работает ваш файл robots.txt. Вы можете использовать эту страницу, чтобы заблокировать сканирование Google нескольких страниц одновременно.
Ваши страницы могут по-прежнему отображаться в поисковой выдаче, но используйте инструмент «Просмотреть как Google», чтобы решить эту проблему.
Не забудьте никогда не индексировать страницу и не разрешать ее в robots.txt. Кроме того, никогда не включайте страницы, заблокированные в файле robots.txt, в карту сайта XML.
Какие страницы вы собираетесь деиндексировать в первую очередь?
Узнайте, как мое агентство может привлечь огромное количество трафика на ваш веб-сайт
- SEO — разблокируйте огромное количество SEO-трафика.Смотрите реальные результаты.
- Контент-маркетинг — наша команда создает эпический контент, которым будут делиться, получать ссылки и привлекать трафик.
- Paid Media — эффективные платные стратегии с четкой окупаемостью инвестиций.
Заказать звонок
Noindex vs Nofollow vs Disallow Commands
29 марта 2019 г.
Некоторые из следующих частей адаптированы из моей книги Tech SEO Guide , теперь доступной на Amazon.
Часто возникает путаница относительно разницы между командами noindex, nofollow и disallow. Все три являются мощными инструментами, которые можно использовать для повышения эффективности обычного поиска на веб-сайте, но у каждого из них есть уникальные ситуации, в которых они могут применяться. К сожалению, во многих случаях они применяются неправильно, что значительно снижает эффективность поиска на сайте.
Две операции поискового роботаЧтобы понять, что делают команды noindex, nofollow и disallow, давайте сделаем шаг назад и рассмотрим, что делают роботы поисковых систем.Поисковые системы рассылают роботов, чтобы они пролезли и разобрались с сайтом. Эти роботы сложны, но выполняют две основные операции.
- Сканирование : как только робот обнаруживает веб-сайт, он просматривает все страницы и файлы на веб-сайте, который может найти. Можно установить ограничения на то, какие файлы и страницы может видеть робот, а также можно внести другие изменения, чтобы гарантировать, что робот найдет все, что ему нужно.
- Индексирование : После сканирования роботы берут всю информацию, собранную во время этого сканирования, чтобы решить, какая информация, содержащаяся на конкретной странице, может быть и должна отображаться в результатах поиска.В рамках этого роботы поисковых систем также будут решать, в какие результаты поиска следует включить страницы веб-сайта (если таковые имеются) и где страница должна занимать место в этих результатах.
Disallow vs. Noindex vs.Nofollow
Disallow: Controlling CrawlingПервый метод управления поисковым роботом — команда disallow. Это указано в файле robots.txt. Файл «robots.txt» — это простой текстовый файл, размещенный в корневом каталоге вашего веб-сайта.Он предоставляет роботам директивы, сообщающие им, какие каталоги вы бы предпочли, чтобы они не сканировали.
Если указано, поисковый робот, который соблюдает эту команду, не будет сканировать страницу, файл или каталог, которые были запрещены. Например, вы можете указать это в файле robots.txt, чтобы запретить поисковому роботу сканировать все, что находится в / a-secret-directory.
Disallow: / a-secret-directory
Вы также можете указать запрет только для определенного робота.Например, эта запись файла robots.txt указывает ботам Google избегать каталога my-content-admin-area. Однако боты Bing все еще могли сканировать этот каталог.
user-agent: googlebot
Disallow: / my-content-admin-area /
Запрещенные файлы могут по-прежнему индексироваться и отображаться в результатах поиска. Например, Google и Bing могут найти ссылку на запрещенную страницу на вашем веб-сайте или в другом месте в Интернете. Они не могли просканировать страницу, чтобы увидеть ее содержимое, но они знали бы, что страница существует, и могли бы показать ее в индексе Google.
Как правило, лучше ничего не запрещать. Один набор файлов, который вы никогда не должны запрещать, — это файлы JavaScript, CSS или изображения. Эти файлы контролируют внешний вид страницы, и Google полагается на эти факторы дизайна при оценке страницы, особенно при определении удобства для мобильных устройств.
Meta Robots Nofollow: Controlling CrawlingДалее у нас есть команда nofollow. На самом деле существует два разных оператора nofollow. Команда nofollow, управляющая сканированием, — это мета-робот nofollow.Этот nofollow применяется на уровне страницы путем указания nofollow в метатеге robots в теге
страницы.
...
...
html>
При размещении в
веб-страницы мета nofollow инструктирует робота поисковой системы не сканировать никакие ссылки на странице. Это часть большого набора директив, которые вы можете указать в метатеге robots.Роботы, соблюдающие эту директиву, смогут сканировать эту страницу, но не будут сканировать страницы, на которые есть ссылки с этой страницы. Если вы не хотите, чтобы роботы вообще сканировали страницу, не говоря уже о ссылках, содержащихся на этой странице, то запрет robots.txt — лучший метод контроля сканирования.
Rel Nofollow: объяснение природы ссылкиДругой nofollow — это команда rel = ”nofollow”. Это может повлиять на сканирование, но более важная цель состоит в том, чтобы объяснить, почему эта ссылка включена.Традиционно rel = ”nofollow” использовался для указания любых ссылок, которые были спонсируемыми или имели денежные отношения. С тех пор Google представил другие типы квалификаторов: rel = «sponsored» и rel = «ugc». Квалификатор rel = «sponsored» предназначен для любой платной ссылки, rel = «ugc» — для любой ссылки, содержащейся в пользовательском контенте, а rel = «nofollow» — для любой другой ссылки, с которой вы бы предпочли, чтобы роботы Google не связывали Ваш сайт.
Эти команды rel указываются на уровне ссылки с атрибутом rel, добавленным к определенному тегу .Например, эта ссылка будет nofollow, и эта ссылка на страницу / no-robots-here не будет связана с вашим веб-сайтом.
Noindex: управление индексированием
Команда «noindex» может быть указана на странице в мета-роботах ярлык. Если на страницу включен метатег noindex, поисковым роботам разрешено сканировать страницу, но им не рекомендуется индексировать страницу (это означает, что страница не будет включена в результаты поиска, если эта команда будет соблюдена).
Пример:
Несколько примечаний:
- Раньше вы могли указать noindex в файле robots.txt. Однако это больше не поддерживается Google (и, вероятно, никогда не было). При этом официальном отсутствии поддержки единственный способ указать noindex — на уровне страницы.
- Если вы не можете добавить метатег к страницы, вы также можете использовать X-Robots в заголовке HTTP. Это может быть полезно для запрета индексации содержимого, отличного от HTML, например PDF-файлов или некоторых изображений.
Важно четко понимать, как команды Disallow и Noindex работают вместе. Эти команды можно комбинировать тремя способами, чтобы повлиять на индексирование и сканирование.
Disallow | Noindex | ||||||||
Сценарий 1 | X | ||||||||
907 907 907 907 9077 | 907 96 | X | X |
В сценарии 1 страница с параметром noindex не будет включена в результат поиска.Однако робот все еще может сканировать страницу, что означает, что роботы могут получать доступ к содержанию на странице и переходить по ссылкам на странице.
В сценарии 2 страница не будет сканироваться, но может быть проиндексирована и появится в результатах поиска. Поскольку робот не сканировал страницу, робот ничего об этом не знает. Любой контент, включенный в эту страницу в результаты поиска, будет собираться из других источников, например, из ссылок на страницу.
Сценарий 3 будет работать точно так же, как Сценарий 2, если в метатеге robots был указан noindex.Это связано с тем, что при указании Disallow робот не будет сканировать страницу. Если робот не просканирует страницу, он не увидит метатег, указывающий, что страницу не индексировать. Если для страницы необходимо установить значение noindex и запретить ее, сначала установите значение noindex, а затем, после удаления страницы из поискового индекса, установите запрет.
Рекомендации по использованию Nofollow Когда использовать Nofollow для управления сканированием?Как правило, роботы должны быть проинформированы о том, что они могут переходить по всем ссылкам на странице.Если слишком агрессивно указывать, по каким ссылкам следовать или nofollow, может начаться впечатление, что веб-сайт пытается манипулировать восприятием веб-сайта роботом. Это практика, известная как формирование страницы, где команды nofollow используются для моделирования того, как сигналы с одной страницы передаются на другую. В лучшем случае эти попытки манипулировать роботом больше не работают. В худшем случае попытки манипулировать роботами с помощью rel nofollow могут привести к штрафу.
Когда использовать квалификаторы Rel в ссылках
Rel = «nofollow», rel = «sponsored» или rel = «ugc» следует использовать в определенных случаях, когда необходимо четко указать характер ссылки.Ярким примером являются ссылки на странице, где была произведена оплата в обмен на ссылку. Например, если сообщение в блоге содержит ссылки на рекламу, эти ссылки должны иметь атрибут rel nofollow. Однако с помощью дополнительных квалификаторов Google дает понять, что любые пользовательские ссылки должны иметь этот квалификатор.
Disallow, Noindex или Nofollow не обязательны
Disallow, Noindex и Nofollow не являются обязательными — роботы не должны выполнять ни одну из этих команд. На самом деле слово «команда» несколько преувеличено.Эти директивы являются рекомендациями. Боты Google могут игнорировать любую из этих рекомендаций. Часто игнорирование этих команд является признаком более серьезной проблемы, связанной с тем, что роботы неправильно понимают, как сканировать ваш сайт. В таких ситуациях вы хотите исследовать, в чем состоит эта более серьезная проблема, и решить ее, вместо того, чтобы просто переоснащать свои команды noindex, disallow или nofollow.
Кроме того, поскольку эти команды являются необязательными, вы не хотите полагаться на них для каких-либо важных аспектов вашего веб-сайта.Если часть веб-сайта не должна быть общедоступной или если вы хотите, чтобы часть вашего веб-сайта не попала в результаты поиска Google, вам следует рассмотреть альтернативы. Распространенной областью, где это становится проблемой, являются промежуточные веб-сайты, которые вы явно не хотите, чтобы роботы Google сканировали, и определенно не хотите их индексировать. На промежуточном веб-сайте запрета или noindex недостаточно для гарантии того, что боты покинут сайт. Вместо этого вы захотите потребовать логин для доступа к этому промежуточному сайту.Вход в систему не является обязательным и не может быть проигнорирован, что означает, что боты не смогут его сканировать или индексировать.
Резюме директив роботовСамое важное, что нужно помнить, — это две операции: сканирование и индексирование. Мы можем контролировать или влиять на оба из них, используя разные директивы.
В итоге эти директивы таковы:
- Disallow запрещает роботу сканировать страницу, файл или каталог.
- Noindex запрещает роботу индексировать страницу.
- Meta nofollow говорит роботу не переходить по определенной ссылке или всем ссылкам на странице.
- Rel = «nofollow» (или rel = «sponsored» или rel = «ugc») дополнительно уточняет природу ссылки
Используйте квалификаторы Disallow, Noindex, Meta Nofollow и rel умеренно и только после тщательного рассмотрения всех возможных последствий как их использование повлияет на эффективность SEO вашего сайта. При их использовании убедитесь, что вы не блокируете доступ роботов к важным частям вашего веб-сайта, таким как JavaScript, CSS или файлы изображений.В случае сомнений не добавляйте никаких директив.
Тестирование команд роботаЕсли вы решили использовать команды робота, вы хотите протестировать их, чтобы убедиться, что роботы правильно понимают команды. Хотя вы можете использовать инструменты сканирования, чтобы помочь в этом, более простой метод тестирования — в Google Search Console.
Тестирование Robots.txt
В консоли поиска Google вы можете проверить текущий файл robots.txt, чтобы увидеть, какие страницы, если таковые имеются, в настоящее время перечислены как страницы, к которым Google не должен получать доступ.В настоящее время он недоступен в области навигации в Google Search Console, но доступен как устаревший инструмент (доступ прямо здесь).
На этой странице вы увидите текущий файл robots.txt вашего веб-сайта. Под файлом robots.txt вы можете ввести URL-адреса со своего веб-сайта и проверить, не сможет ли Google сканировать эту страницу из-за файла robots.txt. В этом примере каталог wp-admin заблокирован для сканирования, но все остальные URL-адреса должны быть разрешены для сканирования.
Тестирование возможности сканирования и индексирования
Другой метод проверки того, могут ли роботы сканировать или индексировать страницу в Google Search Console, заключается в использовании инспектора URL.В новой консоли поиска Google введите URL-адрес, который вы хотите протестировать.
После загрузки результатов в отчете о покрытии вы можете увидеть, разрешены ли сканирование и индексирование. В этом примере разрешены оба варианта — это предполагаемый ответ. Если, однако, я указал noindex или disallow для этой страницы, сканирование или проиндексированные разрешенные ответы должны быть отрицательными.
Если вам нужна помощь, давайте поговорим, прежде чем вносить какие-либо изменения.