Google: избегайте попадания содержимого служебных страниц в индекс

Поисковик не приветствует попадание контента из файла robots.txt или sitemap.xml в результаты поиска.

В том, что это может произойти, убеждают слова Гари Илша:

«С точки зрения индексации robots.txt всего-навсего обычный url-адрес. Такой урл может быть каноническим, а может и не быть. Следовательно, содержимое этого файла теоретически может быть проиндексировано. Единственное, что отличает такую страницу от остальных, это ее особое значение для сканирования».

Triggered by an internal question: robots.txt from indexing point of view is just a url whose content can be indexed. It can become canonical or it can be deduped, just like any other URL.
It only has special meaning for crawling, but there its index status doesn't matter at all. pic.twitter.com/bBMXy1XcRF
— Gary "鯨理／경리" Illyes (@methode) November 6, 2019

К обсуждению подключился Джон Мюллер, отчасти подтвердив слова коллеги по Google:

«Если ваш файл robots.txt или sitemap.xml ранжируется по обычным поисковым запросам, то это значит, что дела с сайтом обстоят очень и очень плохо. В этом случае нужно приложить максимум усилий для улучшения ресурса».

Также эксперт предложил простой рецепт, как избежать попадания названных файлов в результаты основного поиска. Для этой цели веб-мастеру необходимо использовать HTTP-заголовок X-Robots-Tag. Это позволит заблокировать индексацию.

Данный способ, по мнению Гуглмена, не помешает прямому назначению файлов. Последним не нужна индексация, чтобы выполнять основные функции, которые на них возложены.

Ранее Google обновил спецификацию файла robots.txt.

Полезные инструменты

Анализ текста

Анализ сайта

SEO анализ страницы сайта

Проверка индексации страницы

Выгрузка ТОП-10 URLs

Разовая проверка позиций

Кластеризация ключевых слов

Определение намерений пользователя

Генератор ALT-тегов

Генератор мета-тегов

Возьмите под контроль продвижение своего сайта

Исправьте ошибки, которые мешают сайту выйти в топ, и вы увидите рост трафика и дохода.

🔍 Подпишись на @prcynews в телеграм — оставайся в курсе последних SEO новостей и свежих материалов.

Автор:
Тарас Черкасский

Теги поста или какие разделы почитать еще:

Комментарии (8)

psyleads 08.11.2019 19:06

Недавно в файле роботс закрыл страницы о сайте, об авторах, контакты , политика конфиденциальности и т.д.

Правильно ли я сделал?

Руководствовался мыслью чтоб сэкономить краулинговый бюджет и спасти немного ситуацию уникальности текста, так как политика конфиденциальности, на ее просто невозможно сделать уникальной в силу особенности этого документа. Иначе будет не соответствовать .

То есть посетители видят эти страницы в шапке сайта и а меню на каждой странице, а роботы нет. Ассесоры тоже видят, что эти страницы существуют. То есть вроде так как надо.

Ответить

maxklim 09.11.2019 04:12

Вот оно несовершенство роботс и так во всем,где-то недоработали,где-то недосмотрели

Ответить

Kattyha 09.11.2019 12:16

Честно,непонятно, как служебные страницы могут просочиться в поисковики?!

Ответить

Kirill_Chekin 09.11.2019 16:06

Не было таких случаев, интересно в связи с чем могут возникнуть такие проблемы? Программный глюк?

Ответить

Kostya_Tokin 10.11.2019 08:23

У меня были такая печальная история, думал дело в домене,а окпзалось robots.txt напортачил

Ответить

Василий Иванов 10.11.2019 17:10

Скорее всего просто неккоректная директива была,если уже такое произошло

Ответить

Redfoxnat 11.11.2019 15:33

Говорят, как-будто по взмаху волшебной палочки,раз и у тебя страницы которые на запрете индексации стали индексироваться, это я только одна так прочитала?

Ответить

Natalia88 12.11.2019 08:19

Вовремя напомнили, давно не проверяла как там страницы мои, надеюсь ничего не изменилось

Ответить

К данной записи нельзя добавлять комментарии, т.к. она очень старая.