Все посты
Обновлено 3870 Новости (Архив)

Google обновил спецификацию файла robots.txt

Документация Google претерпела изменения в ходе перевода Robots Exclusion Protocol (REP) в официальный веб-стандарт.

Главные изменения выглядят так:

  • файл robots.txt стал поддерживать все URI-протоколы;
  • Google отказался от раздела «Язык требований»;
  • для переадресации Гуглбот использует как минимум пять повторений. В случае необнаружения файла robots.txt цикл обращений завершается и присваивается код ошибки 404;
  • неполные данные и неудачные запросы расцениваются поисковиком как ошибка на стороне сервера;
  • в случае отсутствия доступа к robots.txt свыше 30 дней (ошибки 5xx) Google будет использовать последнюю сохраненную в кэше копию файла. Если и к ней доступа нет, это сигнал, что сканировать можно все страницы;
  • поисковая система отказывается распознавать элементы файла с опечатками и/или ошибками (к примеру, «useragent» вместо «user-agent»);
  • максимальный размер файла robots.txt, который способен обработать Google, 500 кибибайт (КиБ).


В обновленной документации Google по robots.txt также исчезли отсылки к более неактуальной схеме сканирования Ajax. Кроме того, обновлен формальный синтаксис (добавлены символы UTF-8) и определение «групп» (появился пример пустой группы).

P.S.: создаем robots.txt самостоятельно

Возьмите под контроль продвижение своего сайта
Исправьте ошибки, которые мешают сайту выйти в топ, и вы увидите рост трафика и дохода.
🔍 Подпишись на @prcynews в телеграм — оставайся в курсе последних SEO новостей и свежих материалов.
Комментарии (0)
К данной записи нельзя добавлять комментарии, т.к. она очень старая.
Как составить robots.txt самостоятельно
Как удалить страницу из выдачи Яндекса и Google
Фильтры, санкции и алгоритмы Google