Google обновил спецификацию файла robots.txt

Документация Google претерпела изменения в ходе перевода Robots Exclusion Protocol (REP) в официальный веб-стандарт.

Главные изменения выглядят так:

файл robots.txt стал поддерживать все URI-протоколы;
Google отказался от раздела «Язык требований»;
для переадресации Гуглбот использует как минимум пять повторений. В случае необнаружения файла robots.txt цикл обращений завершается и присваивается код ошибки 404;
неполные данные и неудачные запросы расцениваются поисковиком как ошибка на стороне сервера;
в случае отсутствия доступа к robots.txt свыше 30 дней (ошибки 5xx) Google будет использовать последнюю сохраненную в кэше копию файла. Если и к ней доступа нет, это сигнал, что сканировать можно все страницы;
поисковая система отказывается распознавать элементы файла с опечатками и/или ошибками (к примеру, «useragent» вместо «user-agent»);
максимальный размер файла robots.txt, который способен обработать Google, 500 кибибайт (КиБ).

В обновленной документации Google по robots.txt также исчезли отсылки к более неактуальной схеме сканирования Ajax. Кроме того, обновлен формальный синтаксис (добавлены символы UTF-8) и определение «групп» (появился пример пустой группы).

P.S.: создаем robots.txt самостоятельно.

Возьмите под контроль продвижение своего сайта

Исправьте ошибки, которые мешают сайту выйти в топ, и вы увидите рост трафика и дохода.

🔍 Подпишись на @prcynews в телеграм — оставайся в курсе последних SEO новостей и свежих материалов.

Автор:
Тарас Черкасский

Комментарии (0)

К данной записи нельзя добавлять комментарии, т.к. она очень старая.