Об этом крупнейшая отечественная поисковая система сообщила вчера в своем официальном блоге. По словам Яндекса, в прошлом довольно часто ее поисковый робот не мог получить доступ к тому или иному сайту из-за того, что в текстовом файле robots.txt, как правило, по ошибке была обозначена пустой директива Allow.
User-agent: * Allow:
Казалось бы, как такое может быть, если упомянутая директива, по умолчанию, «разрешающая» (аllow в переводе с английского – разрешить). А вот и может: упомянутая команда, как оказывается, разрешала индексировать содержимое сайта, когда она сопровождалась конкретным уточнением. Например:
User-agent: * Allow: /wp-admin
Когда же директива Allow была прописана в robots.txt без такого уточнения (так сказать, находилась в гордом одиночестве), то поисковый робот Яндекса понимал ее как указание к запрету на полное индексирование веб-ресурса. Следовательно, многие сайты по этой причине отсутствовали в индексе российского поисковика. По крайней мере, на этом настаивает Яндекс.
Учитывая сказанное, поисковая система решила наконец-то «научить» своих роботов игнорировать данную пустую директиву в файле robots.txt. Теперь при ее обнаружении робот все равно будет индексировать содержимое сайта, если, конечно, в robots.txt нет других запретов.
Яндекс напоминает, что после такого нововведения, если вы в силу разных причин все равно хотите полностью запретить сайт к индексации, то в этом случае следует прибегать к помощи следующих команд:
User-agent: * Disallow: /
или
User-agent: Yandex Disallow: *
Кстати, проверить, что именно запрещено, а что разрешено к индексации, можно в панели веб-мастера Яндекса.