- Инструменты /
- Генератор файла robots.txt
Общие настройки
Правила
Ваш Robots.txt
Что такое файл robots.txt?
Robots.txt — это служебный текстовый файл, который размещается в корневой директории сайта. Путь к нему выглядит так: site.ru/robots.txt
В файле указывается, как поисковые боты должны индексировать сайт. Эти правила могут применяться ко всем ботам или к тем, которых вы укажете.
Файл robots.txt помогает правильно использовать краулинговый бюджет — количество страниц сайта, которые обходит поисковый бот. Если дать боту просканировать все существующие страницы подряд, краулинговый бюджет может закончиться до того, как бот дойдет до важных страниц.
Что нужно закрывать в robots.txt
- Страницы поиска по сайту;
- Корзина, страница оформления заказа;
- Страницы сортировки и фильтров;
- Страницы регистрации и личный кабинет.
Как работает сервис для создания robots.txt?
Для генерации файла можно заполнить «задержку индексации» - таймаут для ботов между переходами страниц;
Если доступна ссылка на карту сайта, её также следует включить в процесс создания файла;
В разделе «правила индексации» добавьте страницы для индексации и указывайте конкретного бота;
Помимо этого, добавьте ограничения в мета-теги, поскольку поисковые боты всё равно могут обнаружить страницы, скрытые только с помощью robots.txt.
Синтаксис файла robots.txt
Файл robots.txt содержит следующие директивы:
User-agent
: Эта директива указывает, к каким ботам применяются последующие правила. "*" обозначает все боты. Пример:User-agent: *
или
User-agent: Googlebot
Disallow
: Эта директива указывает, какие URL-адреса (или пути) боту запрещено индексировать. Можно указать полный путь или часть пути. Пример:Disallow: /private/
или
Disallow: /images/
Allow
: Это директива используется вместе сDisallow
и указывает на исключения из запрещённых путей, которые боту разрешено индексировать. Это полезно, если вы хотите запретить индексацию всего каталога, кроме одного или нескольких файлов внутри него. Пример:Disallow: /images/ Allow: /images/logo.png
Crawl-delay
: Эта директива указывает задержку между успешными запросами бота к серверу. Это полезно, если вы хотите уменьшить нагрузку на сервер. Значение указывается в секундах. Пример:Crawl-delay: 10
Sitemap
: Эта директива указывает на расположение файла карты сайта XML. Пример:Sitemap: https://www.example.com/sitemap.xml
Host
: Эта директива указывает основной зеркальный адрес для поисковых систем. Это важно для сайтов с зеркальными доменами. Пример:Host: www.example.com
Пример полного файла robots.txt:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Crawl-delay: 5
Sitemap: https://www.example.com/sitemap.xml
Host: www.example.com
Этот файл указывает, что все боты не должны индексировать пути /cgi-bin/, /tmp/ и /private/, и они должны ждать 5 секунд между запросами. Также указаны местоположение файла карты сайта и основной домен.
Вопросы и ответы по robots.txt
Разница между файлом Sitemap и robots.txt
Карта сайта (Sitemap) указывает поисковым ботам на все страницы сайта, доступные для индексации и показывает, как часто обновляется контент. Файл robots.txt содержит не список всех доступных для индексации страниц, а правила для индексации существующих.
Какие ошибки могут возникнуть при использовании файла robots.txt?
Неправильное использование файла robots.txt может привести к блокировке важных страниц от индексации. Кроме того, важно понимать, что robots.txt не является надежным способом защиты конфиденциальной информации, поскольку некоторые боты могут игнорировать его.
Как проверить, что файл robots.txt работает?
Проверить, что файл robots.txt работает, можно с помощью инструментов Google Search Console или Яндекс.Вебмастер. В этих сервисах есть инструменты для проверки robots.txt.