1. Инструменты
  2. /
  3. Генератор файла robots.txt

Генератор файла robots.txt

Инструмент поможет быстро создать файл robots.txt онлайн.

Общие настройки

Правила

Индексация
URL
Кому?

Ваш Robots.txt



Что такое файл robots.txt?

Robots.txt — это служебный текстовый файл, который размещается в корневой директории сайта. Путь к нему выглядит так: site.ru/robots.txt

В файле указывается, как поисковые боты должны индексировать сайт. Эти правила могут применяться ко всем ботам или к тем, которых вы укажете.

Файл robots.txt помогает правильно использовать краулинговый бюджет — количество страниц сайта, которые обходит поисковый бот. Если дать боту просканировать все существующие страницы подряд, краулинговый бюджет может закончиться до того, как бот дойдет до важных страниц.

Что нужно закрывать в robots.txt

От индексации нужно закрывать все, что некорректно работает, не несет пользы для посетителей сайта или дублируется. Обычно в индекс попадает разная ненужная информация:
  • Страницы поиска по сайту;
  • Корзина, страница оформления заказа;
  • Страницы сортировки и фильтров;
  • Страницы регистрации и личный кабинет.

Как работает сервис для создания robots.txt?

Для генерации файла можно заполнить «задержку индексации» - таймаут для ботов между переходами страниц;

Если доступна ссылка на карту сайта, её также следует включить в процесс создания файла;

В разделе «правила индексации» добавьте страницы для индексации и указывайте конкретного бота;

Помимо этого, добавьте ограничения в мета-теги, поскольку поисковые боты всё равно могут обнаружить страницы, скрытые только с помощью robots.txt.

Синтаксис файла robots.txt

Файл robots.txt содержит следующие директивы:

  1. User-agent: Эта директива указывает, к каким ботам применяются последующие правила. "*" обозначает все боты. Пример:

    User-agent: *

    или

    User-agent: Googlebot
  2. Disallow: Эта директива указывает, какие URL-адреса (или пути) боту запрещено индексировать. Можно указать полный путь или часть пути. Пример:

    Disallow: /private/

    или

    Disallow: /images/
  3. Allow: Это директива используется вместе с Disallow и указывает на исключения из запрещённых путей, которые боту разрешено индексировать. Это полезно, если вы хотите запретить индексацию всего каталога, кроме одного или нескольких файлов внутри него. Пример:

    Disallow: /images/
    Allow: /images/logo.png
  4. Crawl-delay: Эта директива указывает задержку между успешными запросами бота к серверу. Это полезно, если вы хотите уменьшить нагрузку на сервер. Значение указывается в секундах. Пример:

    Crawl-delay: 10
  5. Sitemap: Эта директива указывает на расположение файла карты сайта XML. Пример:

    Sitemap: https://www.example.com/sitemap.xml
  6. Host: Эта директива указывает основной зеркальный адрес для поисковых систем. Это важно для сайтов с зеркальными доменами. Пример:

    Host: www.example.com

Пример полного файла robots.txt:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Crawl-delay: 5
Sitemap: https://www.example.com/sitemap.xml
Host: www.example.com

Этот файл указывает, что все боты не должны индексировать пути /cgi-bin/, /tmp/ и /private/, и они должны ждать 5 секунд между запросами. Также указаны местоположение файла карты сайта и основной домен.

Вопросы и ответы по robots.txt

Разница между файлом Sitemap и robots.txt

Карта сайта (Sitemap) указывает поисковым ботам на все страницы сайта, доступные для индексации и показывает, как часто обновляется контент. Файл robots.txt содержит не список всех доступных для индексации страниц, а правила для индексации существующих.

Какие ошибки могут возникнуть при использовании файла robots.txt?

Неправильное использование файла robots.txt может привести к блокировке важных страниц от индексации. Кроме того, важно понимать, что robots.txt не является надежным способом защиты конфиденциальной информации, поскольку некоторые боты могут игнорировать его.

Как проверить, что файл robots.txt работает?

Проверить, что файл robots.txt работает, можно с помощью инструментов Google Search Console или Яндекс.Вебмастер. В этих сервисах есть инструменты для проверки robots.txt.