Почему страницы не индексируются Google: три типа проблем

В статье рассказываем о проблемах, связанных со статусом «Не проиндексировано» в Google Search Console.

Содержание

Технические требования для индексации
Дублированный контент
Низкое качество страницы
Что в итоге

Несмотря на отправку URL-адресов через XML-карты сайта и соблюдение рекомендаций, некоторые страницы все равно попадают в категорию «Не проиндексировано» в GSC.

Обычно страницы могут не быть проиндексированы по трем причинам:

Страница не выполняет технические требования для индексации Google.
На странице есть дублированный контент: алгоритм канонизации Google может выбрать не тот канонический URL из группы дубликатов.
Google считает, что у страницы низкое качество.

1. Технические требования для индексации

К этой категории относятся ошибки, когда Google не может проиндексировать страницу, потому что не выполнены технические требования:

Ошибка сервера (5xx);
Ошибка переадресации;
URL заблокирован robots.txt;
URL помечен как noindex;
Soft 404;
Заблокировано из-за неавторизованного запроса (401);
Не найдено (404);
Заблокировано, доступ запрещен (403);
URL заблокирован из-за другой ошибки 4xx;
Страница с переадресацией.

Нужно уточнить, что ошибка переадресации сама по себе — не препятствие для индексации, если редирект настроен корректно. Обычно проблемы возникают при циклических редиректах или слишком длинных цепочках перенаправлений, которые затрудняют сканирование.

Требования Google, которые нужно выполнить, чтобы страница проиндексировалась:

Робот Google может зайти на страницу.
Google получает код ответа HTTP 200.
Страница содержит индексируемый контент.

Если сгруппировать ошибки в Google Search Console, которые относятся к техническим требованиям, получится такой список:

Робот Google не может зайти на страницу:
- URL заблокирован robots.txt;
- Заблокировано из-за неавторизованного запроса (401);
- Заблокировано, доступ запрещен (403);
- URL заблокирован из-за другой ошибки 4xx.
Google не получает код ответа HTTP 200:
- Ошибка сервера (5xx);
- Ошибка переадресации;
- Не найдено (404);
- Страница с переадресацией (3xx).
Страница не содержит индексируемый контент:
- URL помечен noindex;
- Soft 404.

Технические ошибки пользователь обычно может исправить самостоятельно.

Робот Google не может зайти на страницу

Если важная страница возвращает ошибку, убедитесь, что поисковый робот может её просканировать. Важная страница может быть заблокирована, если:

В файле robots.txt есть правило, которое блокирует сканирование страницы.
Страница скрыта за формой входа (логином).
CDN (сеть доставки контента) частично или полностью блокирует поискового робота.

Вы можете проверить, заблокирована ли важная страница, с помощью инструмента Анализ сайта в разделе «Аудит сайта».

Интерфейс инструмента Аудит сайта — Аудит сайта показывает неканонические страницы и те, которые закрыты от индексации

Google не получает код ответа HTTP 200

Если важная страница не возвращает код ответа HTTP 200, то поисковый робот не проиндексирует её.

Есть несколько причин, почему важная страница может возвращать код состояния, который отличается от HTTP 200. Это может быть связано с тем, что страница была перенаправлена (3xx), возвращает ошибку 4xx или 5xx. JavaScript-сайт также может возвращать неверные коды состояния для важных страниц.

Иногда поисковый робот еще не успевает просканировать страницу, или отчетам требуется время, чтобы отобразить изменения, внесенные на ваш сайт. Поэтому если вы знаете, что страница была недавно изменена, не стоит паниковать. Можно проверить страницу с помощью инструмента проверки URL в Google Search Console.

Функция проверки URL в Google Search Console

Страница не содержит индексируемый контент

Если на важной странице есть тег noindex (в мета-теге robots или HTTP-заголовке X-Robots-Tag), Google не будет отображать и индексировать эту страницу.

Отдельно стоит отметить ошибку Soft 404. Если она возникает на важной странице, это означает, что Google подумал: контент на этой странице должен возвращать ошибку 404. Обычно это случается, когда Google обнаруживает похожий, небольшой по объему контент на нескольких страницах: это заставляет его думать, что эти страницы должны возвращать ошибку 404.

💌 Еженедельная рассылка

Подпишитесь на нашу рассылку — раз в неделю будем отправлять на ваш email свежую статью из блога и другие полезные материалы.

Я даю согласие на обработку моих персональных данных и получение рекламных материалов.

2. Дублированный контент

Эти ошибки связаны с процессом канонизации Google:

Альтернативная страница с правильным тегом canonical. Страница указала, что другая страница является каноническим URL, который должен отображаться в результатах поиска.
Дубликат без выбранного пользователем canonical. Google обнаружил, что эта страница является дубликатом, а так как на обнаруженной странице нет тега canonical, Google сам выбрал канонический URL.
Google выбрал не тот canonical, что пользователь. Хотя пользователь указал другую страницу как канонический URL, Google выбрал другую страницу для отображения в результатах поиска.

Почему Google может выбрать не тот canonical, что пользователь

Когда Google находит дубликаты страниц на сайте, он:

Группирует страницы в кластер.
Анализирует канонические сигналы страниц в кластере.
Выбирает канонический URL из кластера для отображения в результатах поиска.

Этот процесс называется канонизацией. Google постоянно оценивает канонические сигналы, чтобы определить, какой URL должен быть каноническим для кластера и наиболее релевантным для пользователей. Он смотрит на:

3xx редиректы;
Включение страницы в Sitemap;
Сигналы тега canonical;
Структуру внутренних ссылок;
Предпочтения структуры URL.

Если страница раньше была канонической, но новые сигналы заставляют Google выбрать другой URL в кластере, то исходная страница удаляется из результатов поиска. Это может произойти, даже если вы используете тег canonical. Поэтому важно убедиться в том, что канонические сигналы на вашем сайте согласованы для URL-адресов, которые вы хотите видеть в результатах поиска.

Почитать по теме: Все о rel canonical: как указывать атрибут правильно и зачем он нужен

3. Низкое качество страницы

Эти ошибки основаны на сигналах страниц, которые Google собирает со временем:

Просканировано — в настоящее время не проиндексировано. Страница была обнаружена, просканирована, но не проиндексирована, или ранее индексируемая страница сейчас удаляется из результатов поиска Google.
Обнаружено — в настоящее время не проиндексировано. Новая страница была обнаружена, но еще не просканирована, или Google сейчас удаляет ранее проиндексированную страницу из индекса. Нужно отметить, что этот статус может также указывать на проблемы с краулинговым бюджетом, особенно на крупных сайтах. Если сайт имеет ограниченный краулинговый бюджет, Google может отложить индексацию некоторых страниц.
URL-адрес неизвестен Google. Поисковик никогда не видел эту страницу или уже удалил ранее проиндексированную страницу из индекса.

Чтобы не затронуть те страницы, которые не важны для индексации, нужно разделить важные страницы на две категории:

Индексируемые. Важные страницы, которые могут быть проиндексированы Google, но сейчас не индексируются.
Неиндексируемые. Важные страницы, которые не должны быть проиндексированы (например, с ошибками 301, 404 и т.д.).

Что в итоге

Важно регулярно проверять статус индексации. Это поможет определить, к какой категории относятся неиндексированные страницы, и принять нужные меры.

Проверить статус индексации в Google или Яндекс вы можете с помощью онлайн-инструмента. Введите список URL в поле, выберите поисковую систему и запустите проверку: инструмент оценит состояние страниц и отметит галочкой проиндексированные.

Интерфейс инструмента для проверки индексации страниц

Обнаружение проблемы — первый шаг к решению! Технические затруднения и проблемы с дублированным контентом, как правило, вполне решаемы. Их можно исправить с помощью стандартных методов оптимизации. Проблемы с качеством страницы требуют более глубокого анализа. Часто они сигнализируют о более серьезных проблемах с тем, насколько контент соответствует ожиданиям пользователей и поисковых систем.

Полезные инструменты

Анализ сайта

SEO анализ страницы сайта

Проверка индексации страницы

Выгрузка ТОП-10 URLs

Разовая проверка позиций

Кластеризация ключевых слов

Определение намерений пользователя

Генератор ALT-тегов

Генератор мета-тегов

Генератор семантических слов

Возьмите под контроль продвижение своего сайта

Исправьте ошибки, которые мешают сайту выйти в топ, и вы увидите рост трафика и дохода.

🔍 Подпишись на @prcynews в телеграм — оставайся в курсе последних SEO новостей и свежих материалов.

Автор:
Влад Андрюхин

Теги поста или какие разделы почитать еще:

Комментарии (1)

Александр Ходаковский 06.05.2025 16:39

Ну а как быть с другим не описанным тут примером:
Обнаружена но не проиндексирована. И так уже более 3 лет.
В ручную говоришь - проверь, все ок!
Индексируй - ок проиндексирована!

А автоматом нет🤷
Это принципиальное отношение гугла к RU и РФ доменам.
Так что плевать на него🖕

Ответить

К данной записи нельзя добавлять комментарии, т.к. она очень старая.