Как Google определяет дублированный контент и проводит каноникализацию

Об этом разработчики рассказали в новом выпуске подкаста Search Off The Record.

Сотрудники Google Джон Мюллер, Мартин Сплитт, Гэри Илш и Лизи Харви изложили подробности относительно дублированного контента и каноникализации Google. Мы выбрали самое важное.

Как Google определяет дубликаты страниц

Все оказалось достаточно просто: есть показатель под названием checksum (контрольная сумма) для каждой страницы. Это уникальный шифр, основанный на тексте страницы. Если две страницы совпадают контрольными суммами, то Google засчитывает их как дубликаты. В практическом применении контрольную сумму также используют для проверки целостности данных при передаче.

Для расчета контрольной суммы используется главный показатель — центральный элемент страницы — включающий основное содержимое (кроме колонтитулов и боковых панелей), и после ее расчета создается кластер дубликатов. Из них Google выберет один, который и будет отображаться в выдаче. Таким образом поисковик может выделить не только полные дубликаты, но и частичные.

Мартин Сплитт об обнаружении частичных дублей:

«У нас есть несколько алгоритмов, которые обнаруживают и не учитывают шаблонную часть страниц. Например, так мы исключаем навигацию из расчета контрольной суммы, убираем нижний колонтитул. У нас остается то, что мы называем центральным элементом — центральное содержимое страницы, что-то вроде самой сути страницы.

После вычисления и сравнения контрольных сумм, те, которые сильно или частично похожи между собой, мы объединяем в дублирующий кластер».

Процесс сокращения страницы до контрольной суммы необходим для упрощения работы: разработчики попросту не видят смысла в сканировании всех страниц. Это займет больше ресурсов при неизменном результате.

Как Google выбирает каноническую страницу

В этом подкасте определили главное отличие дубликатов от каноникализации: сперва определяются и группируются между собой дубли страниц, а затем находится главная из них — это и есть каноникализация.

Каноникализация — процесс отбора главной страницы в кластере. Для объективного выбора канонической страницы Google использует более 20 сигналов. Вес им присваивает нейросеть. При уменьшении одного сигнала, вес другого увеличивается и наоборот.

Мартин Сплитт о сигналах:

«Очевидно, что один из них — содержание страницы. Но это могут быть и другие сигналы: у какой страницы более высокий PageRank, на каком протоколе страницы (http или https), включена ли страница в карту сайта, перенаправляется ли на другую страницу, проставлен ли атрибут rel=canonical… Каждый из этих сигналов имеет свой вес, для подсчета мы используем машинное обучение.