Сотрудники Google Джон Мюллер, Мартин Сплитт, Гэри Илш и Лизи Харви изложили подробности относительно дублированного контента и каноникализации Google. Мы выбрали самое важное.
Как Google определяет дубликаты страниц
Все оказалось достаточно просто: есть показатель под названием checksum (контрольная сумма) для каждой страницы. Это уникальный шифр, основанный на тексте страницы. Если две страницы совпадают контрольными суммами, то Google засчитывает их как дубликаты. В практическом применении контрольную сумму также используют для проверки целостности данных при передаче.
Для расчета контрольной суммы используется главный показатель — центральный элемент страницы — включающий основное содержимое (кроме колонтитулов и боковых панелей), и после ее расчета создается кластер дубликатов. Из них Google выберет один, который и будет отображаться в выдаче. Таким образом поисковик может выделить не только полные дубликаты, но и частичные.
Мартин Сплитт об обнаружении частичных дублей:
«У нас есть несколько алгоритмов, которые обнаруживают и не учитывают шаблонную часть страниц. Например, так мы исключаем навигацию из расчета контрольной суммы, убираем нижний колонтитул. У нас остается то, что мы называем центральным элементом — центральное содержимое страницы, что-то вроде самой сути страницы.
После вычисления и сравнения контрольных сумм, те, которые сильно или частично похожи между собой, мы объединяем в дублирующий кластер».
Процесс сокращения страницы до контрольной суммы необходим для упрощения работы: разработчики попросту не видят смысла в сканировании всех страниц. Это займет больше ресурсов при неизменном результате.
Как Google выбирает каноническую страницу
В этом подкасте определили главное отличие дубликатов от каноникализации: сперва определяются и группируются между собой дубли страниц, а затем находится главная из них — это и есть каноникализация.
Каноникализация — процесс отбора главной страницы в кластере. Для объективного выбора канонической страницы Google использует более 20 сигналов. Вес им присваивает нейросеть. При уменьшении одного сигнала, вес другого увеличивается и наоборот.
Мартин Сплитт о сигналах:
«Очевидно, что один из них — содержание страницы. Но это могут быть и другие сигналы: у какой страницы более высокий PageRank, на каком протоколе страницы (http или https), включена ли страница в карту сайта, перенаправляется ли на другую страницу, проставлен ли атрибут rel=canonical… Каждый из этих сигналов имеет свой вес, для подсчета мы используем машинное обучение.
После сравнения всех сигналов для всех пар страниц, мы приближаемся к фактическому определению канонической».
В завершение разработчики отметили, что каноникализация не имеет отношения к ранжированию.