После самого масштабного слива в истории компании на прошлой неделе в интернет попали куски исходного кода многих сервисов Яндекса. Сегодня оказалось, что в публичный доступ попали 1922 фактора ранжирования поисковой системы: из них 244 отмечены как неиспользуемые (unused), а 988 как отмененные (deprecated). Остаются 690 потенциальных факторов ранжирования Яндекс.
Компания уверяла, что сами алгоритмы поиска остались нетронутыми, но сегодня выпустила официальный комментарий.
Цитаты:
«Опубликованные фрагменты действительно взяты из нашего внутреннего репозитория — инструмента, с помощью которого разработчики компании работают с кодом. При этом содержимое архива соответствует устаревшей версии репозитория — она отличается от актуальной версии, которая используется нашими сервисами».
«Зафиксированы случаи, когда логику работы сервисов корректировали не алгоритмическим способом, а «костылями» <...> Через такие «костыли» исправляли отдельные ошибки системы рекомендаций, которая отвечает за дополнительные элементы поисковой выдачи, и регулировали настройки поиска по картинкам и видео».
«Некоторые части кода содержали слова, которые никак не влияли на работу сервисов, но сами по себе оскорбительны для людей разных рас и национальностей».
Все факторы находятся в файле, содержащим описание по единой структуре: название, ссылка на внутренний ресурс (к нему доступ закрыт), AntiSeoUpperBound и описание. Хоть часть из них и ссылается на внутреннюю, недоступную нам документацию, все равно интересно посмотреть, какие факторы были в доке.
Факторы ранжирования сайта в Яндексе
Первым фактором в списке значится PageRank, многие находят это занятным. Что еще в списке:
- пессимизация (сильная пессимизация сводит PageRank до нуля);
- возраст ссылок;
- обратные ссылки (с главных страниц важнее, чем с внутренних);
- баланс хороших и плохих ссылок;
- анкоры обратных ссылок;
- трафик и процент органического трафика;
- возраст документа и время его последнего обновления;
- надежность хоста (меньше ошибок 40x/50x — лучше);
- количество / в URL (много — плохо);
- цифры в URL (цифры — плохо);
- ключевые слова в URL (оптимально до трех слов);
- уровень вложенности URL;
- средняя позиция домена по всем запросам;
- пользовательские факторы: CTR, last-click, добавление в закладки;
- количество поисковых запросов;
- наличие трафика из Википедии;
- наличие карт js-api на странице (например, Google Maps);
- встроенное видео на странице (поврежденное — плохо);
- количество рекламы на странице;
- качество текста.
Интересен еще отдельный фактор — случайность попадания в топ, чтобы проверить поведение пользователей. Так что если вы обнаружили свой URL в топе, не спешите связывать это с вашими последними действиями, возможно, это эксперимент Яндекса.
Больше пунктов с подробностями на сайте, где сделали поиск по всем факторам. Можно, например, посмотреть все, которые касаются ссылок.
Расскажите в комментариях, какие-то факторы оказались для вас сюрпризом или все они предсказуемы?