«Яндекс» представил в открытом доступе новый метод машинного обучения CatBoost

В компании считают, что технология перспективна для использования в финансовом секторе, медицине, промышленности, рекомендательных сервисах и многих других отраслях.

«Яндекс» представил CatBoost (Categorical Boosting) — новый метод машинного обучения, который создан в качестве преемника MatrixNet — алгоритма ранжирования, прогнозирования и рекомендательных технологий. CatBoost использует более универсальный алгоритм, поэтому подходит для решения и других задач.

Главными плюсами алгоритма CatBoost указывают возможность использовать не только числовые данные, но и объекты другого типа — фотографии, умение работать с данными из разных источников, переводить категориальные данные в числа, а также снижать количество ошибок сразу при прогнозировании, а не в процессе последовательных доработок модели. Во время обучения модель разделяет данные по категориям и предоставляет аналитикам данные и графики о процессе обучения в программе визуализации CatBoost Viewer. Это упрощает анализ и категоризацию информации и расширяет применение алгоритма.

CatBoost протестирован в Европейском центре ядерных исследований (ЦЕРН) для детектирования типов частиц, которые пролетают в адронном коллайдере. Тестирование показало, что CatBoost ошибается реже конкурентных алгоритмов машинного обучения, но работает медленнее.

"Яндекс" уже использует алгоритм для ранжирования ленты рекомендаций Яндекс.Дзен, для расчёта прогноза погоды в технологии Meteum и в своих решениях для промышленности Yandex Data Factory, в частности для оптимизации расхода сырья и предсказания дефектов. CatBoost обучается и распознает факторы в среднем на 5% точнее, чем MatrixNet. Компания планирует перевести на CatBoost сервис Яндекс.Такси и использовать в поиске, параллельно с MatrixNet.


«Яндекс» опубликовал библиотеку машинного обучения CatBoost в открытый доступ и не намерен зарабатывать на предоставлении алгоритма сторонним организациям.
Комментарии (0)

Чтобы оставлять комментарии, вам нужно войти в систему

Авторизоваться

К данной записи нельзя добавлять комментарии т.к. она очень старая.