Apple выпустила большую мультимодальную языковую модель Ferret

Она умеет распознавать изображения, выделять на них объекты и описывать их.

Компания выложила исходный код своей нейросети сразу на GitHub. Одна из самых закрытых организаций в мире пошла на такой шаг, чтобы закрепить место лидера в сфере LLM и начать конкурировать с Microsoft и Google, которые имеют гораздо больше вычислительных ресурсов, считают специалисты.

Ferret умеет взаимодействовать с изображениями. Например, если пользователь выделит на картинке животное и спросит LLM, что это, нейросеть назовет его и ответит, к какому виду оно относится. Чем больше элементов выделит пользователь, тем больше контекста он получит для ответов. Например, чем животное занимается, где оно находится и какие у него есть особенности.

Примеры того, как работает модель: сперва пользователей выделяет объект, а затем нейросеть его распознает и отвечает на вопросы.

Для выбора области изображения доступны готовые геометрические фигуры или произвольная форма.

Пример взаимодействия LLM с объектом: Ferret определяет выделенный фрагмент как кошачий хвост.

О перспективах проекта сказать пока трудно, ведь по словам технического блоггера Бена Диксона, мощности инфраструктуры Apple недостаточно для обслуживания LLM такого масштаба, поэтому компании пришлось принять решение выпустить проект в открытом формате.