Все посты
1080 Новости (Архив)

Apple выпустила большую мультимодальную языковую модель Ferret

Она умеет распознавать изображения, выделять на них объекты и описывать их.

Компания выложила исходный код своей нейросети сразу на GitHub. Одна из самых закрытых организаций в мире пошла на такой шаг, чтобы закрепить место лидера в сфере LLM и начать конкурировать с Microsoft и Google, которые имеют гораздо больше вычислительных ресурсов, считают специалисты.

Ferret умеет взаимодействовать с изображениями. Например, если пользователь выделит на картинке животное и спросит LLM, что это, нейросеть назовет его и ответит, к какому виду оно относится. Чем больше элементов выделит пользователь, тем больше контекста он получит для ответов. Например, чем животное занимается, где оно находится и какие у него есть особенности.

Примеры того, как работает модель: сперва пользователей выделяет объект, а затем нейросеть его распознает и отвечает на вопросы.
Для выбора области изображения доступны готовые геометрические фигуры или произвольная форма.
Пример взаимодействия LLM с объектом: Ferret определяет выделенный фрагмент как кошачий хвост.

О перспективах проекта сказать пока трудно, ведь по словам технического блоггера Бена Диксона, мощности инфраструктуры Apple недостаточно для обслуживания LLM такого масштаба, поэтому компании пришлось принять решение выпустить проект в открытом формате.

Возьмите под контроль продвижение своего сайта
Исправьте ошибки, которые мешают сайту выйти в топ, и вы увидите рост трафика и дохода.
🔍 Подпишись на @prcynews в телеграм — оставайся в курсе последних SEO новостей и свежих материалов.

Теги поста или какие разделы почитать еще:

Комментарии (0)
К данной записи нельзя добавлять комментарии, т.к. она очень старая.
Как написать текст на сайт с помощью ChatGPT: советы и промты
Apple представила свою мультимодальную нейросеть для редактирования изображений
Что такое Google Gemini и как ее использовать