Разработчики Сбера сделали нейросеть, создающую изображения из текстовых описаний

Подобная технология используется в мире впервые.

Нейросеть ruDALL-E одновременно обучается на двух типах контента — изображениях и текстах, и позволяет создавать неограниченное число новых изображений по заданному текстовому описанию. Пока только на русском языке.

Разработчики полагают, что технология будет полезна в сфере дизайна интерьеров, рекламы, стоковых изображений, векторных иллюстраций, а также копирайтинга.

Создание изображений происходит в три этапа:

Нейросеть обрабатывает текст и генерирует заданное число изображений.
Среди изображений выбираются самые подходящие под описания.
Изображения увеличиваются до максимального размера без потери качества.

Подобная технология, правда на английском языке, уже была опробована американской компанией OpenAI, но она так и не появилась в открытом доступе. Разработчики Сбера воспользовались доступным открытым кодом уже готовой технологии и запустили обучение своей нейросети с помощью суперкомпьютера «Кристофари».

«В результате получилась самая большая модель такого рода в мире, работающая с русским языком: обучение заняло 23 тыс. GPU-часов на массиве данных из 120 млн пар "текст-изображение". Проект по обучению ruDALL-E стал самым большим нейросетевым вычислительным проектом в России и СНГ», — отметили в пресс-службе Сбера.

Разработчики представили две версии нейросети с разных числом параметров. Версия ruDALL-E XL доступна для бесплатной загрузки с сервиса GitHub, а платная версия ruDALL-E 12B будет включать дополнительные возможности. Обе версии Сбер представит на платформе ML Space, входящую в экосистему компании.