Генеративная модель от Сбербанка создает высокодетализированные (до 4К) изображения по текстовому описанию. Основная ее фишка — распознавание «естественного языка». Технология умеет соединять несколько рисунков, сочетать текстовое описание и заданное изображение, дополнять недостающие фрагменты и формировать изображения в режиме бесконечного полотна.
Сейчас технология распознает команды на 101 языке, работает как минимум в четырех стилях, включая аниме, и понимает сложносоставные запросы. Технология основана на предшественнике, который прошел обучение на одном миллиарде пар «картинка-текст» и отдельно созданном датасете из двух миллионов пар качественных изображений, сложных для понимания нейросети (в частности, лиц людей, текстов, рук).
Опробовать «Кандинского» можно через телеграм-бота.
Что вы думаете насчет отечественных разработок? Есть ли у них потенциал или Midjourney убежал слишком далеко? Пишите в комментариях!
Напоминаем, что за прошедшие это уже второй запуск технологии для генерации изображений по текстовому описанию от отечественных разработчиков. Накануне бета-версию своего инструмента «Шедеврум» запустил Яндекс.