Сбер научил нейросеть рисовать изображения по текстовому описанию на 101 языке: посмотрите, как они выглядят

24 ноября 2022, 15:13 8 865

Сбер представил первую российскую мультиязычную диффузионную модель для генерации изображений по текстовому описанию с 2 млрд параметров — Kandinsky 2.0 — на международной конференции по искусственному интеллекту (ИИ) Artificial Intelligence Journey. Нейросеть понимает 101 язык и знает, что в Японии национальное блюдо — суши, а в России — щи.

Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке ученых из Института искусственного интеллекта AIRI. Для обучения использовался 1 млрд пар «текст-изображение». Увидеть, как нейросеть рисует, можно уже сейчас на открытом портале FusionBrain.ai, а также на умных устройствах Сбера.

В Kandinsky 2.0 используется диффузионный подход, который позволяет синтезировать по текстовому описанию изображения, видео, 3D- и аудиоконтент.

Пример изображения, созданного Kandinsky 2.0 | Источник: предоставлено пресс-службой Сбера — Пример изображения, созданного Kandinsky 2.0

1 из 3

Пример изображения, созданного Kandinsky 2.0

Источник:

предоставлено пресс-службой Сбера

Модель может обрабатывать запросы на 101 языке, среди которых не только широко распространенные русский и английский, но и более редкие — например, монгольский. Причем в одном запросе можно использовать слова на разных языках. При этом нейросеть анализирует лингвистические конструкции и понятия и создает изображения в зависимости от языка и культурной окраски. Например, на запрос «национальное блюдо» на русском языке она, скорее всего, нарисует щи, а на японском — мисо суп и суши. При этом модель может генерировать изображения в 20 стилях, среди которых ренессанс, классицизм, мультипликация, Новый год и даже хохлома.

«Наша модель позволяет за несколько секунд получить уникальную картинку под конкретную задачу и свободно распространять её без лицензии, что очень актуально для бизнеса, — отметил Александр Ведяхин, первый заместитель председателя правления Сбербанка. — Генеративные модели развиваются очень быстро: ещё четыре года назад даже постановку такой задачи сложно было представить, а сегодня мы имеем работающую модель, которая понимает 101 язык и рисует реалистичные изображения, которые зачастую неотличимы от тех, что создают люди».

ПО ТЕМЕ

Лайк

Смех

Удивление

Гнев

Печаль

Увидели опечатку? Выделите фрагмент и нажмите Ctrl+Enter

Комментарии

Sergeika7

24 ноября 2022, 15:56

Он еще недостаточно интеллект, я проверил. В ответ на задание нарисовать сюжет "В прокуренной коммунальной кухне, пьяный небритый мужик в тапках-шлепанцах и с беломором в зубах, одетый в застиранные треники с обтянутыми коленями и майку-алкоголичку, остервенело замахивается на назойливую муху ракеткой от бадминтона. стиль реализм, акварель" - получил невнятную нереалистичную фигню.