Нейросеть Сбера создает картинки из словесного описания

Сбер рассказал о завершении разработки нейронной сети, которая создает изображения, используя текстовое описание на русском языке. Такая нейронка может быть востребована в сфере дизайна и рекламы, сообщили в пресс-службе компании.

«Нейросеть ruDALL-E одновременно обучается на двух видах данных: изображениях и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию. Использовать ее можно для создания дизайна интерьера, стоковых изображений или векторных иллюстраций, а также материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна», — говорится в сообщении.

Генерация изображений при помощи ruDALL-E осуществляется в три этапа: сперва нейросеть получает текст и создает заданное число картинок, затем она выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а на завершающей стадии увеличивает их в размере без потери качества.

Сотрудники Сбера создали две версии нейросети, полную и ограниченную – ruDALL-E XL – которая доступна для бесплатной загрузки на сервисе Github. При этом оба варианта разработки, включая расширенную версию ruDALL-E 12B, будут представлены на платформе ML Space компании SberCloud, входящей в экосистему Сбера.

ТАСС уточняет, что подобная модель для работы с англоязычным текстом ранее была представлена американской компанией OpenAI в 2021 году, однако она была полностью выложена в открытый доступ. Разработчики Сбера воспроизвели опубликованный коллегами код и запустили обучение нейросети на платформе ML Space, использующей мощности суперкомпьютера «Кристофари». «В результате получилась самая большая модель такого рода в мире, работающая с русским языком: обучение заняло 23 тыс. GPU-часов на массиве данных из 120 млн пар «текст-изображение». Пока что это самый большой нейросетевой вычислительный проект в России и СНГ», – отметили в Сбере

«Генерация изображений закрывает две важных потребности современного бизнеса: возможность получить уникальную картинку под собственное описание и в любой момент создавать необходимое количество изображений со свободными авторскими правами. Технология пока совсем новая, первые шаги в этом направлении были сделаны только в прошлом году, а еще в 2018-2019 годах даже постановку такого рода задачи нельзя было себе представить. [Нейросеть] ruDALL-E можно считать настоящим прорывом для русскоязычной индустрии», — заявил CTO Сбера, исполнительный вице-президент компании Давид Рафаловский.

2 ноября 2021

Сбер

Нейросеть Сбера создает картинки из словесного описания

Начинающие бессмертные: что произойдет, когда изобретут долголетие

Нечто из ничто: как ноль стал значимым числом

Пацаны извиняются: как связаны личные границы и чувство вины