Представлена нейросеть YandexART для создания графики. Тест от HTNews

Yandex представили новую нейросеть — YandexART, которая создает изображение по текстовому запросу пользователя, а благодаря обучению на 330 млн картинок с текстовым описанием качество сгенерированных изображений должно было значительно возрасти. HTNews опробовали возможности нового ИИ.

С помощью Yandex AI Rendering Technology (YandexART) можно создавать изображения по текстовому запросу. За счет нового алгоритма распознавания текста, заявляют разработчики, ИИ точнее понимает запрос человека.

YandexART генерирует изображения и анимацию, применяя метод каскадной диффузии. На первом этапе происходит генерация простой картинки по текстовому запросу пользователя. После этого нейросеть постепенно увеличивает разрешение изображения и насыщает его дополнительными деталями. По сравнению с графической нейросетью прошлого поколения результаты генераций контента улучшились в 60% случаев, уточнили в Яндексе.

Преимуществом YandexART перед другими аналогичными продуктами является распознавание русского культурного кода. По заявлению разработчиков, нейросеть должна понимать отсылки к российской культуре и может генерировать узнаваемые географические места, исторических личностей, героев сказок, кино или мультфильмов.

Сгенерировать изображение по текстовому описанию можно с помощью приложения Яндекса — Шедеврум. Для этого его необходимо скачать из GooglePlay или AppStore. После скачивания, запуска и регистрации вы попадете на главную страницу приложения.

***Главная страница приложение Шедеврум***

Интерфейс приложения простой. По умолчанию вы окажетесь во вкладке недавнее, где собраны новые посты от других пользователей. Под каждым из постов можно оставить комментарий, поставить лайк или поделиться им с друзьями. Посты, которые получат больше всего лайков, попадут во вкладку лучшие. Так же можно подписаться на авторов, работы которых вам понравились, в дальнейшем их можно будет найти в вкладке подписки.

Для того чтобы начать генерировать собственные изображения по текстовому описанию необходимо нажать на значок + в верхнем правом углу экрана.

***Интерфейс который откроется при нажатии на +***

Так как в приложении Шедеврум присутствует интеграция не только графической нейросети YandexART, а еще и текстовой YandexGPT 2, о которой HTNews писал ранее, то можно так же создать и текст по вашему запросу. Но так как сейчас нас интересует создание изображений, а не текста — то нажмем соответствующую кнопку.

***Варианты предложенные нейросетью на мой запрос.***

Решил начать с простого и попросил нарисовать: «Ехали медведи на велосипеде«. Процесс генерации изображения занял минуту, после чего нейросеть предложила четыре варианта на выбор. В случае если не устроит ни один из них можно повторить процесс генерации.

Скачать картинку, однако, так просто не получается. Необходимо нажать на кнопку «опубликовать» и тогда она появится в общей ленте во вкладке недавнее.

***Сгенерированная картинка в общей ленте***

После попадания в общую ленту ваше изображение будет некоторое время проходить процедуру улучшения качества, о чем свидетельствует надпись в нижнем правом углу. После улучшения вы сможете открыть изображение и скачать его на ваше устройство.

***Скачанное и улучшенное изображение***

Картинка действительно стала более четкой. На первый взгляд все выглядит даже хорошо. Но если начинать вглядываться в изображение, то можно заметить вещи, которые портят общее впечатление. Например, конструкция велосипедов или размытые морды медведей на заднем плане.

Теперь попробуем максимально упростить задачу.

**Результаты генерации по запросу «цветок и нож»**

Как можно заметить, некоторые варианты выглядят достаточно неплохо. Остановимся на одном из них. В момент сохранения — удалось «поймать» изображение до улучшения качества. Разница присутствует и заметна невооруженным глазом.

Воодушевленный таким результатом пробую более специфичный запрос. Из предложенных вариантов был выбран один как мне показалось более удачный.

Полученное изображение вызывает противоречивые впечатления. С одной стороны картинка получилась сочная, с хорошей детализацией, а с другой стороны, очевидно, что это не бобер, а хомяк или морская свинка. И остальные варианты так же лишены, как минимум двух очевидных атрибутов бобров — ярко выраженные передних резцов и хвоста лопатой.

А сейчас хочется проверить YandexART на наличие русского культурного кода, о котором упомянули разработчики. Для этого попросил нарисовать Кощея Бессмертного.

Результаты радуют. Во-первых, герой русских сказок был изображен в разных стилях, а во-вторых, качество изображений оказалось весьма приемлемо.

А вот с более сложным запросом, который включал в себя сразу несколько героев русских сказок нейросеть, очевидно6 не справилась.

Помимо героев эпоса русский культурный код, в моем понимании, включает в себя так же и реально существующих людей, которые внесли существенный вклад в развитие нашей страны. Поэтому просим изобразить Юрия Гагарина. На этот запрос нейросеть «ответила», что ее правила запрещают создавать изображения реально существующих людей. При этом Иван Грозный был отрисован без каких-либо проблем и даже в разных стилях.

**Результат генерации изображения по запросу Иван Грозный**

Завершая тест попросим YandexART сгенерировать изображение по запросу «реалистичное изображение руки с пятью пальцами«. Не смотря на кажущуюся простоту, многие нейросети почему-то не справляются с этой задачей. Например, Kandinsky 2.2 от Сбера во время нашего летнего теста с запросом справиться не смогла.

А вот нейросеть компании Яндекс можно считать что задачу выполнила успешно. Да, два изображения из четырех далеки от идеала, но оставшиеся два выглядят весьма неплохо.

Подведем итог. Внедрение YandexART в Шедеврум сильно улучшило возможности сервиса. В сравнении с результатами работы приложения в момент его релиза полгода назад, виден большой прогресс. При этом местами становится очевидно, что YandexART не хватает обучения, разработчики вложили ресурсы в повышения качества картинки, но смысловая нагрузка пока что отстает.

Tags: Yandex YandexART Яндекс