Yandex представили новую нейросеть — YandexART, которая создает изображение по текстовому запросу пользователя, а благодаря обучению на 330 млн картинок с текстовым описанием качество сгенерированных изображений должно было значительно возрасти. HTNews опробовали возможности нового ИИ.
С помощью Yandex AI Rendering Technology (YandexART) можно создавать изображения по текстовому запросу. За счет нового алгоритма распознавания текста, заявляют разработчики, ИИ точнее понимает запрос человека.
YandexART генерирует изображения и анимацию, применяя метод каскадной диффузии. На первом этапе происходит генерация простой картинки по текстовому запросу пользователя. После этого нейросеть постепенно увеличивает разрешение изображения и насыщает его дополнительными деталями. По сравнению с графической нейросетью прошлого поколения результаты генераций контента улучшились в 60% случаев, уточнили в Яндексе.
Преимуществом YandexART перед другими аналогичными продуктами является распознавание русского культурного кода. По заявлению разработчиков, нейросеть должна понимать отсылки к российской культуре и может генерировать узнаваемые географические места, исторических личностей, героев сказок, кино или мультфильмов.
Сгенерировать изображение по текстовому описанию можно с помощью приложения Яндекса — Шедеврум. Для этого его необходимо скачать из GooglePlay или AppStore. После скачивания, запуска и регистрации вы попадете на главную страницу приложения.
Интерфейс приложения простой. По умолчанию вы окажетесь во вкладке недавнее, где собраны новые посты от других пользователей. Под каждым из постов можно оставить комментарий, поставить лайк или поделиться им с друзьями. Посты, которые получат больше всего лайков, попадут во вкладку лучшие. Так же можно подписаться на авторов, работы которых вам понравились, в дальнейшем их можно будет найти в вкладке подписки.
Для того чтобы начать генерировать собственные изображения по текстовому описанию необходимо нажать на значок + в верхнем правом углу экрана.
Так как в приложении Шедеврум присутствует интеграция не только графической нейросети YandexART, а еще и текстовой YandexGPT 2, о которой HTNews писал ранее, то можно так же создать и текст по вашему запросу. Но так как сейчас нас интересует создание изображений, а не текста — то нажмем соответствующую кнопку.
Решил начать с простого и попросил нарисовать: «Ехали медведи на велосипеде«. Процесс генерации изображения занял минуту, после чего нейросеть предложила четыре варианта на выбор. В случае если не устроит ни один из них можно повторить процесс генерации.
Скачать картинку, однако, так просто не получается. Необходимо нажать на кнопку «опубликовать» и тогда она появится в общей ленте во вкладке недавнее.
После попадания в общую ленту ваше изображение будет некоторое время проходить процедуру улучшения качества, о чем свидетельствует надпись в нижнем правом углу. После улучшения вы сможете открыть изображение и скачать его на ваше устройство.
Картинка действительно стала более четкой. На первый взгляд все выглядит даже хорошо. Но если начинать вглядываться в изображение, то можно заметить вещи, которые портят общее впечатление. Например, конструкция велосипедов или размытые морды медведей на заднем плане.
Теперь попробуем максимально упростить задачу.
Как можно заметить, некоторые варианты выглядят достаточно неплохо. Остановимся на одном из них. В момент сохранения — удалось «поймать» изображение до улучшения качества. Разница присутствует и заметна невооруженным глазом.
Воодушевленный таким результатом пробую более специфичный запрос. Из предложенных вариантов был выбран один как мне показалось более удачный.
Полученное изображение вызывает противоречивые впечатления. С одной стороны картинка получилась сочная, с хорошей детализацией, а с другой стороны, очевидно, что это не бобер, а хомяк или морская свинка. И остальные варианты так же лишены, как минимум двух очевидных атрибутов бобров — ярко выраженные передних резцов и хвоста лопатой.
А сейчас хочется проверить YandexART на наличие русского культурного кода, о котором упомянули разработчики. Для этого попросил нарисовать Кощея Бессмертного.
Результаты радуют. Во-первых, герой русских сказок был изображен в разных стилях, а во-вторых, качество изображений оказалось весьма приемлемо.
А вот с более сложным запросом, который включал в себя сразу несколько героев русских сказок нейросеть, очевидно6 не справилась.
Помимо героев эпоса русский культурный код, в моем понимании, включает в себя так же и реально существующих людей, которые внесли существенный вклад в развитие нашей страны. Поэтому просим изобразить Юрия Гагарина. На этот запрос нейросеть «ответила», что ее правила запрещают создавать изображения реально существующих людей. При этом Иван Грозный был отрисован без каких-либо проблем и даже в разных стилях.
Завершая тест попросим YandexART сгенерировать изображение по запросу «реалистичное изображение руки с пятью пальцами«. Не смотря на кажущуюся простоту, многие нейросети почему-то не справляются с этой задачей. Например, Kandinsky 2.2 от Сбера во время нашего летнего теста с запросом справиться не смогла.
А вот нейросеть компании Яндекс можно считать что задачу выполнила успешно. Да, два изображения из четырех далеки от идеала, но оставшиеся два выглядят весьма неплохо.
Подведем итог. Внедрение YandexART в Шедеврум сильно улучшило возможности сервиса. В сравнении с результатами работы приложения в момент его релиза полгода назад, виден большой прогресс. При этом местами становится очевидно, что YandexART не хватает обучения, разработчики вложили ресурсы в повышения качества картинки, но смысловая нагрузка пока что отстает.