Сбер выпустил обновление своей нейросети — до версии Kandinsky 2.2. Система генерирует изображение по текстовому описанию, но при этом так же обладает возможностью редактирования уже готовых изображений. Редакция HTNews протестировала Kandinsky 2.2.
В апреле 2023 года Сбер представил нейросеть Kandinsky 2.1. HTNews тестировали первую версию нейросети — с обзором можно ознакомиться в этом материале. Новая же Kandinsky 2.2 способна создавать еще более качественные изображения за счет проведения дополнительного обучения на парах «текст-изображение», сообщает Сбер.
В обновленную версию нейросети добавили функционал: теперь доступен выбор соотношения сторон, можно создавать стикеры, изменять отдельные объекты на изображении. Повысилось максимальное разрешение генерируемого изображения и теперь оно составляет 1024 пикселя на сторону.
Воспользоваться Kandinsky 2.2 можно по-прежнему бесплатно. Для пользователей доступны: специальная платформа fusionbrain.ai, telegram bot, бот ВКонтакте. Так же воспользоваться функционалом нейросети смогут владельцы «умных» устройств от компании Сбер и пользователи мобильного приложения Салют.
Тест нейросети Kandinsky 2.2
Разработчики обещали повышение качества генерируемого контента по сравнению с Kandinsky 2.1. Посмотрим, как новая версия нейросети обработает те же самые запросы, которые мы вводили в прошлом тесте — и сверим результаты.
Версию 2.1 мы начинали тестировать с простого запроса: «Утро в морозном лесу» (без стиля). Повторим его для Kandinsky 2.2.
Результат действительно отличается. Разрешение изображения стало выше, однако при этом реализма в нем стало как будто меньше. Хотя возможно, здесь уже дело вкуса и личных ощущений.
В прошлом тесте мы проверяли, как изменения стиля меняют саму картинку. Повторим предыдущий запрос, но уже в средневековом стиле. Итак : «Утро в морозном лесу» (средневековый стиль).
Результат получился значительно лучше. Если дотошно не всматриваться в мелкие детали, то изображение получилось весьма качественным.
В дальнейшем для простоты эксперимента все изображения будут генерироваться без стиля. Еще одним простым запросом прошлого теста стал: «Закат на побережье«.
Разница между результатом работ новых версий и старых действительно заметна. Однако сложно сказать какое изображение лучше. С одной стороны разрешение Kandinsky 2.2 выше, но при этом само изображение как будто в чем-то уступает изображению прошлой версии.
Перейдем от простых запросов к более сложным. И теперь на очереди запрос: «Коронация медведя в лесном королевстве«, заданный ранее Kandinsky 2.1.
Kandinsky 2.2 удалось удивить своим результатом. Изображение несколько потеряло в своей реалистичности, но однозначно стало значительно милее понятнее. Звери вокруг медведя выглядят гораздо достойнее чем в прошлый раз.
Следующим запросом во время прошлого теста стало недвусмысленное «Космический еж стреляет лазерами из глаз».
Повторив несколько раз данный запрос и получив примерно один и тот же результат — заметил, что нейросеть как будто игнорирует слово «космический» и не понимает, что значит стрелять лазером из глаз (хотя кто бы уж тут понял, действительно). Она создает изображение, на котором присутствует еж и лазер. А вот увязать эти два слова Kandinsky 2.2 не удалось.
Следующим запросом вновь стал традиционный «Медуза Горгона выбирает фен в магазине электроники».
Нижняя часть медузы стала походить на спагетти, но Kandinsky 2.2 по-прежнему не знает, как выглядит Медуза Горгона, фен и магазин электроники.
Может быть с запросом «Гарри Поттер во Вселенной Warhammer 40000» обновленная нейросеть справится лучше?
И тут промах. Хотя, признаться, обработка такого запроса требует достаточно креативного подхода. На этот раз в сгенерированном изображение мало что напоминает как о Гарри Поттере, так и о вселенной Warhammer 40000.
Остается надеяться, что с более углубленным запросом «Космодесантник из вселенной Warhammer 40000 защищает Хогвартс» нейросеть станет лучше.
Странно, но Kandinsky 2.2 превратила мрачный сеттинг Warhammer 40000 в картинку из детской книжки с рейтингом 3+. Почему — попробуем узнать в Kandinsky 3.0.
Теперь попробуем сравнить Kandinsky 2.2 с Kandinsky 2.1 в более реалистичных стилях с реальными людьми. Вот что мы получили по запросу «Джонни Депп озадаченно смотрит на свою кровать«.
Результат оказался весьма интересным. Однако рассмотрев внимательно изображение, полученное с помощью Kandinsky 2.2 можно заметить, что Джонни Депп получился менее узнаваемым, чем на изображении, сгенерированном прошлой версией нейросети. Так же нельзя сказать, что его взгляд озадачен. Ну и, конечно, внимание привлекает странная рука актера.
Попробуем еще один один запрос, в котором бы фигурировали реальные люди. Например «Брэд Питт в кафе«.
Почему-то Брэд Пит тяжело дается обеим версиям, однако Kandinsky 2.2 однозначно справилась лучше. Более того, одна из рук актера выглядит пусть и аномально огромной, но при этом вполне реалистичной.
Ну и по традиции стоит проверить, как Kandinsky 2.2 справится с генерированием изображения руки. Для этого мы попросим нарисовать «Реалистичное изображение человеческой руки«.
Результат, по-прежнему, как будто рисовал безрукий. Особенно с учетом того, что западная нейросеть Midjourney уже научилась рисовать человеческие руки. Но может быть сам запрос недостаточно конкретен и корректен?
Попробуем еще раз. Максимально подобно пишем: «Максимально реалистичное изображение человеческой руки с пятью пальцами«
Выше вы можете наблюдать самый реалистичный вариант из полученных нами. Максимальный реализм в данном изображении заключается в наличии всех пяти пальцев — в других вариантах было 3, 6 и даже 2 пальца.
Напоследок можно повторить запрос на создание логотипа: «Нарисуй логотип компании, занимающейся продажей молочной продукции, добавив на изображение слоган «пейте молоко, порадуйте коровку».
Теперь Kandinsky 2.2 даже не пытается визуализировать слоган и из всего запроса она как будто поняла лишь слово «коровка».
Проверим как Kandinsky 2.2 стала дорисовывать уже исходные изображения. Для этого как и в прошлый раз загрузим изображение многоразовой ракеты Корона, о которой мы писали ранее.
Пробуем дорисовать недостающий участок изображения с помощью нейросети.
Результат оказался хуже чем в прошлый раз. Спустя несколько попыток стало понятно ,что дорисовка в автоматическом режиме — не самая сильная сторона Kandinsky 2.2.
Напомню, что Kandinsky 2.1 пусть не с первой попытки, но удалось прийти вот к такому результату.
Попробуем протестировать возможность дорисовки изображения уже не в автоматическом режиме, а в ручном. Для этого в поле запроса пропишем : «Дорисуй на это изображение милых котиков«.
Что происходило с нейросетью в момент генерации изображения сказать сложно. Но вот результаты, откровенно говоря, удручают.
Дадим Kandinsky 2.2 еще один шанс на редактирование изображения. Для этого загрузим в редактор созданную нейросетью картинку по запросу: «Веселый молочник«.
И попросим перерисовать ее в мультяшном стиле.
Результат можете оценить сами.
К слову, разработчики Kandinsky 2.2 анонсировали возможность создания стикеров. Так как я хочу создать стикеры для Telegram, то думаю будет проще воспользоваться специальным ботом нейросети для данного сервиса. Перейдя в бот необходимо выбрать режим «создание стикера» и далее ввести словесный запрос. Для начала я попросил создать «Веселая печенька с ножом».
Результат получился двояким. С одной стороны изображение яркое и забавное, а с другой стороны Kandinsky 2.2 опять не совсем верно понял запрос.
Повторим попытку создания стикера, теперь уже по запросу «Хитрая лисичка раздобыла спички«.
Результат в целом тот же. Яркое изображение, но при этом суть передана не совсем точно.
Полученные стикеры можно добавить в свою коллекцию. Для этого можно создать как уже новый стикерпак, так и добавить их в уже в созданный вами ранее. После чего вы сможете использовать их по прямому назначению.
Выводы о Kandinsky 2.2
Тестирование Kandinsky 2.2 оставило после себя двоякое впечатление. С одной стороны разработчику удалось повысить качество изображения, добавить реализма и разрешения картинки. С другой стороны: некоторые результаты по запросам свидетельствуют о том, что в определенных моментах нейросеть как будто стала даже хуже. Ждем следующей версии, чтобы сделать однозначные выводы о разработке Сбера!