Обновленная нейросеть Kandinsky 3.0 должна обеспечить более высокое качество генерируемого контента за счет дополнительного обучения. Система лучше понимает текстовые запросы, и, кажется, наконец, «разобралась» в русском культурном коде. HTNews традиционно тестирует новые возможности нейросети от Сбера.
В апреле 2023 года Сбер выпустил нейросеть Kandinsky 2.1. С помощью нее можно было создавать изображение по текстовому запросу. Сразу после релиза HTNews проверили возможности нейросети и поделились результатами теста.
Спустя несколько месяцев Сбер обновил Kandinsky до версии 2.2. Повысилось качество генерируемого контента. Улучшения стали возможны благодаря дополнительного обучения нейросети. На качество получаемого изображения повлияло увеличение максимально допустимого разрешения до 1024 пикселей на сторону. HTNews вновь протестировали возможности обновленной нейросети и рассказали о результатах.
В конце октября графическую нейросеть от Сбера научили создавать помимо статичных изображений, короткие анимации. На тот момент доступ к тестированию выдавался в телеграмм боте по запросу. И снова редакция HTNews окунулась в мир нейросетевого творчества, на практике проверив возможности сервиса.
Теперь Kandinsky обновлен до версии 3.0. Для того, чтобы приступить к генерации изображений необходимо перейти на специальный сайт по ссылке. Примечательно, что в этой версии для генерации изображения необходимо пройти процесс авторизации, чего раньше не требовалось. После выполнения всех необходимых процедур попадаем на страницу генерации контента.
Видим обновленный интерфейс нейросети. В целом, все, по-прежнему, интуитивно понятно. Однако теперь возможность генерации видео добавили в открытый доступ и воспользоваться ей можно в отдельной вкладке справа.
В панели инструментов — привычные функции: создать изображение с нуля, отредактировать конкретную область на сгенерированном изображении, загрузить и дорисовать картинку, скачать результат работы.
Единственный момент, который не совсем понятен и производит впечатление ошибки, это масштаб области генерации на вашем экране. На большом мониторе он автоматически принял значение в 70%, что мне показалось мало. Я переключился на 100%, но этого оказалось слишком много. Выставить значения вручную, например, 90% я не смог по причине отсутствия такой возможности, как и не смог вернуться на значения в 70%. На мониторе меньшего размера, автоматом был выставлен масштаб на 60%, что совсем мало, а 100% в свою очередь настолько много, что область не помещается на экране.
В целом, вопрос масштаба не так критичен. Уверен, разработчики исправят этот момент. Еще одно нововведение — обновленное окно ввода текста. Теперь выбор стиля, в котором будет происходить генерация изображения, стал более наглядным.
Добавился раздел «негативный промт». Его применение позволяет исключить некоторые объекты из генерации. Чтобы протестировать инструментарий пишем запрос для генерации изображения «Шары для боулинга» (изображение слева). После чего повторяю данный запрос, но добавлю в негативный промт: «синий шар» и «красный шар».
Можно спорить об оттенках цветов, но на мой взгляд один из шаров на картинке справа все-таки красный. Их этого делаем вывод, что функция работает не совсем корректно.
Попробуем сгенерировать изображения по запросам, которые наша редакция задавала Kandinsky версии 2.2, после чего сравним результаты генерации, чтобы оценить обещанные улучшения от обновления. Начнем с простого запроса «Утро в морозном лесу». Ниже и далее результат Kandinsky 3.0 будет на левом изображении, а результат Kandinsky 2.2 — на правом.
Результат более чем достойный. Если не вглядываться в мелкие детали, можно подумать, что перед нами фотография зимнего леса. Следующим простым запросом станет «Закат на побережье».
И снова качество изображения на мой взгляд значительно выше. Можно сказать, даже не к чему придраться в отличие от результата работы Kandinsky 2.2. Усложняем запрос: «Коронация медведя в лесном королевстве».
Kandinsky 3.0 сгенерировал эпичное изображение, но при этом смысл, заложенный в запрос, ускользнул. «Космический еж стреляет лазерами из глаз».
К сожалению, подобная задача, по-прежнему, слишком сложна для нейросети Сбера. Но качество изображение действительно выросло.
Следующим запросом станет: «Медуза Горгона выбирает фен в магазине электроники».
И снова заметно улучшение качества генерируемого изображения, но при этом все так же отсутствует понимание смысла запроса. Знает ли вообще нейросеть, как выглядит Медуза Горгона?
Нет, не знает. Но медуза, конечно, красивая.
Попробуем еще один запрос, который не удавался в прошлом «Гарри Поттер во Вселенной Warhammer 40000».
На фоне того, что было ранее, результат, можно сказать, великолепный.
Попробуем напоследок изобразить еще одну сцену из результата смешения двух выдуманных вселенных. Для этого составим запрос: «Космодесантник из вселенной Warhammer 40000 защищает Хогвартс».
Признаться честно — приятно удивлен.
Уйдем из мира фэнтези и попросим нейросеть сгенерировать изображение по традиционному запросу «Брэд Питт в кафе».
Не считая небольших деталей в целом изображение, получилось весьма приятным. Однако, как и в прошлый раз, с рукой у знаменитого актера происходит какая-то мутация. Поэтому следующим запросом попробуем изобразить «Максимально реалистичное изображение человеческой руки с пятью пальцами». Именно на этом запросе спотыкались все прошлые версии нейросети Kandinsky.
Прогнав несколько раз данный запрос я получал результаты примерно, как на изображении выше. По сравнению с результатами прошлых версий — стало значительно лучше. Но все же это все еще далеко от идеала.
Теперь попробуем проверить функционал, который в прошлых версиях работал совсем плохо — дорисовка изображения. Для этого загрузим изображение из нашего материала про второй испытательный полет Starship и попросим нейросеть дорисовать картинку.
Отличный результат. Попробуем повторить запрос на дорисовку. Только на этот раз возьмем изображение вертолета Ансат из нашего материала про разработку вертолетных двигателей.
В этот раз результат меня поразил. За время тестирования нейросетей Kandinsky у меня впервые пришло понимание, что это не просто забавная игрушка, но и потенциально полезный в работе инструмент. Если не знать, что правое изображение дорисовано нейросетью, скорее всего, эта мысль даже не придет в голову.
Напоследок хотелось бы проверить, как Kandinsky 3.0 разбирается в русской культуре. Попросим изобразить Кощея Бессмертного, задав соответствующий запрос.
Серьезный мужчина, если не приглядываться. Попробуем теперь сгенерировать изображение по запросу «БабаЯга».
Очень странная Баба-Яга с тенями на веках, усами как Пэй Мэя, аномальными руками. Но в целом, глядя на изображение, по какому-то наитию понимаешь, что перед тобой именно Баба-Яга.
Попробуем изобразить что-то более реалистичное. Например, «Юрий Гагарин на Красной площади».
Как по мне, результат просто потрясающий. Пусть он несколько неточный, но изображение получилось очень стильным и красочным.
Теперь я хочу увидеть изображение по запросу «Илья Муромец смотрит вдаль со стен Московского Кремля».
Очень красиво. Пусть и не совсем точно, но чувствуется, что нейросеть пыталась передать стиль старой рисовки и одновременно учесть культурный код.
Выводы о Kandinsky 3.0
Тестирование Kandinsky 3.0 принесло массу положительных впечатлений. По сравнению с прошлым обновлением до версии 2.2, тут реально заметен прогресс в работе нейросети. Есть, конечно, и свои минусы, связанные с генерацией изображений по сложным запросам, но в остальном разработчики проделали большую работу и теперь результаты некоторых генераций вызывают уважение и восторг, чего раньше не было вовсе.