Обновление нейросети Сбера, по мнению разработчиков, улучшило производительность и качество изображения. Насколько хороша Kandinsky 2.1 попытался разобраться HTNews.
Сбер представил обновленную версию нейросети Kandinsky 2.1. Она создана для генерации и дополнения изображений по текстовому описанию. Воспользоваться Kandinsky 2.1 можно перейдя по ссылке на официальный сайт проекта, через специальный бот в телеграмме, на умных устройствах Сбер или в мобильном приложение Салют.
Обновленная Kandinsky 2.1, по сравнению с предыдущей версией, прошла дополнительное обучение на 170 млн парах «текст — изображение». После чего ее дополнительно обучили на 2 млн парах изображений высокого качества.
Разработчики внедрили новую обученную модель автоэнкодера, который занимается кодировкой входящих данных, чтобы после декодировать их в другом виде. Благодаря этому улучшилась генерация изображений в высоком разрешении. Теперь Kandinsky 2.1 поддерживает 3.3 млрд параметров вместо 2 млрд в предыдущей версии.
Разработкой Kandinsky 2.1 занимались специалисты Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI. Они смогли создать нейросеть, которая способна не только создавать изображения на основе текстовых данных, но и дорабатывать загруженную пользователем фотографию. Разработчики заявляют о поддержке 101 языка включая русский и английский.
Изображение можно попросить выполнить в одном из нескольких стилях: киберпанк, пикассо, иконопись, советский мультик и другие. Однако на данный момент максимальное разрешение изображения достаточно низкое — всего 768х768.
Практический тест Kandinsky 2.1
Интерфейс десктопной версии интуитивно понятен. Перед началом работы можно выбрать стиль, в котором хочется получить изображение.
В нижней части интерфейса находится окно для текстового описания желаемого результата. Так же имеются панели, в которых находятся иконки загрузки/скачивания изображения, кнопки изменения масштаба и другие.
В первый день запуска нейросети изображение никак не хотело генерироваться. Причиной могла стать высокая нагрузка на сервера. На следующий день после релиза редакция HTNews смогла приступить к тестированию. Процесс создания каждого изображения занимал порядка 30 секунд.
Тестирование работы Kandinsky 2.1 начали с простых запросов. Первый запрос: утро в морозном лесу. Нейросеть в режиме работы «без стиля» выдала следующий результат.
Вторая попытка: тот же запрос, но в «средневековом» стиле.
Не уверен, что именно так выглядит средневековый стиль, однако изображение отличается от предыдущего. После чего, убедившись, что разница между стилями существует все дальнейшие запросы выполнялись в режиме «Без стиля».
Завершить тестирование простых запросов решили на запросе сгенерировать изображение, на котором будет изображен закат на побережье. Данный запрос нейросеть так же выполнила без особых проблем.
Усложним задачу. «Коронация медведя в лесном королевстве». Результат оказался более спорным. Сам медведь (не считая его лап) выглядел правдоподобно, однако его лесная братия получилась достаточно абстрактной. Понять, что за животные вокруг не представляется возможным.
Нужно дать нейросети второй шанс. Кликаем на инструмент «ластик» и стираем всех неведомых зверей.
После применения «ластика» нейросеть перерисовала картинку. Однако результат по-прежнему не оправдывает ожиданий:
Дальнейшие попытки избавиться от абстрактных существ оказались тщетны. Kandinsky 2.1 раз за разом, как бы намекая на некое сакральное знание, добавляла их в работу. Дабы не оказаться втянутой в теорию заговора редакция HTNews решила продолжить тестировать нейросеть.
Пробуем: «Космический еж стреляет лазерами из глаз». Несмотря на некоторые неточности между запросом и результатом изображение получилось интересным.
Теперь совместим реальность и вымысел. «Медуза Горгона выбирает фен в магазине электроники». Выяснилось, что Kandinsky 2.1 не знает, как выглядит персонаж греческой мифологии Медуза Горгона (женское лицо и змеи вместо волос).
Ладно. Видимо, мифы отложим в сторону. Попробуем перенести известных персонажей в несвойственный для них сеттинг. «Гарри поттер во вселенной Warhammer 40000». Результат по-прежнему оказался неудовлетворительным.
Традиционно даем второй шанс. «Космодесантник из вселенной Warhammer 40000 защищает Хогвартс». Результат данного запроса оказался уже интереснее, однако создалось впечатление будто нейросеть «ленится». Она как бы ставит в приоритет лишь часть запроса, а вторую добавляет исключительно для создания антуража.
Теперь исследуем возможности Kandinsky 2.1 в отрисовке реальных людей. «Джонни Депп озадаченно смотрит на свою кровать». Нейросеть уловила слова «Джонни Депп», «кровать», «озадаченно смотрит», но не смогла уловить связь между этими словами. Повторив запрос несколько раз результат оказывался примерно одинаковым.
Очевидно, нейросеть не справляется с такими сложными запросами. Напоследок попробуем упростить: «Брэд Питт в кафе». Результат получился лучше, но сходство с американским актером заканчивается в районе носа.
Обратите внимание на правую руку «Брэда Питта». Очень похоже, что нейросеть Сбера «страдает» от стандартной проблемы нейросетей — качественной отрисовкой человеческих рук.
Поэтому следующий запрос был направлен на тест, умеет ли Kandinsky 2.1 рисовать руки людей. После просьбы создать «Реалистичное изображение человеческой руки» стало понятно, что нет. Руки пока слишком сложный объект.
Отойдем от сложных рисунков. Все-таки нейросети могут (подразумевается) помогать в создании логотипов.
По запросу «Нарисуй логотип компании занимающейся продажей молочной продукции, добавив на изображение слоган «пейте молоко, порадуйте коровку» был получен следующий результат:
Не смотря на то, что нейросеть попыталась уловить смысл запроса, результат оказался довольно таки абстрактным.
На этом тесты по созданию изображения с нуля было принято решение закончить. Так как разработчики заявили функцию дорисовки уже готовых изображений, HTNews решил ее протестировать. В качестве базового изображения был взят рисунок разрабатываемой в России многоразовой ракеты Корона (читай наш лонгрид).
Исходное изображение в варианте по умолчанию не заполняло собой все поле для редактирования. Поэтому нажав на кнопку «Создать», нейросеть автоматически дорисовала изображение на свое усмотрение.
Kandinsky 2.1 удалось весьма правдоподобно дорисовать часть поверхности Земли. Однако по какому принципу она решила добавить на изображение спорткар можно только гадать. Возможно, она выстроила связь на основе новости о запуске в космос электрокара Tesla. Повторив запрос результат оказался уже более правдоподобным.
А вот все остальные запросы на добавление различных объектов на исходное изображение, просьбы перерисовать изображение в другом стиле, изменить фон или объединить два изображение в одно, увы, были проигнорированы.
Выводы о нейросети Kandinsky 2.1
На данный момент Kandinsky 2.1 представляет из себя достаточно сырой продукт. Нейросети предстоит еще многому научиться, чтобы генерировать изображения по сложным запросам.
С простыми задачами (например, нарисовать закат на побережье) она уже справляется неплохо. Возможно, кому-то текущий функционал окажется полезным, например при создании общей концепции художественного рисунка или логотипа, для последующий доработки в ручном режиме.
Так же стоит помнить, что еще буквально год назад результаты, которые выдает Kandinsky 2.1, казались чем-то из области фантастики. Возможно, пройдет еще год и нейросеть от Сбера сможет поразить нас своими результатами работы.