Нейросеть Kandinsky 2.2 научилась создавать короткие анимации. Тест от HTNews

Нейросеть Kandinsky 2.2, разработанная Сбером, научилась создавать анимации по текстовому запросу. Обновленный функционал находится на стадии ограниченного тестирования, но HTNews удалось получить доступ к инструментарию и традиционно протестировать возможности нейросети.

В апреле 2023 года Сбер представил нейросеть Kandinsky 2.1, которая генерировала изображение по его текстовому запросу. Редакция HTNews протестировала ту версию и пришла к выводу, что с некоторыми запросами нейросеть справлялась хорошо, с другими не очень.

Затем Сбер обновил нейросеть до версии Kandinsky 2.2, улучшив качество генерируемых изображений. Редакция HTNews так же провела тестирование, с результатами которого вы можете ознакомиться в нашем специальном материале. С момента релиза Kandinsky 2.2 пользователи нейросети сгенерировали 50 млн изображений.

В октябре 2023 года Сбер анонсировал новые возможности Kandinsky 2.2. Помимо создания изображений обновленная нейросеть способна создавать короткие анимационные ролики. Пока видео генерируется только через телеграмм-бот Video-Kandinsky и в формате 640×640 пикселей, с частотой 24 к/с. Сейчас тестирование нового функционала доступно лишь самым активным пользователям нейросети, либо по приглашению, заявку на который надо отправить в телеграмм-бот.

После того как заявка HTNews была принята мы получили доступ к возможности генерировать анимированные ролики. Перед началом работы чат-бот так же провел краткий инструктаж о принципах работы новых функций.

Интерфейс максимально простой. В окно чата пользователь вводит текстовый запрос для создания желаемой анимационной сцены. Затем чат-бот предложит завершить ее или добавить еще два описания для создания дополнительных сцен. После того как вы закончите с описанием — надо будет выбрать движение камеры из нескольких предложенных вам.

Примеры движения камеры Video-Kandinsky

Выбираем формат видео: квадратный, вертикальный или горизонтальный, после чего начаем генерацию видео. В зависимости от количества сцен и загруженности серверов, процесс может занять от одной минуты (если сцена только одна) и от трех минут, если вы задали три сцены.

Тестирование Video-Kandinsky предлагаю начать с простого запроса «Ароматный кофе«. Движение камеры было выбрано вверх, а формат видео — вертикальный.

Результат по запросу «ароматный кофе«.Video-Kandinsky

Попробуем усложнить сцену добавив новые переменные: «Усатый повар готовит ароматный кофе«. Движение камеры осталось прежнее, а вот формат видео меняем на горизонтальное.

Результат по запросу «Усатый повар готовит ароматный кофе».Video-Kandinsky

Как можно заметить по видео выше, у повара нет усов, да и кофе он готовит немного странно.

Попробуем задать еще один простой запрос. Например: «Рыжий котенок бегает за бабочкой«. Так же горизонтально, но попробуем теперь с отдалением камеры.

Результат по запросу «Рыжий котенок бегает за бабочкой». Video-Kandinsky

Очень милая анимация. Но я ждал другого, хотелось бы больше динамики. Повторяем запрос, ничего не меняя.

Результат по запросу «Рыжий котенок бегает за бабочкой».Video-Kandinsky

Уже лучше. Попробуем создать анимацию природного явления, например: «Закат на пляже«. Движение камеры выберем на удаление, а формат видео горизонтальный.

Результат по запросу «Закат на пляже».Video-Kandinsky

Результат получился неплохим на мой взгляд. Единственное что смущает, так то силуэты странных существ, но в остальном можно сказать, что похоже на то, что хотелось увидеть.

Способен ли Video-Kandinsky учитывать стиль генерации видео в запросе пользователя? Попросим нейросеть сгенерировать «Снегопад в лесу в аниме стиле«. Движение камеры — на приближение, а формат на этот раз квадратный.

Результат по запросу «Снегопад в лесу в аниме стиле».Video-Kandinsky

Результат на мой взгляд получился просто впечатляющий. Да, конечно заметно, что частота кадров местами проседает и анимация идет рывками, но зато нейросеть смогла неплохо передать атмосферу.

Теперь в продолжение теста попробуем создать анимацию в которой будет сразу три сцены. Алгоритм действий тот же, только их количество увеличено в три раза. Первым запросом станет «Солнечный луг на котором пасутся кони» с приближением камеры.
Во второй сцене попросим изобразить «Солнечный луг затянуло тучами и лошади убежали» с удалением камеры. На третью сцену зададим запрос на «Из туч засверкали молнии, а на луг обрушился сильный дождь«, так же с удалением. Формат видео — горизонтальный.

Результат генерации трех объединенных сцен.Video-Kandinsky

Результат получился противоречивый. Тут и лошади странной формы, и погодные явления ни совсем натуральные, да и сам луг меняется в каждой сцене. Но при этом анимация в целом и очень приблизительно отображает заданный запрос.

Последующие запросы на создание сложных сюжетов из нескольких сцен давали примерно похожий результат. Получившиеся анимации имели недостатки как и отельных сцен, так и в выстраивание общих сцен.

Выводы

Video-Kandinsky — очень молодая нейросеть, которая, к тому же, находится на стадии закрытого тестирования. Ей еще многому предстоит научиться. А если рассматривать ее в качестве рабочего инструмента, а не забавного способа скрасить вечер, то учиться ей еще очень многому. Но иногда, среди множества попыток она способна выдать относительно неплохие результаты. Опираясь на них можно поймать вдохновение для создания собственных креативных идей.

Tags: Kandinsky Kandinsky 2.2 Video-Kandinsky Нейросеть Сбер