Знакомство с Vidu
Автор: Константин БояндинСозданием цифрового видео по описанию или на базе исходного (референтного) изображения сейчас мало кого можно удивить, это можно делать и своими усилиями, средствами давно известного SD (Stable Diffusion, вычислительной системы порождения цифровых изображений по текстовому описанию и/или на базе других изображений).
Вчера Vidu (онлайн-сервис от КНР) стал доступен всем желающим, бесплатно там можно сделать до 20 4-секундных ролика в месяц.
Пример работы сервиса (ссылка на картинке откроет страницу, где можно запустить ролик).
Как и в случае других генеративных сервисов, на выходе может быть полно брака (и в смысле того, что сервис делает ролик не по тем действиям, и в смысле качества и согласованности самого ролика). С учётом, что ролик генерируется от 10 до 15 секунд, итоговые результаты впечатляют.
На картинке - персонаж пишущейся книги "Фонтан юности"; орков Варкрафта помнят, вероятно, все, но в книге общее с орками - только внешний вид. Картинка иллюстрирует знакомство протагонистов, Катерины Полозовой (она же Карин рем ан Корвус) и её напарницы, той самой девушки-орка Лиры рем ан Морвен (самоназвание по книге "рима").
ИИ взял картинку за основу сцены и, по описанию, Лира должна посмотреть с удивлением, шире улыбнуться и пройти мимо. Если покадрово посмотреть на изменение интерьера и отрисовку облика самой Лиры, вполне можно впечатлиться.
Не обошлось и без дефектов; чёрные пятна на лице Лиры - сажа; по сюжету, напарницам (обе служат в полиции) только что пришлось спасать людей от пожара, отсюда сажа. ИИ трактует сажу как отверстия.
Что особенно впечатляет - это то, как ИИ достраивает облик самой Лиры. По описанию статической картинки, у неё две косички; ИИ добавляет третью за спину, и вполне убедительно дорисовывает и полицейскую форму, и всё то, что прицеплено на поясе Лиры.
Это всё ИИ делает самостоятельно: в описании сценария ролика нет ни слова о том, где всё происходит. Если вас всё ещё не впечатлило то, как ИИ проанализировал картинку, экстраполировал трёхмерную модель Лиры и продолжил интерьер воображаемого помещения - то сейчас самое время.
По описанию, насколько я могу судить, на моём локальном оборудовании, если бы я располагал ПО и тренировочной базой, это всё считалось бы порядка 5-8 минут. Вполне приемлемо для оборудования, что слабее даже среднего игрового компьютера.
Очень советую найти ежемесячно десяток-другой минут и поэкспериментировать.