Снять кино по роману - это просто!

Автор: Серж Маршалл

Пример https://youtu.be/rkoaegGsqyE?si=CZoGJA2Q_x9G7Ec9

Сначала два названия моделей:

Seedance 2.0 - Мультимодальная модель генерации видео.

Seedance 2.0 — мультимодальная модель генерации видео от компании ByteDance, вышедшая в феврале 2026 года. Работает как виртуальный режиссёр: принимает текст, изображения, короткие видео и аудио одновременно, понимает роль каждого файла и выдаёт готовый кинематографический клип.

Некоторые возможности модели:

генерация видео в 1080p (в продвинутых режимах — до 4K) длительностью 20–35 секунд;
физически корректная симуляция (ткань, жидкости, отражения, столкновения объектов);
стабильность лиц и персонажей даже в динамичных сценах;
режиссёрский контроль камеры (наезды, панорамы, зум и т. д.);
переход между сценами с сохранением единства стиля и героев.

Принцип работы

Модель воспринимает текст не как литературное описание, а как набор смысловых указаний. Для неё важно не только «что» нужно показать, но и «как» это должно выглядеть во времени.

На базовом уровне процесс выглядит так:

Пользователь задаёт текстовый запрос.
Модель выделяет ключевые сущности сцены.
Определяет связи между ними.
Достраивает визуальную логику кадра.
Формирует последовательность кадров с учётом движения и атмосферы.

Важно: Seedance особенно чувствительна к формулировкам, связанным с динамикой: нужно задать временную логику: кто двигается, куда, с какой скоростью, что происходит на переднем плане и на заднем, как ведёт себя свет, меняется ли ракурс.

Инструкция по использованию

Некоторые особенности интерфейса Seedance 2.0:

Поле ввода промпта — здесь пользователь вводит описание видео, которое хочет создать.
Переключатель режима генерации — позволяет выбирать между «текст → видео» (описание сцены с нуля) и «изображение → видео» (загрузка статичного изображения с описанием желаемого движения).
Параметры генерации — управляют такими аспектами, как длительность видео, стиль и настройки качества.
Галерея результатов — отображает созданные клипы, позволяет их скачивать и просматривать историю генераций.

Где можно пользоваться Seedance 2.0: на момент 2026 года есть официальные сервисы — CapCut (встроенный AI-генератор) и Dreamina (веб-версия). Напрямую из России доступ к модели получить непросто — модель живёт на платформе Dreamina (CapCut), и без средств для смены региона зайти не получится

***
Kling 3.0 — это унифицированный мультимодальный ИИ-движок, разработанный компанией Kuaishou.

Основные характеристики

Архитектура Omni One. Объединяет 3D пространственно-временное внимание и Chain-of-Thought рассуждения для генерации физически точного движения.
Физически точная генерация. Учитывает гравитацию, баланс, деформацию, коллизии и инерцию — персонажи и объекты двигаются как в реальном мире.
Нативная аудиосинхронизация. Генерирует синхронизированные озвучки, диалоги, звуковые эффекты и фоновое аудио за один проход.
Качество и разрешение. Поддерживает нативные 1080p и 4K при 30 кадрах в секунду с 16-битным HDR-цветом.
Экспорт. Профессиональные форматы, включая 16-битный HDR и EXR-последовательности для интеграции с Nuke, After Effects и DaVinci Resolve.
Длительность видео. До 15 секунд.
Режимы генерации. Текст-в-видео, изображение-в-видео, расширение видео, контроль начального/конечного кадра, прототипирование в режиме черновика.

Дополнительные функции

Мультимодальный редактор 1-в-1. Позволяет редактировать существующие видео текстовыми или графическими промптами: добавлять, удалять или трансформировать элементы, сохраняя оригинальное движение.
Motion Control. Переносит реальные движения из референсного видео на персонажа или объект на статичном изображении, сохраняя внешний вид исходной картинки.
Elements (Элементы). Библиотека персонажей, предметов, животных и локаций, которые нейросеть запоминает и точно воспроизводит в видео.
Multi-Shot. Режим, который разбивает видео на несколько отдельных сцен, каждая со своим описанием и ракурсом.
Canvas Agent. ИИ-ассистент для раскадровки с расширением под несколькими углами, автоматизирующий кинопроизводство с многоходовым редактированием диалогов.

Особенности использования

Коммерческие права. Все платные планы включают полные коммерческие права и защиту интеллектуальной собственности.
Кредитная система. Новые пользователи получают бесплатные кредиты для пробы. Доступны гибкие подписки и пакеты кредитов с оплатой по использованию.
Интеграция. Kling 3.0 бесшовно интегрируется в существующие VFX- и постпродакшен-пайплайны.

Kling 3.0 был запущен во всём мире 5 февраля 2026 года. Модель доступна на различных платформах, например Novita AI, Higgsfield.

***
Результат прогоняем через Topaz Starlight Precise 2.5 и показываем фанатам в 4К.

Topaz Starlight Precise 2.5 — это диффузионная модель для улучшения видео, выпущенная компанией Topaz Labs в марте 2026 года. Она предназначена для повышения реалистичности сгенерированного с помощью ИИ видео, уменьшения искусственных артефактов и масштабирования до 4K.

Основные характеристики

Улучшение реализма. Модель усиливает детализацию лиц, улучшает текстуры тканей, материалов, а также чёткость текста, меток и логотипов.
Уменьшение артефактов. Снижает «пластиковый» вид и другие искусственные артефакты, характерные для сгенерированного с помощью ИИ контента.
Масштабирование. Позволяет увеличивать разрешение видео до 4K (3840×2160 пикселей) как локально, так и в облаке.
Диффузионный подход. Использует итеративный процесс шумоподавления для реконструкции высокочастотных деталей из входных данных низкого разрешения, сохраняя временную стабильность между кадрами.
Специализированная обработка лиц и кожи. Модель оптимизирована для работы с реалистичными текстурами кожи и лицами.

Особенности использования

Целевая аудитория. Подходит для видео, сгенерированного с помощью ИИ, с хорошей композицией и структурой, но мягким лицом, искусственными текстурами или слабой детализацией. Также эффективна для архивного контента с достаточной визуальной информацией (например, цифровых видеозаписей с 2000-х годов).
Ограничения. Не рекомендуется использовать для очень низкого качества исходного материала, сильного размытия при движении, чересстрочного контента, который не был деинтерлейсирован, а также для слишком маленького или несогласованного текста.
Требования к ресурсам. Модель ресурсоёмкая: требует минимум 12 ГБ видеопамяти, рекомендуется 16–24 ГБ. Подходит для локального рендеринга на Windows с видеокартами NVIDIA. Из-за диффузионной природы ожидаются длительные времена рендеринга.
Автономная обработка. Не может комбинироваться с другими фильтрами.

Где доступна

В Astra. Модель можно использовать в облачном приложении Astra.

(Сведения собрала Алиса.)

***

Stevie Mac, который делал ролик выше, еще использовал:

Character Sheets Photos: https://www.magnific.com/photos/character-sheets
Images: Midjourney
Sound: seedance and elevenlabs

***
"Просто" - это преувеличение. Но то, что снимать фильмы теперь стало возможно с помощью ИИ - это факт.

fyi

+36

139

0 комментариев, по времени, по убыванию времени, по возрастанию популярности

0 комментариев, по
времени, по убыванию

времени, по возрастанию

популярности