Снять кино по роману - это просто!
Автор: Серж МаршаллПример https://youtu.be/rkoaegGsqyE?si=CZoGJA2Q_x9G7Ec9
Сначала два названия моделей:
Seedance 2.0 - Мультимодальная модель генерации видео.
Seedance 2.0 — мультимодальная модель генерации видео от компании ByteDance, вышедшая в феврале 2026 года. Работает как виртуальный режиссёр: принимает текст, изображения, короткие видео и аудио одновременно, понимает роль каждого файла и выдаёт готовый кинематографический клип.
Некоторые возможности модели:
- генерация видео в 1080p (в продвинутых режимах — до 4K) длительностью 20–35 секунд;
- физически корректная симуляция (ткань, жидкости, отражения, столкновения объектов);
- стабильность лиц и персонажей даже в динамичных сценах;
- режиссёрский контроль камеры (наезды, панорамы, зум и т. д.);
- переход между сценами с сохранением единства стиля и героев.
Принцип работы
Модель воспринимает текст не как литературное описание, а как набор смысловых указаний. Для неё важно не только «что» нужно показать, но и «как» это должно выглядеть во времени.
На базовом уровне процесс выглядит так:
- Пользователь задаёт текстовый запрос.
- Модель выделяет ключевые сущности сцены.
- Определяет связи между ними.
- Достраивает визуальную логику кадра.
- Формирует последовательность кадров с учётом движения и атмосферы.
Важно: Seedance особенно чувствительна к формулировкам, связанным с динамикой: нужно задать временную логику: кто двигается, куда, с какой скоростью, что происходит на переднем плане и на заднем, как ведёт себя свет, меняется ли ракурс.
Инструкция по использованию
Некоторые особенности интерфейса Seedance 2.0:
- Поле ввода промпта — здесь пользователь вводит описание видео, которое хочет создать.
- Переключатель режима генерации — позволяет выбирать между «текст → видео» (описание сцены с нуля) и «изображение → видео» (загрузка статичного изображения с описанием желаемого движения).
- Параметры генерации — управляют такими аспектами, как длительность видео, стиль и настройки качества.
- Галерея результатов — отображает созданные клипы, позволяет их скачивать и просматривать историю генераций.
Где можно пользоваться Seedance 2.0: на момент 2026 года есть официальные сервисы — CapCut (встроенный AI-генератор) и Dreamina (веб-версия). Напрямую из России доступ к модели получить непросто — модель живёт на платформе Dreamina (CapCut), и без средств для смены региона зайти не получится
***
Kling 3.0 — это унифицированный мультимодальный ИИ-движок, разработанный компанией Kuaishou.
Основные характеристики
- Архитектура Omni One. Объединяет 3D пространственно-временное внимание и Chain-of-Thought рассуждения для генерации физически точного движения.
- Физически точная генерация. Учитывает гравитацию, баланс, деформацию, коллизии и инерцию — персонажи и объекты двигаются как в реальном мире.
- Нативная аудиосинхронизация. Генерирует синхронизированные озвучки, диалоги, звуковые эффекты и фоновое аудио за один проход.
- Качество и разрешение. Поддерживает нативные 1080p и 4K при 30 кадрах в секунду с 16-битным HDR-цветом.
- Экспорт. Профессиональные форматы, включая 16-битный HDR и EXR-последовательности для интеграции с Nuke, After Effects и DaVinci Resolve.
- Длительность видео. До 15 секунд.
- Режимы генерации. Текст-в-видео, изображение-в-видео, расширение видео, контроль начального/конечного кадра, прототипирование в режиме черновика.
Дополнительные функции
- Мультимодальный редактор 1-в-1. Позволяет редактировать существующие видео текстовыми или графическими промптами: добавлять, удалять или трансформировать элементы, сохраняя оригинальное движение.
- Motion Control. Переносит реальные движения из референсного видео на персонажа или объект на статичном изображении, сохраняя внешний вид исходной картинки.
- Elements (Элементы). Библиотека персонажей, предметов, животных и локаций, которые нейросеть запоминает и точно воспроизводит в видео.
- Multi-Shot. Режим, который разбивает видео на несколько отдельных сцен, каждая со своим описанием и ракурсом.
- Canvas Agent. ИИ-ассистент для раскадровки с расширением под несколькими углами, автоматизирующий кинопроизводство с многоходовым редактированием диалогов.
Особенности использования
- Коммерческие права. Все платные планы включают полные коммерческие права и защиту интеллектуальной собственности.
- Кредитная система. Новые пользователи получают бесплатные кредиты для пробы. Доступны гибкие подписки и пакеты кредитов с оплатой по использованию.
- Интеграция. Kling 3.0 бесшовно интегрируется в существующие VFX- и постпродакшен-пайплайны.
Kling 3.0 был запущен во всём мире 5 февраля 2026 года. Модель доступна на различных платформах, например Novita AI, Higgsfield.
***
Результат прогоняем через Topaz Starlight Precise 2.5 и показываем фанатам в 4К.
Topaz Starlight Precise 2.5 — это диффузионная модель для улучшения видео, выпущенная компанией Topaz Labs в марте 2026 года. Она предназначена для повышения реалистичности сгенерированного с помощью ИИ видео, уменьшения искусственных артефактов и масштабирования до 4K.
Основные характеристики
- Улучшение реализма. Модель усиливает детализацию лиц, улучшает текстуры тканей, материалов, а также чёткость текста, меток и логотипов.
- Уменьшение артефактов. Снижает «пластиковый» вид и другие искусственные артефакты, характерные для сгенерированного с помощью ИИ контента.
- Масштабирование. Позволяет увеличивать разрешение видео до 4K (3840×2160 пикселей) как локально, так и в облаке.
- Диффузионный подход. Использует итеративный процесс шумоподавления для реконструкции высокочастотных деталей из входных данных низкого разрешения, сохраняя временную стабильность между кадрами.
- Специализированная обработка лиц и кожи. Модель оптимизирована для работы с реалистичными текстурами кожи и лицами.
Особенности использования
- Целевая аудитория. Подходит для видео, сгенерированного с помощью ИИ, с хорошей композицией и структурой, но мягким лицом, искусственными текстурами или слабой детализацией. Также эффективна для архивного контента с достаточной визуальной информацией (например, цифровых видеозаписей с 2000-х годов).
- Ограничения. Не рекомендуется использовать для очень низкого качества исходного материала, сильного размытия при движении, чересстрочного контента, который не был деинтерлейсирован, а также для слишком маленького или несогласованного текста.
- Требования к ресурсам. Модель ресурсоёмкая: требует минимум 12 ГБ видеопамяти, рекомендуется 16–24 ГБ. Подходит для локального рендеринга на Windows с видеокартами NVIDIA. Из-за диффузионной природы ожидаются длительные времена рендеринга.
- Автономная обработка. Не может комбинироваться с другими фильтрами.
Где доступна
- В Astra. Модель можно использовать в облачном приложении Astra.
(Сведения собрала Алиса.)
***
Stevie Mac, который делал ролик выше, еще использовал: 
Character Sheets Photos: https://www.magnific.com/photos/character-sheets
Images: Midjourney
Sound: seedance and elevenlabs
***
"Просто" - это преувеличение. Но то, что снимать фильмы теперь стало возможно с помощью ИИ - это факт.