Визуализация аудиоформатов

Автор: Юля Худ

Спасибо Михаил Поляков за идею. Судя по реакции, тема многим интересна, поэтому решила поделиться своим опытом — возможно, кому-то он окажется полезен

Безусловно, на сегодняшний день ИИ-озвучки ещё не заменяют живых чтецов. Но направление развития более чем очевидно. Можно бесконечно спорить о том, допустимо ли использовать нейросети, так же как когда-то спорили, имеют ли право на существование электронные книги. Кажется, подобные дискуссии сопровождают любую новую технологию

Мне гораздо интереснее смотреть не на сам спор, а на возможности. В какой-то момент становится важнее не происхождение инструмента, а то, что именно ты с его помощью создаёшь.

Моя задача была довольно простой — визуализировать голоса чтецов. Книга написана несколькими голосами, и мне хотелось уйти от ощущения сюжетного сериала. Вместо этого — создать для каждого рассказчика собственную атмосферу, свой визуальный ритм и настроение.

Я попробовала несколько нейросетей и в итоге остановилась на HeyGen.

Получилось как-то так:

Теперь немного подробнее о том, какими инструментами я пользовалась ️

В HeyGen можно одновременно генерировать и видео, и аудио. Есть несколько вариантов работы, но лично мне больше всего понравился режим «сцена за сценой» — он даёт гораздо больше контроля над результатом.

Аудио

Для озвучки можно выбрать готовый голос из библиотек, интегрированных в HeyGen, либо создать собственный на основе своего голоса.

Я пошла вторым путём.

В качестве голосовой модели использовала ElevenLabs V3. Она хорошо передаёт эмоции, интонационные переходы и полутона. Все основные настройки находятся в панели справа:

Аватар

Для аватара по умолчанию используется Avatar 4, но я практически сразу перешла на Avatar 5— результат показался мне значительно естественнее.

В настройках аватара рекомендую сразу прописать персональный промпт. Это действительно влияет на поведение персонажа.

Ещё один небольшой совет — отключить параметр «Интенсивная жестикуляция». На мой взгляд, так движения выглядят спокойнее и убедительнее.

Работа со сценой

Слева находится окно для текста. Я обычно разбиваю его на небольшие смысловые блоки — в местах, где должны появиться естественные микропаузы.

После этого можно прослушать озвучку, при необходимости скорректировать интонацию и только потом переходить к следующей сцене.

Если результат не устраивает — достаточно нажать на три точки рядом с кнопкой прослушивания и сгенерировать вариант ещё раз. Иногда хватает двух-трёх попыток, чтобы попасть в нужную интонацию.

Если требуется совсем конкретная подача, можно воспользоваться функцией Mirror Voice — записать небольшой образец собственной интонации, после чего модель будет ориентироваться именно на неё при генерации этого фрагмента.

Когда всё готово — остаётся нажать Generate Video в правом верхнем углу.

Такой пока у меня опыт Продолжаю изучать возможности этих инструментов — кажется, они меняются быстрее, чем успеваешь к ним привыкнуть.

Если тема окажется интересной, с удовольствием продолжу делиться своими наблюдениями.

аудиокнига, дайджест всякого, нейросеть, размышления, творчество

0 комментариев, по времени, по убыванию времени, по возрастанию популярности

0 комментариев, по
времени, по убыванию

времени, по возрастанию

популярности