Волки: Аудиокнига

Автор: Евгений Токтаев

До Нового Года десять дней, но почему бы не начать раздачу подарков сейчас? Потом не до того будет. Все себя хорошо вели в этом году?

Я таки сделал это. Озвучил первую часть романа "Волки" гугловской нейросетью.

Администрация АТ мне не разрешила выкладывать такое штатными средствами даже бесплатно, не говоря уж о коммерции.

Потому я просто выкладываю её в свободный доступ на Яндекс Диске.

Качайте и слушайте.

Возни было много. Сначала текст частями по 10000 знаков был скормлен сервису расстановки ударений. В спорных случаях (зАмок|замОк) сервис выдавал оба варианта. Таких случаев было много. Потому пришлось писать прогу для упрощения выбора.

Гугловский сервис TTS позволяет работать с двумя моделями - flash и pro. Первая бесплатная. Вторая платная.

Первую можно использовать с помощью API, Гугл даже код предоставляет, ничего выдумывать не надо. Но я там всё же добавил кое-какую отсебятину для своего удобства. Бесплатно по API 15 запросов в день, до 10000 знаков в запросе. Моя прога резала подготовленный текст с ударениями на куски, отдавала сервису, получала куски звуковых файлов, склеивала, сохраняла. В день выходило до 4-х глав. Но не раз приходилось переделывать.

Можно озвучивать двумя голосами, я сначала так и хотел. Мужской голос основной, а примечания проговаривать женским, чтобы выделялись. В принципе, такое возможно, но было много глюков, иногда нейросеть терялась, кто она в данный момент, мужчина или женщина. После ряда экспериментов пришлось на идею забить. В итоге сделал одноголосую озвучку.

Ударения удалось победить не полностью. Бывает, нейросеть ошибается. Скажет неправильно, а при перезапуске правильно, тот же текст. Это несмотря на то, что ударения были поставлены в каждом слове, где больше одного слога. Сначала пытался с этим бороться, потом забил. В результате примерно раз в 10 минут она ошибается. Досадно, но ладно.

Оказалась ещё одна засада. Начиная с примерно третьей минуты каждого куска, иногда раньше, начинает портиться звук. Уходит в низкие, в перегруз. Сначала я в полном расстройстве вообще хотел забить, это было невозможно слушать. Но меня выручила ещё одна нейросеть, от Adobe, ею я решил проблему, т.е. исправил уже записанные файлы.

Сама "живость" звука хорошая. При этом точно можно лучше - платная модель читает так, что отвал башки. Она въезжает в контекст диалога и играет голосом за разных персонажей, интонации чётко соответствуют контексту. Бесплатная модель попроще, но тоже весьма неплохо.

Я знаю, что говорю и опыт в этом деле имею большой. С 2019 года я занимался озвучкой сервисами TTS учебных курсов, перебрал их туеву хучу. Начинал с TTS Яндекса, мой курс по эксплуатации хроматографов читала "Оксана", та самая, которая по умолчанию в Яндекс Навигаторе. Потом курс был переозвучен другим голосом, более "живым". А гугловский ещё живее, выше на две головы. Даже бесплатная озвучка. Платную я бы не отличил от человека.

Я этой осенью плотно подсел на аудиокниги, слушаю по дороге на работу и познакомился таким образом со многими чтецами. Некоторые настоящие шедевры создают, например, Андрей Паньшин, который озвучивает "Властители Рима" Колин Маккалоу. Он голосом отыгрывает не менее 15 персонажей со своей узнаваемой манерой речи. Более того, он даже один голос подгоняет под контекст. Например, у Гая Мария в состоянии крайнего возбуждения от предсказания Марфы, что он будет консулом семь раз, прорывается южно-русский говор. Это сделано специально, так он подчеркивает, что Марий - понаехавший деревенщина, с которого в этой ситуации мгновенно слетел налет культуры. Югурта, Бомилькар и прочие нумидийцы говорят с характерным семитским акцентом. Я прямо обожаю вальяжную манеру речи Публия Рутилия Руфа. Сулла всегда говорит, будто у него зубы сжаты. Паньшин даже женщин голосом выделяет.

Такого добиться можно, нейросеть предоставляет два десятка голосов. Но очень много возни. Очень. С другой стороны я встречал чтецов, которые хуже роботов. Например, такова официальная озвучка "Божьих воинов" и "Свет вечный" Сапковского. Потому рекомендую неофициальную от Sanyendis. У неё меня восхитило, как она пела чешские песни. И вообще молодец. Десять из десяти.

Ну а у моей нейросетевой озвучки таких изысков нет. Может, только пока. Технологии прямо прут. Многие их высмеивают, презрительно фыркают. Скоро будет не смешно. 2-3 года и никто не сможет угадать, кроме технических специалистов, как это сделано.

+95

367

0 комментариев, по времени, по убыванию времени, по возрастанию популярности

0 комментариев, по
времени, по убыванию

времени, по возрастанию

популярности