Об автоматической озвучке книг

Автор: Диктор Павел Константиновский

"- Страшную весть принёс я в твой дом, Надежда. Зови детей!"

Что случилось. А случилось, что издательство "Альпина Паблишер" запустило пилотный проект по автоматической озвучке книг с помощью технологий искусственного интеллекта (ссылка). Честно сказать, это было предсказуемо. Я лишь ждал, кто решится на это первым.

Не могу сказать, что в дикторских рядах началась паника - всё же ИИ-озвучка была неизбежной, но приятного в этой новости мало - это наш хлеб, как ни крути. Поэтому сегодня я хочу поговорить о голосовом синтезе - о его достоинствах, недостатках и страхах, с ним связанных.

Достоинства.

1. Цена. Компания Speechki предлагает озвучку с размещением на интернет-площадках за 800 р./АЛ. У сервиса UpsalesLab тарифы схожие. Цена использования сервиса Yandex Speech Kit - 7 р. 32 коп. за тот же авторский лист. (Студийные цены по России - от 3000 до 7 000 р. без участия "звёзд").

2. Скорость. Синтез занимает считанные минуты, в отличие от живой озвучки, где на 1 час готовой аудиозаписи уходит около 8 человеко-часов (при серьёзном подходе).

Недостатки.

1. Неестественная речь. Отрывистая или же слишком слитная. Фонемы "склеиваются" неаккуратно.

2. Интонационная вольница.

3. Монотон. Повествование идёт в одном темпе, посыле, тональности.

4. Ошибки в ударениях.

5. Полное отсутствие подтекста и перспективы - основы декламации.

Как следствие - уходит уйма времени на коррекцию получившегося результата, что пока может выходить дороже, чем озвучка живым, пусть и недорогим, чтецом.

Если кратко - пока у компьютера не появится душа, озвучивание художественной литературы будет ему недоступно.

Другое дело, что есть масса специализированной литературы, которую озвучивать живым диктором просто нерентабельно. Опять же, слабовидящие - для них это доступный способ "прочесть" любой текст.

А что же с профессией? Да пока ничего. Пока. Но уже в недалёком будущем предрекаю переход некоторых производителей на озвучку потенциально непопулярной или очень специальной литературы с помощью синтеза. А в пределах 5-10 лет - перевод на синтезированную озвучку заметного объёма книг нон-фикшн.

Будут эксперименты и с художественной литературой. Возможно, и удачные. В общем, изменения почувствуют все и сравнительно скоро. Просто большие мастера - позже и, возможно, не так сильно. 

Прогнозировать что-либо в IT вообще сложно. Ведь мы с коллегами ещё два года назад смеялись над голосовым синтезом, а сейчас его широко применяют в озвучивании больших статей. Однако я пока не унываю, просто фиксирую событие. Ценителей хорошего текста и добротной озвучки ещё хватает. Поэтому, ещё поживём, поработаем и внимательно последим за развитием событий. 

+14
363

0 комментариев, по

425 6 190
Наверх Вниз