Об автоматической озвучке книг
Автор: Диктор Павел Константиновский"- Страшную весть принёс я в твой дом, Надежда. Зови детей!"
Что случилось. А случилось, что издательство "Альпина Паблишер" запустило пилотный проект по автоматической озвучке книг с помощью технологий искусственного интеллекта (ссылка). Честно сказать, это было предсказуемо. Я лишь ждал, кто решится на это первым.
Не могу сказать, что в дикторских рядах началась паника - всё же ИИ-озвучка была неизбежной, но приятного в этой новости мало - это наш хлеб, как ни крути. Поэтому сегодня я хочу поговорить о голосовом синтезе - о его достоинствах, недостатках и страхах, с ним связанных.
Достоинства.
1. Цена. Компания Speechki предлагает озвучку с размещением на интернет-площадках за 800 р./АЛ. У сервиса UpsalesLab тарифы схожие. Цена использования сервиса Yandex Speech Kit - 7 р. 32 коп. за тот же авторский лист. (Студийные цены по России - от 3000 до 7 000 р. без участия "звёзд").
2. Скорость. Синтез занимает считанные минуты, в отличие от живой озвучки, где на 1 час готовой аудиозаписи уходит около 8 человеко-часов (при серьёзном подходе).
Недостатки.
1. Неестественная речь. Отрывистая или же слишком слитная. Фонемы "склеиваются" неаккуратно.
2. Интонационная вольница.
3. Монотон. Повествование идёт в одном темпе, посыле, тональности.
4. Ошибки в ударениях.
5. Полное отсутствие подтекста и перспективы - основы декламации.
Как следствие - уходит уйма времени на коррекцию получившегося результата, что пока может выходить дороже, чем озвучка живым, пусть и недорогим, чтецом.
Если кратко - пока у компьютера не появится душа, озвучивание художественной литературы будет ему недоступно.
Другое дело, что есть масса специализированной литературы, которую озвучивать живым диктором просто нерентабельно. Опять же, слабовидящие - для них это доступный способ "прочесть" любой текст.
А что же с профессией? Да пока ничего. Пока. Но уже в недалёком будущем предрекаю переход некоторых производителей на озвучку потенциально непопулярной или очень специальной литературы с помощью синтеза. А в пределах 5-10 лет - перевод на синтезированную озвучку заметного объёма книг нон-фикшн.
Будут эксперименты и с художественной литературой. Возможно, и удачные. В общем, изменения почувствуют все и сравнительно скоро. Просто большие мастера - позже и, возможно, не так сильно.
Прогнозировать что-либо в IT вообще сложно. Ведь мы с коллегами ещё два года назад смеялись над голосовым синтезом, а сейчас его широко применяют в озвучивании больших статей. Однако я пока не унываю, просто фиксирую событие. Ценителей хорошего текста и добротной озвучки ещё хватает. Поэтому, ещё поживём, поработаем и внимательно последим за развитием событий.