#ТакГоворитНейросеть

Автор: Павел Иевлев


- Суд постановляет, что вы должны публично извиниться перед Рабиновичем и сказать, что он не козёл.

- Это Рабинович не козёл? Ну извинииите…

(из анекдота)


Преизрядно поработав с нейросетями ради иллюстрирования своих книг, я решил ознакомиться с их возможностями в создании аудиокниг.

Технологии TTS (Text To Speech) прокачиваются куда дольше, чем рисование картинок. Потому что робот-пиздабол, в отличие от робота-художника весьма понятно монетизируется. Если кто не знал, то в голосовом трафике всевозможных служб поддержки роботы составляют до 85%, а до человека сможет достучаться только воистину упертый клиент. Учитывая скорость прогресса нейросеток, стоило бы ожидать, что они все уже сплошь Левитаны, но нет.

Дело, впрочем, не в них – просто для человека речевые интонации куда более чувствительны, чем качество рисования картинок, например. В нейросетевых иллюстрациях мозг легко достраивает и «подчищает» картинку, игнорируя мелкие дефекты при поверхностном взгляде. Он это делает и с картинкой реального мира, кстати, но это отдельный большой разговор.

А вот с речью все сложнее. Речь – социальный индикатор высокой важности. Мы тысячелетиями коммуникаций обучены фиксировать тончайшие нюансы интонаций, потому что одно и то же «ах, не надо, перестань» сказанное разным тоном, может означать или что нам дадут, или что нам дадут по ипалу. 

Поэтому интонационные ошибки TTS-систем, в отличие от шести пальцев на нейрокартинках, реально режут слух, и мы легко выкупаем телефонных роботов. С книжками же вообще засада – и живые-то чтецы частенько путаются в расстановках смысловых акцентов в сложных предложениях, а что взять с робота?

Тем не менее некоторые успехи есть. 

 Как и следовало ожидать, как и в случае с картиночными сетками, почти все зависит от навыка оператора. Паттерн «залил txt – скачал мр3» пока не работает. Чтобы получить сколько-нибудь приемлемый результат, надо вручную разметить текст тегами SSML (Speech Synthesis Markup Language, язык разметки синтеза речи, основанный на XML). 

 «Да пошел ты <say-as stress> нахуй!         <break time="50ms"/> Мудила!» - прозвучит куда естественное, чем унылое «Да пошел ты нахуй, мудила». Кроме того приходится убирать из теста многоточия, часть необходимых по правилам пунктуации, но не нужных в качестве пауз запятых и вообще куча ручного труда. Переразметить так роман – тот еще кусок работы, я думаю.

Но пару небольших своих рассказов так озвучить я таки одолел. Можете послушать и оценить:

«Адмиральский чай»

«Идет бычок, качается»

Ах да – еще это платно. Где познаково, где поминутно. Мне это обошлось примерно а 200 р за рассказ, с учётом того, что поначалу я переозвучивал каждый фрагмент раза по три-четыре, осваивая SSML.

Стоило ли оно того — оцените сами. Как по мне, у меня пока хуже получается.

Конкретный сервис указывать не буду, потому что тут же набегут обвинители в рекламе. Меня даже в рекламе midjourney всерьез обвиняли – люди всегда судят по себе.

+180
532

0 комментариев, по

318K 2 972 26
Наверх Вниз