#ТакГоворитНейросеть
Автор: Павел Иевлев- Суд постановляет, что вы должны публично извиниться перед Рабиновичем и сказать, что он не козёл.
- Это Рабинович не козёл? Ну извинииите…
(из анекдота)
Преизрядно поработав с нейросетями ради иллюстрирования своих книг, я решил ознакомиться с их возможностями в создании аудиокниг.
Технологии TTS (Text To Speech) прокачиваются куда дольше, чем рисование картинок. Потому что робот-пиздабол, в отличие от робота-художника весьма понятно монетизируется. Если кто не знал, то в голосовом трафике всевозможных служб поддержки роботы составляют до 85%, а до человека сможет достучаться только воистину упертый клиент. Учитывая скорость прогресса нейросеток, стоило бы ожидать, что они все уже сплошь Левитаны, но нет.
Дело, впрочем, не в них – просто для человека речевые интонации куда более чувствительны, чем качество рисования картинок, например. В нейросетевых иллюстрациях мозг легко достраивает и «подчищает» картинку, игнорируя мелкие дефекты при поверхностном взгляде. Он это делает и с картинкой реального мира, кстати, но это отдельный большой разговор.
А вот с речью все сложнее. Речь – социальный индикатор высокой важности. Мы тысячелетиями коммуникаций обучены фиксировать тончайшие нюансы интонаций, потому что одно и то же «ах, не надо, перестань» сказанное разным тоном, может означать или что нам дадут, или что нам дадут по ипалу.
Поэтому интонационные ошибки TTS-систем, в отличие от шести пальцев на нейрокартинках, реально режут слух, и мы легко выкупаем телефонных роботов. С книжками же вообще засада – и живые-то чтецы частенько путаются в расстановках смысловых акцентов в сложных предложениях, а что взять с робота?
Тем не менее некоторые успехи есть.
Как и следовало ожидать, как и в случае с картиночными сетками, почти все зависит от навыка оператора. Паттерн «залил txt – скачал мр3» пока не работает. Чтобы получить сколько-нибудь приемлемый результат, надо вручную разметить текст тегами SSML (Speech Synthesis Markup Language, язык разметки синтеза речи, основанный на XML).
«Да пошел ты <say-as stress> нахуй! <break time="50ms"/> Мудила!» - прозвучит куда естественное, чем унылое «Да пошел ты нахуй, мудила». Кроме того приходится убирать из теста многоточия, часть необходимых по правилам пунктуации, но не нужных в качестве пауз запятых и вообще куча ручного труда. Переразметить так роман – тот еще кусок работы, я думаю.
Но пару небольших своих рассказов так озвучить я таки одолел. Можете послушать и оценить:
Ах да – еще это платно. Где познаково, где поминутно. Мне это обошлось примерно а 200 р за рассказ, с учётом того, что поначалу я переозвучивал каждый фрагмент раза по три-четыре, осваивая SSML.
Стоило ли оно того — оцените сами. Как по мне, у меня пока хуже получается.
Конкретный сервис указывать не буду, потому что тут же набегут обвинители в рекламе. Меня даже в рекламе midjourney всерьез обвиняли – люди всегда судят по себе.