Вопрос на засыпку
Автор: Адерин БранТрщи, памагитя!
Дано: есть ПДФка, из неё определился текст в ворд. С буквами всё ок, но есть баги красных строк.
1. Иногда реплики разных героев стоят в одном абзаце (читай - строке)
2. Иногда реплика бывает разорвана на две строки.
3. Иногда атрибуция оторвана от реплики.
4. Иногда последовательность реплика-атрибуция-реплика разорвана на две строки.
Что предпринято:
1. Найти последовательность символов "_" - так я убрала, когда друг за другом шли реплики без атрибуций.
2. Найти строки, начинающиеся с маленькой буквы (ворд и такое может), но есть баг: Текст на английском, и там есть I, которое всегда большое. Ну или атрибуция может начинаться с имени персонажа, и оно тоже с большой буквы.
3. Попробовала скормить Алисе и ГигаЧату - оба обхезались. Говорили, что ошибок в оформлении диалогов нет, даже если я их туда намеренно вносила.
При этом диалоги в английском тексте оформляются с кавычками, а не тире, которое тоже можно было бы поискать.
Есть идеи, по каким ещё признакам можно поискать разорванные или склеенные абзацы, если в тупую перечитывать текст я не хочу, ибо там 7 книг, и делаю я это всё с целью распечатать и почитать в напечатанном виде.