Про то, что текст корректурой не испортишь
Автор: Вадим Нестеров aka Сергей Волчок(Продолжаю изучать яндексовский детектор нейротекстов. Держите новую порцию впечатлений. Почтенные коллеги, очень вас прошу воздержаться от обсуждения персоналий, чтобы этот блог не постигла судьба вчерашнего)
Примерно пару лет назад дошло до меня, о великий раджа, что нейросети начали у нас научились писать книги.
Я не поверил.
Потом мне сказали, о лучший из моих читателей, что эти книги уже вовсю продают за деньги. Не афишируя, правда, имя истинного автора.
Но я опять не поверил.
А недавно меня буквально пинками выгнали из башни слоновой кости и сказали, невежливо толкнув в спину: "Ну харэ уже! Иди, изучай вопрос. А то стыдно за твое невежество".
Я изучил.
Узнал, что Яндекс уже даже выкатил нейродетектор, который определяет долю машинного текста. И я его даже протестировал - и выяснил, что он может ошибиться, и объявить нейронку написанной человеком. Что, конечно, печалит.
Но у него есть и одно несомненное достоинство - он ни разу не объявил текст, написанный человеком - "нейронкой". По крайней мере, мне достоверно подтвержденные случаи неизвестны.
И это делает его рабочим инструментом.
Под статьей, в которой я изложил результаты тестирования, разгорелся шкандаль.
Но некоторые из возражений, которые успели мне написать, вызвали у меня живейший интерес.

Возражение первое: Было очень много комментариев в стиле "А мой текст Яндекс-детектор обозвал "нейросеткой", хотя я писала сама".
Этот аргумент возникал во множестве вариантов и гипотетические промахи Яндекс-детектора обрастали все новыми подробностями. И мол, Яндекс не прокалывается на старых текстах 19-20 века, потому что манера писать изменилась, но на новых ошибается только в путь. И что при большом количестве деепричастных оборотов (или длинного тире, или точки с запятой, или двух типов кавычек - версии возникали разные) он опять-таки прокалывается и объявляет авторский текст нейросеткой".
Не увидел я только одного - ПРОВЕРЯЕМОЙ информации об ошибке.
Уважаемые, я вас, безусловно, очень уважаю и даже где-то люблю, но в любом исследовании должен быть такой необходимый критерий как "проверяемость". Что-то, что может повторить любой, увидеть тот же самый результат и убедится, что вы правы. То, что забракованный текст вы написали не пользуясь нейросеткой, к сожалению, не проверяемо.
Я не то чтобы вам не верю - я верю! Но при исследовании я должен не верить, а знать. Должен иметь возможность проверить. "Мамой кылянусь!" - не является доказательством при любой степени экспрессии.
Поэтому все очень просто - протестируйте книги, выложенные хотя бы лет пять назад. Если мне кто-нибудь пришлет сообщение вроде "Если загнать в детектор главу № 7 романа Фрица Лейбера «Серебряные яйцеглавы», то Яндекс-детектор выдает 70% нейросетки. Ха. Ха. Ха." - то я проверю, и при положительном результате извинюсь и признаю, что этот детектор нельзя использовать в качестве инструмента.
А до тех пор предпочту считать, подтвержденных облыжных обвинений "Яндекс-детектора" в использовании нейросети пока нет.
Возражение второе. "Я пишу сам, но потом всего лишь прошу Дипсик сделать корректорскую правку - а тексту ставят 70% и меня объявляют нейрописателем!".
Резонное возражение. Давайте проверять.
Проверять я решил на своих художественных книгах. Я им не делал корректуру нейросеткой, поэтому они вполне годятся.

Первая глава «В бой идут»
Проверка на Яндекс-детекторе без корректуры. Вердикт - "Этот тест сгенерирован нейросетью с вероятностью 0,65%".
Дипсик делает корректуру, включая "устранение стилистических повторов и шероховатостей". Скорректированный текст несу шайтан-машине.
Вердикт после корректуры – 1,16%
Глава 2. До корректуры – 0,0%, после корректуры – 0,96%
Глава 3. До - 0,00%, после – 0,35%.

После свистка судьи на замену "В бой идут" выходит первый том «Куда идем мы».
Глава 1 до корректуры – 0,00%, после корректуры – 0,00%
Глава 2 – 0,00% и 0,00%
Глава 3 – 0,23% и, вы будете смеяться, 0,00%
Вы можете сказать мне - конечно! У тебя там и править-то нечего! Но не все такие грамотные и не все чисто пишут еще в черновике! А им как быть? Не править книги? Платить корректору вместо бесплатного Дипсика?
Резонно! - почесал затылок я и решил оторваться на все деньги.
Для третьего теста я взял завалившийся в недра моего компьютера текст древней китайской бесконечной новеллы "Мир онлайн" автора Sheng Xiao.

Этот немного облагороженный машинный перевод я много лет назад скачал с "Рулета", да так и забыл стереть.
Уж там-то правки будет - не разгрести, те, кто читал "переводы" Кента не дадут соврать!
Погнали!
1 глава «Перезагрузка». Вердикт шайтан-машины до любых правок – 0,00%. Судя по всему, машинный перевод десятых годов шайтан-арба нейросетью не считает.
Даже Дипсик малость прифигел от поставленной задачи: "Мы видим запрос на корректорскую правку первой главы другой книги. Текст на русском, но чувствуется влияние машинного перевода с китайского или английского (например, "Оуян Шо", "Сун Хэйтар", "Бин'эр", "Земля Онлайн", специфические обороты). Нужно исправить орфографию, пунктуацию, стилистику, сделать текст более литературным, устранить явные ошибки и неестественные фразы. Поскольку это корректура, а не художественный перевод, сохраняем имена и термины, но правим грамматику и синтаксис".
Знаете, сколько шайтан-машина выписала первой главе после корректуры?
Все те же 0,00%
Глава 2 «Соседка». Было 0,00%, после корректуры стало – 0,46%
И тут мне в голову пришла интересная мысль и я попросил Дипсика сделать этой главе глубокую редакторскую правку.
Он согласился и вот что натворил, дальше цитата:
_________________
1. Перестройка предложений — убраны длинные, неестественные конструкции, типичные для подстрочника (например: «Оуян Шо не стал ее дразнить, вместо этого он подошел, сел на диван…» → «Оуян Шо не стал её дразнить. Он сел на диван…»).
2. Замена штампов и канцеляризмов — «в поле зрения», «двукратно подтвердить», «выразить свою признательность», «провести весь день» заменены на живые обороты.
3. Устранение логических нестыковок — уточнено, что Бин’эр «только что исполнилось восемь» (вместо «в этом году исполнилось восемь лет» — это почти одно и то же, но звучит естественнее). Также поправлено: «она носила розовую одежду, и невозможно было удержаться, чтобы не потискать» — переделано.
4. Диалоги — сделаны более живыми, убраны излишние вежливые «вы» при обращении к соседке после знакомства (оставлены только первое обращение).
5. Заголовок — «Сожительство» изменён на «Соседка» (более точно передаёт суть и без негативной коннотации).
6. Ритм и абзацы — длинные абзацы разбиты на более короткие, текст стал легче читаться.
7. Имена — везде выдержано единообразие: Оуян Шо, Бин’эр, Сунь Сяоюэ (иногда просто Сяоюэ).
8. Термины — сохранены «Сиафон», «Скайнет», «кредиты». Добавлено пояснение про Сиафон (персональный компьютер) — в первом появлении, чтобы читатель не гадал.
_____________
То есть редактура была весьма значительной. Мягко говоря.
Знаете, сколько процентов выписал Яндекс-детектор после такой редактуры?
1,55%
Конечно же, я запросил редактуру и первой главы.
После этой редактуры имевшийся ноль вырос до 2,66%
Третья глава. «Создание персонажа».
Оригинальный словопомол - 0,00% нейроконтента.
После корректуры – 0,51%
После глубокой редактуры – 1,85%
Из чего я делаю вывод, что ни корректура нейросетей, ни даже их редактура практически не поднимает процент в нейроопределителе Яндекса изначально оригинальному тексту .
По моему глубокому мнению на сегодняшний день, если загружаемому тексту шайтан-машина выписывает высокий процент, текст почти наверняка написан ИИ.
А "испортить его корректурой" можно разве что дав Дипсику задание переписать все от и до своими словами.
Кстати, почему нет? Попросил переписать своими словами третью главу машинного перевода.
Дипсик задание выполнил, и, надо сказать, главу несказанно улучшил. После чего еще и предупредил: «Это не редактура, а именно пересказ — с изменённой структурой, другими оборотами, но с сохранением всей фактуры и духа главы. Если хотите, могу так же переписать любую другую главу».
После пересказа процент подскочил до 17.12%
Возражение третье.
Один автор заявил, что его высокий процент, скорее всего, объясняется тем, что новые главы он надиктовывает на телефон, а поскольку текст после расшифровки аудио идет сплошным массивом, почти без знаков препинания и с кучей ошибок, то он отдает его на исправление соцсетям.
А шайтан-машина потом ему рисует 100% нейронки.
Мне стало интересно - неужели все действительно так печально?
Уже много лет, еще с журналистской поры для расшифровки интервью и прочего аудио я пользуюсь программой Speech2Text и, клянусь вам - горя не знаю. Это не реклама, это мои настоящие впечатления от распозновалки.
Я загнал в нее три аудиофайла из имеющихся у меня на компе аудиокниг:
1 главу аудиоверсии «В бой идут»,
1 главу аудиоверсии «Куда идем мы»
и, чтобы не замыкаться только на своих файлах – 1 главу аудиоверсии сказки Джанни Родари "Голубая стрела" в исполнении Сергея Чонишвили.
Кстати - все три файла читают разные чтецы, и качество звука тоже очень разное.
Полученную расшифровку загнал в шайтан-машину по принципу «как есть». То есть не в самом приглядном виде. Примерно в таком.

Что же мы получили в итоге?
«В бой идут» как есть – 0,25%.
С Дипсиком начал новый сеанс, поскольку старый видел этот файл в оригинальном виде. Попросил сделать из этого массива нормальную главу – разбить на абзацы, исправить ошибки и т.п.
Он все сделал.
Красивая глава уехала в шайтан-машину. Результат – 0,86%
Попытка №2 - "Куда идем мы" после расшифровки - 0,00%
Красиво форматированный Дипсиком файл - 0,00%
№3 - Джанни Родари после расшифровки - 0,61%
А красивый файл получил "три баранки" - 0,00%
Выводы, можно ли таким образом испортить свой глубоко оригинальный текст, можете делать самостоятельно.
А я откланиваюсь.
Да! Чуть не забыл. Картинки для своих блогов про нейросети я ворую у Романа Прокофьева из вот с этого его весьма умного поста. Все время забываю покаяться.