Бета-тест нового нейродетектора и анализ нескольких тысяч книг
Автор: Александр ЯкубовичПерейдем сразу к делу. Я получил ранний доступ к бета-тесту мощного нейродетектора, официальный анонс которого состоится уже в ближайшем будущем.
Как выяснилось, этот продукт способен анализировать не только обычные статьи или какие-нибудь научные работы, написанные сухим формальным языком, но и художественные тексты, о чем намекает возможность загрузки файла в 50 Мб/до 1 000 000 знаков. Собственно, так оно и есть. Тесты показали, что обычно ложно детектируется 1-2 отрывка художки из 300 (если массив текста достаточно большой), то есть точность детектора превышает вполне приемлемые 90%.

На скриншоте выше — отчет по анализу одной из последних моих книг. Алгоритм разбил текст из 400к знаков на 300+ фрагментов и провел анализ текста на следы генерации. Показатель "максимальная вероятность" по развернутому отчету в файле json относится к конкретному участку, на котором случилось то самое ложноположительное срабатывание. Однако весь файл целиком алгоритм признает написанным человеком, каким он и является.
А вот так выглядит отчет по художественному тексту, явно написанного нейросетью:

Примечание
Важно понимать, что в контексте больших файлов итоговый параметр "текст написан нейросетью с вероятностью" стоит читать, скорее, как "вероятная доля нейрогенерации в тексте", ведь мы анализируем не отрывок, а целые произведения, в которых точно были хотя бы минимальные ручные правки для обеспечения связности. Целиком книги нейросети пока генерировать не умеют.
Учитывая частоту ложноположительных срабатываний, которую я заметил за время тестирования, "человеческим" можно признавать текст, в котором среднее значение ИИ-шности не превышает 20-25%. Конечно, стоит анализировать и отдельные случаи. Когда мы имеем по два отрывка 90%+ из каждого десятка, что в среднем дает нам вероятность 20%, то это просто врезки генеративного текста для объема. Очевидно, в таком случае текст "подпирался" нейросетью, хотя не так активно, как на предыдущем скриншоте, в файле которого следы генерации есть почти в каждом абзаце. Для тех, кто хочет увидеть более подробную разбивку по анализу, стоит заглянуть в файл JSON. В нем содержится развернутый отчёт по каждому отрывку, который был проанализирован алгоритмом.
Итак, за базу можно принять то, что тексты со значениями машинности ниже 20-25% — написаны руками, а если нейросеть там и присутствует, то в совершенно незначительных объемах. В диапазоне средних значений 25-50% уже можно говорить о явном присутствии нейрогенерации в тексте, это будут значительные отрывки, которые полностью были созданы с помощью нейросети. Ну и наконец, тексты со значениями 50-99% — это уже полное доминирование генеративного текста, который лишь местами подправляли вручную, чтобы это было можно читать. Именно с этими установками я приступил к масштабному исследованию статистически значимого массива текстов.
ДИСКЛЕЙМЕР!
Анализ выбранного дата-сета проводился в рамках исследовательской работы и тестирования возможностей нового алгоритма в плане выявления нейрогенерации в художественных произведениях. Все тексты были взяты из открытых источников. Имена авторов (или псевдонимы), названия произведений, площадки официальной публикаций, рейтинги и прочие чувствительные данные, на основании которых принималось решение о включении автора и его текстов в дата-сет, публично раскрываться не будут.
Условия теста: из публичных источников были взяты несколько тысяч текстов популярных авторов на русском языке за последние 25 лет. Половина выборки приходится на период до 2024. Еще столько же — были написаны с января 2024 по апрель 2026 года.
А вот так выглядит "групповое фото" рейтингов машинности всей тестовой выборки:

График рисовался автоматически, так что даты немного наезжают, но ситуацию оценить довольно легко. Три ложноположительных срабатывания на массив из старых текстов (при условии, что сработка могла случиться и на, например, кривой машинный перевод) и резкий рост числа генеративных текстов с сентября 2024 года. Напоминаю, в июне 2024 года в релиз вышла Claude 3.5 Sonnet.
Собственно, если масштабировать график только до периода "январь 2024–настоящее время", точки выхода новых нейросетей с увеличенным контекстом рассуждений становятся еще более заметными.
Вот график по той же проанализированной базе текстов, но уже за самый "интересный" период:

Как видите, плотность нейрогенеративных текстов растет, причем увеличивается не доля "желтых", то есть частично сгенерированных, а именно процент "красных" текстов, то есть тех, где нейросети значительно больше, чем человека.
Для наглядности представлю вам диаграммы по каждому отдельному периоду, чтобы можно было оценить скорость проникновения нейрогенерации в художку:

Как видно, выбранные к анализу авторы в последний год начали массово переходить на нейросети. При этом процент генеративных текстов растет стремительно, тогда как те, кто используют ИИ в качестве помощника — всю дорогу остаются в меньшинстве. Думаю, уже к маю по этой выборке ИИ-шных текстов станет больше 50%, так как все авторы из дата-сета ведут активную творческую деятельность, а сам процесс ИИ-фикации протекает довольно стремительно.
Так выглядит обезличенная картина по отдельному сегменту рынка. Конечно, от ресурса к ресурсу и от формата к формату процентное соотношение будет меняться, но уже по нашему исследованию картина довольно печальная, так как для анализа были взяты именно активно публикующиеся авторы и их тексты.
Информация о нейродетекторе и проводимом исследовании была заранее передана руководству основных самиздат-платформ (АТ, ЛитНет, Литгород). Также со мной можно будет пообщаться на РосКоне, где я нахожусь с 9 по 12 апреля в качестве участника.
Спасибо за внимание.
Ссылка на нейродетектор: https://beta.detector.gorynych.ai
Или тыкнуть сюда.
Загружать можно как отрывки текста прямо в форму анализа, так и целые файлы. Предпочтительный формат — текстовый документ с расширением ".txt". Среднее время анализа книги на 400к знаков — от 20 секунд до 2 минут (во всяком случае, так было до публикации этой статьи :) )