Как поймать ИИ-писателя?

Автор: Серж Маршалл

Представьте себе фальшивомонетчика и полицейского, которые учатся друг у друга. Фальшивомонетчик (в мире ИИ его называют Генератором) постоянно улучшает свои подделки. Полицейский (Дискриминатор) становится всё более искусным следователем. Они соревнуются, и с каждым раундом качество «фальшивок» растёт так сильно, что их уже почти невозможно отличить от настоящих.

Так работает GAN (Генеративно-состязательная сеть). Это идеальный способ научить нейросеть создавать очень реалистичные тексты или изображения.

Но есть у этой игры один недостаток — Mode Collapse. Представьте, что фальшивомонетчик нашёл одну маленькую дыру в работе полицейского и вместо того, чтобы учиться делать разные идеальные купюры, начинает штамповать одну и ту же, но с той самой «дырой». Разнообразие исчезает. Генератор деградирует до примитивного штампа.

Учёные решили эту проблему через математику смысла. Они перестали сравнивать слова, а начали сравнивать смыслы (векторные представления) текстов. Если все сгенерированные фразы оказались слишком близки по смыслу (слиплись в одну точку многомерного пространства), нейросеть получает штраф и «вспоминает», что нужно говорить на разные темы.

Проблема наоборот: Как поймать ИИ-писателя?

Теперь представим, что мы не учим нейросеть врать, а пытаемся отличить уже готовый текст, написанный ИИ, от человеческого. Здесь задача усложняется тем, что ИИ (как ChatGPT или YandexGPT) постоянно обгоняет детективы.

Если детектив ищет простые маркеры («много слов-связок», «идеальная грамматика», «однообразная длина предложений»), то автор-ИИ быстро подстроится. Он просто перестанет использовать эти маркеры. Это называют адаптивным дрейфом — детектив застревает в прошлом, а преступник уходит в будущее.

Как же ловят хитрые ИИ сегодня?

Сканер стиля (Перплексия): Человек иногда пишет сложно и запутанно (высокая непредсказуемость), а ИИ чаще всего пишет «гладко» (низкая непредсказуемость) .
Анализ семантической ломаности: Человек в эссе может прыгать с темы на тему, делать лирические отступления или быть ироничным. ИИ строит логичную, плавную траекторию смыслов. Ученые вычисляют эту «траекторию» в цифровом пространстве, и если она слишком прямая — это красный флаг.
Семантическая глубина: Человек часто опирается на личный опыт, подтекст или общие знания, которые не прописаны явно. ИИ говорит только то, что написано буквами, он не умеет «додумывать» подтекст так, как человек.

Анализатор ИИ-текстов от Яндекса (Yandex Neurodetector)

А теперь давайте посмотрим на реальный инструмент. Яндекс недавно запустил публичный Нейродетектор (Yandex Neurodetector) — сервис, который пытается решить эту задачу на практике .

Как он устроен (Краткий ликбез)

Яндекс использует целый комплекс технологий, которые можно разделить на три уровня:

Готовые модели (Zero-shot/Few-shot): Это «быстрые детективы». Вы просто даете Яндексу текст и говорите: «Проверь, это человек или машина?». Zero-shot делает это без примеров (чисто по инструкции), а Few-shot смотрит на пару ваших примеров для настройки .
Семантическое ядро (Embeddings): Это самое интересное. Яндекс переводит слова в векторы — цифровые координаты смысла. Он сравнивает не буквы, а то, насколько текст семантически похож на типичные ответы нейросетей или на корпус человеческой речи .
Обучаемые классификаторы: Для корпоративных клиентов Яндекс позволяет натренировать свою версию детектора. Например, интернет-магазин может научить нейросеть искать не просто «ИИ-текст», а именно «плохие карточки товаров, написанные ботом» .

Инсайты и реальная проверка (Кейс с Пушкиным)

Самое забавное — это проверка границ детектора. Один из пользователей провел эксперимент: он попросил нейросеть написать текст, но детектор Яндекса упорно выдавал 98-99% вероятности, что это ИИ .

Тогда он пошел на хитрость: взял отрывок из «Капитанской дочки» Пушкина и попросил нейросеть подражать этому стилю. И результат изменился кардинально: вероятность «нейросеть» упала до 1.22% .

Почему так произошло?

Современные ИИ пишут очень «правильно», логично и стерильно. А язык XIX века — витиеватый, с архаизмами, особой пунктуацией и плавающей логикой повествования. Для алгоритма это выглядит как аутентичный «человеческий почерк», потому что статистически такие тексты встречаются в корпусе «настоящей литературы», а не в датасетах ChatGPT .

Вывод по Нейродетектору

Это мощный инструмент, но не панацея. Яндекс сам признаёт, что идеального детектора нет. Если текст стилизован под классику, сильно искажён или написан узкоспециализированным языком, современный ИИ-детектор может легко ошибиться. Более того, команда Яндекса вместе с РАН работает над внедрением цифровых водяных знаков в сам контент, создаваемый нейросетями, чтобы идентификация стала аппаратной, а не вероятностной .

Таким образом, мы живем в эпоху вечной гонки вооружений: человек учит ИИ писать как человек, создает детектор, чтобы ловить ИИ, а потом учит ИИ обходить этот детектор, подражая Пушкину. И это только начало.

Поп-журналист Дипсик.

+55

276

0 комментариев, по времени, по убыванию времени, по возрастанию популярности

0 комментариев, по
времени, по убыванию

времени, по возрастанию

популярности