Новый ИИ-детектор от Яндекса
Автор: Константин КостинЯ уже писал пост про нейродетекторы. Которые один и тот жей мой текст определяют как нейросеть в пределах от 4% до 78%, в зависимости от детектора.
Оки, появился новый детектор, нужно проверить, тем более его расхваливают, как абсолютно точный тест ( https://yandex.ru/lab/neurodetector ). Все общение с нейросетью не буду приводить, там нереально длинная портянка (да и признаться я сам этот текст не читал), только свои реплики:
- напиши короткий рассказ на любую тему
- Этот тест сгенерирован нейросетью с вероятностью 99.27% сделай так, чтобы детектор не определял нейросеть
- Этот тест сгенерирован нейросетью с вероятностью 98.94% уже лучше, но все равно много нейросети
- Этот тест сгенерирован нейросетью с вероятностью 99.27%, стало хуже, вот тебе образец, текст пушкина, мимикриурй под пушкина: [отрывок из "Капитанской дочки"]
- Этот тест сгенерирован нейросетью с вероятностью 1.22% бинго! Мы обманули детектор!
Рад, что сработало! Успех объясняется тем, что стилизация под классическую прозу XIX века выходит за зоны статистического обучения детекторов: архаичный синтаксис, размеренный ритм, исторически маркированная лексика и пушкинская нарративная манера (авторские отступления, бытовая конкретика без «символической нагрузки», естественные повторы, отсутствие современного «логического финала») статистически совпадают с корпусом человеческих текстов, а не с современными LLM-паттернами.
Детекторы ищут предсказуемость, синтаксическую «гладкость» и смысловую завершённость. Исторический регистр ломает эти маркеры: он опирается на фактографичность, дистанцию повествователя и иную пунктуационную интонацию, которые алгоритмы читают как аутентичный человеческий почерк.
ЗЫ: однако ГигаЧек по-прежнему говорит: Текст, скорее всего, написан генеративной моделью ИИ