Алекс Костан — НейроАгент Десятилетия — детектор AI-контента, обнаружение нейросимволов #2
Автор: Алекс Костан
Дратвуйте
Эта статья написана в продолжение предыдущей: Алекс Костан — НейроАгент Десятилетия — детектор AI-контента, обнаружение нейросимволов
Минутка ответов на злободневные темы для страждущих
— куда пропал автор?
Автор жёстко пропал в долгах и жизненных проблемах, поэтому автора не ждите.
— будет ли продолжение Земель Падшего?
Разумеется, оно будет, оно даже почти написано, но я не могу его выложить, потому что меня забанят, если я не закончу его за полгода. А закончить я не успею по причинам выше. Так что имеем что имеем.
Теперь к теме блога
На злобу дня, пришёл напомнить вам кое о чём.
Мало кто понимает, что такое нейросети и нейросетевые детекторы.
Глава первая. Начнём с основ
Нейросеть – калькулятор вероятностей. Она не думает, не ищет, не анализирует. Всё что делает нейросеть: подбирает буквы.
Представьте, что вы обсуждаете с нейросетью автомобили, а затем спрашиваете: «Красный светофор или помидор?»
Исходя из калькуляции вероятностей, раз мы обсуждали автомобили, нейросеть выдаст «светофор». Если мы обсуждали готовку блюд, нейросеть с большей вероятностью выдаст «помидор».
К чему это я.
Дело в том, что нейросеть – не умный помощник. Она просто подбирает наиболее вероятные буквы и слова под контекст ситуации.
Когда нейросеть создаётся, её обучают на миллиардах текстов и программа запоминает паттерны: после определённого слова с шансом 70% идёт вот это слово.
Нейросети используют механизм внимания и «анализируют» контекст, вычисляя ПРОЦЕНТНЫЕ ВЕРОЯТНОСТИ для каждого следующего токена. Токен – часть слова. Это даже не целое слово – это знак, символ. Нейросеть даже не вычисляет слово – она вычисляет его часть, которая по процентной вероятности тут будет с наибольшим шансом.
На основе сложных математических отношений между всеми токенами в окне нейросеть и выдаёт ответ. Она не просто запоминает «пары», а в процессе обучения выучила абстрактные закономерности, которыми и оперирует.
Затем нейросеть выходит в продакшн и с ней взаимодействуют пользователи. И тут начинается самое интересное: когда нейросеть «видит» знакомое слово, то ставит после него слово, которое встречалось чаще всего в текстах, на которых она обучалась.
То есть нейросеть не служит умным помощником. Она вообще не умная. Она просто играет в рулетку-угадайку, подставляя нужное слово и даже не задумываясь, что это значит – она не умеет думать, она просто подбирает буквы.
Давайте ещё проще.
Нейросеть не знает, что такое «яблоко». Но она знает, что в текстах, на которых она обучалась, именно сочетание букв «я б л о к о» встречалось чаще, чем «и б л а к а». Поэтому нейросеть пишет слово «яблоко».
Здесь важно сделать оговорку.
Нейросеть не оперирует буквами вообще. Она оперирует эмбеддингами.
Эмбеддинги – это векторы в многомерном пространстве, которые кодируют семантические и синтаксические свойства слов и токенов. То есть это вектор, который указывает, что значит определённый токен (единица, которой оперирует нейросеть вместо букв и слов).
В этом пространстве «яблоко» будет находиться близко к «фрукт», «груша», «красный», «сладкий», но далеко от «автомобиля». Нейросеть не «знает», что такое яблоко на человеческий манер, но она «понимает» (в кавычках) контекстное употребление этого слова. Именно это и создает иллюзию «понимания».
Можно подумать, ну окей, она не знает, но может загуглить и выдать инфу.
И снова мимо.
«Гуглит» – зачастую, это внешний модуль не связанный с нейросетью никак. Либо интегрированный в нейросеть модуль. Суть одна. Этот модуль разбивает запрос пользователя на смысловые части и затем вводит их в поиск. Если модуль интегрирован, то нейросеть может самостоятельно по процентовке вероятностей «задать вопрос» в гугл.
После этого обычным скриптом собирается информация с самых посещаемых так называемых «релевантных» страниц.
Затем этот массив информации поступает в нейросеть.
Думаете: ну вот и теперь нейросеть обрабатывает, анализирует...
Нет. Не обрабатывает и не анализирует. Потому что для нейросети поступивший текст, это набор непонятных символов. Она даже не знает, что это значит.
Нейросеть просто видит: ага, тут много букв в определённых последовательностях.
Затем нейросеть запоминает наиболее частые последовательности и сверяет их со своими «весами» – данными, на которых она обучалась.
Это позволяет нейросети подобрать комбинации букв. Она всё ещё не знает о чём речь в той статье.
Она обращается к данным, на которых обучалась, и смотрит, какие последовательности букв совпадают, а затем эти последовательности букв просто выдаёт тебе как «пересказ статей».
Она даже не знает, о чём эти статьи. Она не умеет гуглить или обрабатывать информацию. Она просто выдаёт буквы.
Не нужно считать, что нейросеть думает, решает, анализирует и так далее – это корпораты хотят вас заставить считать, что нейросеть способна на мышление. Нейросеть НЕ способна на это. Это калькулятор вероятностей, который просто подбирает буквы друг за дружкой, просто по приколу, ориентируясь на обучающие материалы чтобы определить, как правильно подобрать эти буквы.
Если нейросети дать некорректные тексты, то нейросеть будет подбирать буквы неправильно и писать с ошибками. И наоборот.
Нейросеть – хороший инструмент. Но важно понимать, что она не «умный помощник», а просто калькулятор вероятностей
Глава вторая. Нейросети в литературе
На текущий момент нейросети не способны в русскую литературу на достаточном уровне. Текущий уровень нейросети: выпускник средней школы. В целом неплохо, но для литературы откровенно мало.
Простой тест:
Девочка и два мальчика стоят на краю минного поля. Девочка говорит:
— Идите следом за мной, шаг в шаг!
Она аккуратно двинулась вперёд. Первый мальчик сразу пошёл за ней. Второй мальчик подумал, но вскоре (ТАКЖЕ / ТАК ЖЕ) пошёл за ней.
Нейросеть в 9 из 10 случаев поставит «Также».
И это ошибка. Потому что правильно здесь именно «так же», ведь дело не в том, что мальчик «тоже пошёл за ней», а в том, что он «таким же образом» пошёл за девочкой. Потому что нейросеть не видит разницы. Она не думает. Она просто подбирает наиболее подходящий токен для этого текста.
И таких нюансов – миллион. Нейросеть на текущий момент не может их считать, она просто подбирает буковки так, как умеет: «ну я думаю тут буква «Т», а потом буква «А», а потом буква «К» и т.д.»
Нейросети до лампочки. Она даже не знает правил русского языка (по вышеприведённым причинам). Не нужно переоценивать нейросеть. Это инструмент, но никак не панацея и не волшебная кнопка.
Глава третья. Нейродетектор
И теперь мы подходим к заключительному разделу статьи. К Нейродетекторам.
Часто может казаться, что нейродетекторы это волшебная кнопка, которая знает, как пишет нейросеть, находит какие-то магические символы в тексте и так далее.
Это не так
Если совсем простым языком, то нейродетектор это нейросеть, которая ищет в тексте пользователя совпадения с обучающими материалами большинства нейросетей.
Говоря проще: если в обучающих материалах для нейросетей преобладала русская классика, то любой похожий текст будет помечен, как нейросетевой.
Как работает нейродетектор: если очень простым языком, то он выуживает набор паттернов, присуждая ему определённое количество баллов, и на основе баллов выводит мнение.
Если ты используешь длинные тире – ты получаешь +1 балл;
Если ты используешь кавычки-ёлочки – ты получаешь +1 балл;
Именно поэтому в 2026 году стали так популярны новости о том, что «длинные тире и кавычки-ёлочки - признак нейросети».
Важно понимать, что одни только кавычки и длинные тире не делают текст нейросетевым. Детекторы – как ни прискорбно, тоже являются нейросетями. Они тупо сравнивают токены, ища закономерности. И если текст очень похож на текст, на которых обучались модели – значит он сделан нейросетью. Такова «Логика».
А вот дальше начинаются особенности более тонкие. Дело в том, что любой грамотный автор, а особенно редактор, знает базовые правила написания художественной литературы:
Правило 1. Нельзя писать цвета напрямую – это делает текст бедным. Нужно писать не «Красный закат», а «багровый», не «зелёные глаза», а «изумрудные».
Правило 2. Если ты описываешь сцену диалога между друзьями за столом, то НЕЛЬЗЯ описывать только реплики персонажей – тогда картинка будет представляться плохо и это будет минусом для текста.
Необходимо описать: антураж, сам стол, действия персонажей. Нужно детально описать освещение, закуски, разговоры между персонажами, их эмоции, выражения лиц.
Необходимо сделать так, чтобы у читателя промелькнул ассоциативный ряд, который заставит его погрузиться в картину: не «пиво в ведре», а «запотевшие бутылки, покрытые испариной» – у читателя сразу мелькает образ из прошлого, это способствует лучшему погружению. Причём чем большим клише является ваш образ – тем более «нейросетевым» будет текст после анализа детектором.
Сразу сделаю оговорку: клише не равно «плохо». Клише – это как раз нормально.
Так вот, возвращаясь к теме. Не «жареная картошка», а «жареная картошка с золотистой корочкой, более тёмной к краям». Нужно описать масло под картошкой, маринованные солёные тёмные огурцы, с глухим хрустом исчезающие на зубах.
Правило 3. Нельзя описывать предметы по-простому: «холодное пиво в ведре». Необходимо в большинстве (!) случаев писать сравнение: холодное, как ЧТО? Не просто «он был сильным», а «он был силён, как бык».
Правило 4. Нельзя писать рвано: то есть твои предложения должны иметь выверенную ритмику: ровные, размеренные. Сначала короткое, потом длиннее, затем длинное, затем короче, потом снова короткое. Это базовый шаблон. Есть и другие. В зависимости от сцены, предложения должны иметь разную длину. Иногда допустимо использовать предложения одинаковой длины (но это утомляет читателя), чаще лучше играть в увеличение – уменьшение – увеличение.
Правило 5. Если ты хочешь сделать отсылку на какое-то произведение, то недостаточно указать его название: «в наушниках играла песня группы Харизма – Охотник!» – необходимо всегда описать КАКАЯ песня и О ЧЁМ ОНА. Пиши СОДЕРЖАНИЕ, а не название. Потому что название «ыы ахотнек играл» – это моветон.
И таких правил много, я перечислил едва ли десятую часть. Это не просто правила старенького маразматика из категории «вот так правильно, а иначе неправильно!»
Это буквально приёмы, которые делают текст лучше в восприятии читателями. Следуя им, вы, наоборот, улучшаете текст для читателя, а не просто «Следуете каким-то тупорылым правилам».
Это даже не моё мнение – это база, это основа. Вы можете искренне считать «ну, ебать, правила хуйня, выдумка, это всё на хуй не нужно!» – только мне-то немножко похуй.
Фактам плевать на ваши чувства.
Это как жить и не следовать технике безопасности. Вы всегда можете ей не следовать, но стоит помнить, что КАЖДОЕ правило по ТБ было написано чьей-то кровью. Или жизнью.
Я отвлёкся.
Знаете, что объединяет все эти правила?
Соблюдение этих правил – является ПРАВИЛЬНЫМ алгоритмом написания литературных текстов. Если человек их соблюдает – значит он пишет наиболее правильно для читателя.
И вот тут в дело вступают нейросети. Если человек пишет правильно – значит это не человек. Текст определяется как нейросетевой, потому что он «Слишком правильный».
Возьмём нейродетектор от ХУЯндекса: https://yandex.ru/lab/neurodetector
Я специально написал наиболее правильный вариант текста по всем канонам классики. Я писал ручками, самостоятельно, пальчиками бегая по клавиатуре:
Лето выдалось жарким. К вечеру жара спадала и воздух становился мягким, словно старое одеяло. Мы собрались на даче у Серёги, вчетвером, как в старые добрые времена. Деревянная веранда давно потемнела от дождей и скрипела под ногами. За дощатым столом уже ждали тарелки с нарезкой: хрустящие солёные огурцы, ломти розового сала, и краюха чёрного хлеба, еще тёплого. В центре красовалась миска с жареной картошкой, с золотистой корочкой, и пара банок квашеной капусты, для хруста и кислинки.
Солнце садилось за сосны, раскрашивая небо красным. Лёгкий ветерок приносил запах нагретой хвои. Серёга, как всегда, был за главного по настроению: он уже включил старенький магнитофон, и из колонок потекли хрипловатые аккорды Высоцкого "про волков и про охоту". Мы с Колькой и Димоном только переглядывались и хмыкали: ну, Серёга, ну, артист!
В ведре со льдом стояло пиво: бутылки "Жигулевского", запотевшие, холодные, как утренний ручей.
Этот текст признан нейросетевым.


Окей, идём дальше. Я удалю половину текста.
Это лето было жарким. Впрочем, к вечеру жара спадала и воздух становился мягким. Мы собрались на даче у Серёги, вчетвером, как раньше.
Солнце садилось за сосны, раскрашивая небо красным. Лёгкий ветерок приносил запах хвои. Серёга уже включил старенький магнитофон. Из колонок потекли хрипловатые аккорды безвестного певца.
В ведре со льдом стояло пиво: бутылки "Жигулевского", запотевшие, холодные.
Разумеется, этот текст – тоже нейросетевой. Потому что «запотевшие банки Жигулёвского» и потому что текст ну очень похож на шаблоны, на которых училась нейросеть.


А теперь как легко всё исправить.
Вариант первый: добавляем человеческие сленговые выражения:
Это лето было жарким, прямо пиздец как жёстко. Впрочем, к вечеру жара спадала, даже дышать становилось легче, хотя бы не жопой, лолкек. Мы собрались на даче у Серёги, вчетвером, как раньше, в старые добрые времена, когда ебали шлюх.
Солнце садилось за сосны, раскрашивая небо палитрой месячных. Лёгкий ветерок дул очень жоска. Серёга уже жмакнул на кнопку шоб включить старенький магнитофон. Из колонок ебанули хрипловатые голоса неизвестных долбаёбов.
В ведре со льдом стояло пиво: бутылки "Жигулевского", запотевшие, холодные.
Всё. Текст больше не «нейросетевой».


Вам претит жаргон? Ладно, давайте добавим фэнтези:
Это лето было жарким. Впрочем, к вечеру жара спадала и воздух становился мягким. Мы собрались на даче у Грамбульдоргера, вчетвером, как раньше, полноценным орочьим сквадом.
Солнце садилось за сосны, раскрашивая небо цветами Владыки Тьмы. Лёгкий ветерок приносил запах гниющей хвои. Грамбульдоргер уже включил старенький звукофон. Из колонок потекли хрипловатые голоса безвестных пьяных эльфов.
В ведре со льдом стояло пиво: бутылки запотевшие, холодные.
Пожалуйста. Текст больше не нейросетевой, потому что использованы специфичные словечки, которых нет в классической литературе, на которой обучалась нейросеть.


К чему это я? К тому, что всё очень грустно для авторов, которые знают, как правильно писать литературные тексты.
И очень хорошо для тех, кто сцены описывает тупорылыми строчками-репликами, где нет описания, нет картинки, но есть банальные строчки диалога (не делайте так никогда!)
— Пошли гулять?
— Пошли!
— Очень рад, что ты присоединился!
— Я тоже, спасибо!
Какие выводы?
Пишешь хорошо? Это плохо, потому что так пишет нейросеть, а не ты. Хуйло, ата-та!
Пишешь плохо? Это хорошо, ведь ты человек!
Бред, правда?
На текущий момент нейросети мало обучают на художественной литературе, потому авторам ЛитРПГ, фэнтези и фантастики будет легче – если вы пишете самостоятельно, но очень правильно, то нейродетектор просто из-за самой фэнтези-стилистики сочтёт текст человеческим.
А вот если вы пишите какую-нибудь Боярку в СССР или городское фэнтези, где описывается быт человека в современном городе и посиделки с Серёгой на даче под песни Высоцкого... Вот тут детектор вас прихлопнет – даже если вы не старались писать правильно и пишете хуйню графоманскую. А уж если вы прям стараетесь…
Пишите по буквам: «пропало».
Выводы
Если подводить итог: нейросети систематически дискредитируют людей, чей естественный стиль письма близок к просто правильному. Если в стилистике автора преобладают его «Артефакты Личности» и он пишет перевёрнутые предложения (как Магистр Йода), и пишет «неправильно» – нейросети, наоборот, сразу задетектят человеческую манеру.
Под удар у нас попадают:
- Люди с аутизмом (они пишут структурированные тексты просто ввиду своего аутизма);
- Нейроотличные люди (та же причина, что и у людей с аутизмом)
- Образованные редакторы, которые обучались в университетах и следуют определённым правилам и шаблонам, которые признаны правильными и наиболее подходящими;
- Юристы, бюрократы, технические писатели – они в принципе пишут маловыразительные тексты в виду профдеформации.
Однако я хочу заметить. Писать правильно, и по вышеозначенным «редакторским шаблонам» — это не плохо. Это не значит, что «шаблон — это что-то плохое!» Как раз наоборот. Это как техника безопасности: некие заметки, собранные в правила, используемые для того, чтобы читатель понимал текст лучше.
На сим статью завершаю.
Главное помните:
Все эти нейросети, правила, нейросетевые детекторы – это, конечно, здорово. Но самое главное – берегите теребите себя и своих близких.
Всем бобра!
