О будущем нейродетекторов

Автор: Коган Мстислав Константинович

Немного расскажу о будущем нейродетекторов, подкинув пару дровишек в теорию заговора о том, что я якобы причастен к их разработке) На самом деле — ни разу. Где я и где программирование? Из меня программист примерно такой же, как и балерина. Но клоунам из тихо такие мелочи безразличны.

Но начать придётся издалека, дабы сравнение текущей ситуации и того, что нас ждёт в будущем получилось наиболее наглядным.

Текущий детектор (в нашем случае яндекса, но судя по тому, что я видел это актуально и для покойного горыныча было) построен на перплексии. Для того чтобы примерно понимать, что это такое, нужно вернуться чуть-чуть назад и понять механику работы нынешних ЛЛМ моделей. Вопреки распространённому среди обывателей мнению, никаким разумом они не обладают. Они вообще не понимают что пишут. По сути это огромная база вероятностей связи слов, и когда они пишут текст, они просто подбирают следующее наиболее вероятное слово, исходя из того набора связей, что был в их текущем контекстном окне.

Условно есть слово «Яблоко». И дальше:
С вероятностью 40% оно «упало»
С вероятностью 40% оно «красное»
С вероятностью 1% оно «акционерное общество».

Допустим у нас получилась в ответе фраза

«Яблоко красное». Алгоритм берёт эту фразу и сличает её со следующим наиболее вероятным словом. Условно.

«, но» — 50%
«и» — 30%
«на» — 10%

«Яблоко красное, но…» ещё один прогон алгоритма со следующим набором слов
Червивое — 60%
Незрелое — 30%
Гнилое — 10%

Получаем «Яблоко красное, но червивое».

Это очень упрощённое объяснение того, как это дело работает. Детектор основанный на перплексии работает по тому же самому принципу. Он сличает итоговый текст со шкалой вероятностных совпадений наиболее популярных моделей.

Таким образом детектор очень неплохо отлавливает чистый слоп, который сделан методом — копировать-вставить прямиком окна ЛЛМки. В случае яндекс-детектора, ещё осуществляется анализ на наличие нейропаттернов (у них собрана довольно большая база), но на этом его возможности исчерпываются.

Так что, как вы понимаете, он не может ловить слоп, который прошёл через редактуру. Да, эта редактура должна быть внушительной, фактически на уровне копирайтинга, чтобы эти связи порушились окончательно, но чтобы загнать текст в условно допустимую зону порой хватает и перестройки части предложений и замены 10-20 слов на абзац. Однако фактически, яндекс детектор в нынешнем своём виде является детектором уходящего поколения. А вы же собрались послушать, что нас ждёт в будущем. Так что пожалуй пришло время немного приоткрыть завесу тайны.

Дальнейший текст во многом моими собственными изысканиями, но я постарался собрать как можно больше материала по теме, чтобы он был как можно ближе к действительности.

Следующее поколение детекторов будет основано уже не на перплексии, а на векторном анализе текста. Это куда более глубокий процесс, хотя в чём-то и похожий. По сути — анализ смысловых связей в нём выстроенных, вероятностей их появления и геометрического рисунка, которые формируют эти самые вектора. Я не технический специалист, так что боюсь подробно объяснить не смогу, что такое вектор, но если у вас есть желание разобраться самому, вот неплохая статья на хабре на эту тему, которую можно поизучать.
https://habr.com/ru/companies/ru_mts/articles/949042/

К векторному анализу текста сейчас есть два альтернативных подхода.

1) Vector Similarity Search. Раскладывание на векторную модель текущего текста, поиск их связей, формирование рисунка и сличение этого самого рисунка с массивом геометрических паттернов, характерных для наиболее популярных моделей. Ключевая проблема этого подхода — стоимость в плане ресурсов и актуальность баз рисунков. Само раскладывание текста на вектора стоит немного. Даже дешевле чем перплексия. Проблемы начинаются на этапе сличения. По сути геометрических паттернов, характерных для каждой нейросети очень много. И большой объём текста (соответственно большой рисунок), надо будет сличать с огромной и постоянно пополняющейся базой данных, чтобы отыскать в нём участки, характерные для той или иной нейросети.

2) Topological Data Analysis. Оно же — анализ топологии данных. Тут всё завязано на гладкость рисунка текста. Дело в том, что нейросетевые тексты создают идеально-правильные геометрические рисунки, если их разложить на вектора. Тогда, как, человеческий текст разложенный на векторы — это хаос в самом буквальном своём проявлении. Однако в этой методике существуют тоже две проблемы. Первая— математика обсчёта. Если в первом случае мы можем побить текст на чанки по 3-5 тысяч знаков и анализировать «по кускам», то в этой методике придётся проводить анализ кратно большего числа вершин, что естественно создаст куда большую нагрузку на вычислительные мощности. Второй проблемой этого метода является то, что идеально вылизанный человеческий текст, с идеальной же структурой, может быть записан в машинные. Вероятность такого небольшая, меньше процента, но она не равна нулю.

Какой именно из двух подходов будет реализован в детекторах следующего поколения я не знаю, но есть подозрение, что в действительно хороших он будет комплексный и будет проводиться в три этапа.

1й — анализ перплексии и поиск нейропаттернов (то, чем сейчас занимается яндекс)

2й — раскладывание текста на вектора и анализ его «гладкости» (TDA)

3й — в случае если текст гладкий — сличение с текущими базами данных геометрических паттернов наиболее популярных нейросетей.

На основе каждого из этапов будет формироваться процент «подозрительности» текста, и в итоге пользователю будет выдаваться вероятность, с которой он был сгенерирован нейросетью. Возможно бонусом появится ещё и процент вмешательства, но тут пока спорно. В айти сфере такой подход называется «каскадной фильтрацией», когда анализ идёт от более простой, к более сложной системе.

Если всё это будет реализовано в новом поколении детекторов (будет, тут я не сомневаюсь, ибо спрос очень большой и все технологии уже есть в наличии), то слоперу потребуется нечто большее, чем простая замена слов и перестройка предложений, чтобы его обмануть. Придётся целиком и полностью переписывать абзацы, полностью меняя их структуру, а то и расположение относительно друг-друга. Что, по-сути, делает полностью бессмысленной попытку скрытия слопа.

И да, я подозреваю, то, что раскопал Вадим Нестеров в своём знаменитом удалённом блоге (который однако сохранился на его страничке в ВК. Кто захочет, тот найдет.), когда проанализировал топ и выявил там целую кучу слоп-машин, после выхода этого поколения детекторов, нам покажется просто цветочками. Ведь метод перплексии ловил самых тупых и наглых. Которые буквально занимались тем, что копировали и вставляли текст прямо из окна модели, не пытаясь его отредактировать или прогнать через хуманизатор. Вскрыты окажутся и слоперы хитрые, которые дошли до "хуманизаторов" и редактуры слопа.

Ну, а дальше… Дальше решать уже будет администрация конкретных порталов, доверять такому анализу или списать всё на то, что автор слишком типично пишет и у него слишком гладкий текст. Правда вопли про «заговор детекторов», которые и сейчас то выглядят смехотворно, будут смотреться совсем уж комично на этом фоне.

Расчётное время появления подобных детекторов? Год, максимум — полтора. Будет ли это яндекс (вероятно будет, т. к. технологии анализа текста дешевеют с каждым днём и, в скором времени, станут достаточно дешёвыми для массового применения), или же какой-нибудь другой детектор, как у нас появился тот же горыныч, или несколько сразу — увы, я не знаю. Но, скорее всего, мы увидим гонку технологий в этом направлении.

И да. Если Яндекс нас слегка тряханул, вскрыв этот гнойник и вынудив порталы заняться damage controlом или частичным пересмотром своей политики, то будущее поколение детекторов будет выжигать его вместе с поражённым мясом.

Доклад окончил)

будущее, нейродетекторы

+170

1 127

0 комментариев, по времени, по убыванию времени, по возрастанию популярности

0 комментариев, по
времени, по убыванию

времени, по возрастанию

популярности