Как поисковые системы определяют спам и попадает ли под это генеративная литература?

Автор: Дмитрий Романофф

Друзья, пишу большую статью по влиянию генеративных текстов и решил перед этим расставить точки над и, определяя что такое спам и как с ним борются поисковые системы. Итак, поехали!


Что такое спам в современном поиске?

Спам в поисковых системах эволюционировал от примитивного разбавления текста ключевыми фразами до сложных схем с искусственной генерацией контента и сетевыми структурами сайтов. Две главные угрозы последнего десятилетия:

  • Синонимайзинг. Автоматическая перезапись текстов с заменой слов на синонимы без понимания смысла, создающая более менее «читабельный мусор». Иногда не читабельный…
  • Сайты-прокладки или в народе дорвеи. Страницы-ловушки, оптимизированные под вкусные запросы с поисковиков, но перенаправляющие пользователей на коммерческие или рекламные ресурсы. Серое и чёрное SEO.

Эволюция антиспам-технологий за 2015–2025 годы.

Таблица сравнение эволюции антиспам систем Google и Яндекс.

Период
Технологии Google
Технологии Яндекс
Объекты борьбы
2015-2018
Panda, ручные фильтры
АГС-фильтры, Минусинск
Ключевой спам, биржи ссылок
2019-2022
BERT, SpamBrain ранние версии)
Королев, MatrixNet v2
Синонимайзинг, дорвеи
2023-2025
SpamBrain 4.0 (мультимодальный ИИ)
YandexGPT-детектор, СпамоБот
Генеративный спам, AI-сайты

Эра ручных правил в 2015–2018 годах.

  • Google Panda. Борьба с «тонким контентом», но легко обходится через синонимайзеры типа «перефразировать текст онлайн». Сайты-прокладки маскировались под редиректы через мета-теги.
  • Яндекс АГС-40. Фильтр бил по «трафиковым» сайтам с неестественной морфологией. Для русского языка ключевым было выявление неестественных падежных конструкций «купить квартиру Москва» вместо «купить квартиру в Москве».

Нейросетевой прорыв 2019–2022 годов.

  • Google BERT от 2019 года научился анализировать контекстную связность предложений. Синонимайзерные тексты распознавались по нарушению логических связей через «кофе вкусный следует, что кофе аппетитный» и аномальной плотности синонимов в одном абзаце. Ключевой момент! Главное, не перебарщивать!
  • Яндекс Королев от 2020 года. Система выявляла сетевой спам через анализ IP, хостингов и ссылочных графов. Например, кластер из 50 сайтов о «ремонте холодильников», ведущих на один магазин, вычислялся за 2-3 часа.

Эра генеративного ИИ в 2023–2025 годах.

  • SpamBrain 4.0 от Google. Мультимодальная нейросеть, которая сравнивает семантические векторы оригинального и переписанного текста, обнаруживает «галлюцинации» AI и фактические ошибки в сгенерированном контенте, а также анализирует паттерны поведения пользователей через время на странице, коэффициент кликабельности и отказы, которые для дорвеев составляют более 95% за период менее чем 5 сек. Это ключевой критерий спама уже давно и решают это не алгоритмы, а пользователи, которые безошибочно видят спам.
  • YandexGPT-детектор. Для русского языка критично важна морфология и сочетаемость слов. Примеры нарушений — «Срочно чиним холодильники» и «Срочно чиним холодильные шкафы». Это неестественное сочетание! Или, «Купить диван» значит «Приобрести лежанку» — это смена семантики.

Культурные особенности русского и английского языков и морфологическая сложность.

  • В русском спам-текстах чаще встречаются ошибки в падежах и «ремонт стиральных машинок» вместо «стиральных машин» — это ключевой маркер для Яндекса.
  • Английский контент проверяется на естественность артиклей «a car» vs «the car» через BERT-контекст.

Семантические поля.

  • В Google акцент на топическую связность. Например, для запроса «микроволновка» ожидаются слова «тарелка», «подогрев», а не «электромагнитное излучение» в 90% текста.
  • Яндекс строже к локальному контексту, так для Москвы «ремонт окон» это «установка стеклопакетов», а для Ростова — «замена оконных рам». Интересно, сам об это никогда бы не подумал…


Примеры из практики

Кластер сети «ремонтных» дорвеев в 2023 году:

412 сайтов с текстами, сгенерированными через синонимайзер на базе ChatGPT. Вычислены Google через:

  • Анализ редиректов JavaScript идёт через 302 редирект и на коммерческий сайт.
  • Совпадение семантических векторов с эталоном «спам-шаблона».

Фильтр «Баян» от Яндекса в 2024 году:

Заблокирован сателлитный кластер из 17 сайтов с контентом, переписанным через «перефразировать текст онлайн». Маркеры спама:

  • 78% биграмм совпадают с исходником при норме менее 40%
  • Одинаковая структура H2-H4 на всех страницах.

Будущее борьбы и тренды 2025 года.

  1. Проактивные системы от Google’s SpamBrain теперь генерирует спам-контент сам, чтобы тренировать детекторы.
  2. Кросс-платформенный анализ и учёт данных из соцсетей, мессенджеров. Рассылки в Telegram маркируются как спам при более чем 60 сообщений в сутки.
  3. Этическая экспертиза через запросы вроде «как сделать рассылку спама» попадают под фильтрацию, а их авторы — в группу риска. Жёстка! Теперь опасно спрашивать что-либо у поисковиков…


Выводы

Главный сдвиг десятилетия — это переход от поиска ключей к оценке смысловой целостности. Если в 2015 году спамер выигрывал за счёт объёма, то в 2025-м даже YandexGPT-сгенерированный текст распознается по аномалиям в сочетаемости слов. Технологии типа SpamBrain 4.0 или «Королев» делают массовый спам экономически невыгодным и стоимость обхода фильтров на 70% выше потенциального дохода по данным за 2024 год. Как сказано в Google Search Central: «Сайты, нарушающие политику, могут не появляться в результатах вовсе», — и это уже не угроза, а реальность.

«А как насчёт текстов, сгенерированных нейросетями?», — спросите вы. А я вам отвечу, что они и есть спам для поисковиков. Большинство из них. Это и ответ, почему такую литературу очень сложно продвигать в поисковых системах и почему она обречена оставаться неудел у читателя. Друзья, пишем качественные тексты и развиваемся!

+114
224

0 комментариев, по

36K 0 869
Наверх Вниз