Как поисковые системы определяют спам и попадает ли под это генеративная литература?
Автор: Дмитрий РоманоффДрузья, пишу большую статью по влиянию генеративных текстов и решил перед этим расставить точки над и, определяя что такое спам и как с ним борются поисковые системы. Итак, поехали!
Что такое спам в современном поиске?
Спам в поисковых системах эволюционировал от примитивного разбавления текста ключевыми фразами до сложных схем с искусственной генерацией контента и сетевыми структурами сайтов. Две главные угрозы последнего десятилетия:
- Синонимайзинг. Автоматическая перезапись текстов с заменой слов на синонимы без понимания смысла, создающая более менее «читабельный мусор». Иногда не читабельный…
- Сайты-прокладки или в народе дорвеи. Страницы-ловушки, оптимизированные под вкусные запросы с поисковиков, но перенаправляющие пользователей на коммерческие или рекламные ресурсы. Серое и чёрное SEO.
Эволюция антиспам-технологий за 2015–2025 годы.
Таблица сравнение эволюции антиспам систем Google и Яндекс.
Период | Технологии Google | Технологии Яндекс | Объекты борьбы |
---|---|---|---|
2015-2018 | Panda, ручные фильтры | АГС-фильтры, Минусинск | Ключевой спам, биржи ссылок |
2019-2022 | BERT, SpamBrain ранние версии) | Королев, MatrixNet v2 | Синонимайзинг, дорвеи |
2023-2025 | SpamBrain 4.0 (мультимодальный ИИ) | YandexGPT-детектор, СпамоБот | Генеративный спам, AI-сайты |
Эра ручных правил в 2015–2018 годах.
- Google Panda. Борьба с «тонким контентом», но легко обходится через синонимайзеры типа «перефразировать текст онлайн». Сайты-прокладки маскировались под редиректы через мета-теги.
- Яндекс АГС-40. Фильтр бил по «трафиковым» сайтам с неестественной морфологией. Для русского языка ключевым было выявление неестественных падежных конструкций «купить квартиру Москва» вместо «купить квартиру в Москве».
Нейросетевой прорыв 2019–2022 годов.
- Google BERT от 2019 года научился анализировать контекстную связность предложений. Синонимайзерные тексты распознавались по нарушению логических связей через «кофе вкусный следует, что кофе аппетитный» и аномальной плотности синонимов в одном абзаце. Ключевой момент! Главное, не перебарщивать!
- Яндекс Королев от 2020 года. Система выявляла сетевой спам через анализ IP, хостингов и ссылочных графов. Например, кластер из 50 сайтов о «ремонте холодильников», ведущих на один магазин, вычислялся за 2-3 часа.
Эра генеративного ИИ в 2023–2025 годах.
- SpamBrain 4.0 от Google. Мультимодальная нейросеть, которая сравнивает семантические векторы оригинального и переписанного текста, обнаруживает «галлюцинации» AI и фактические ошибки в сгенерированном контенте, а также анализирует паттерны поведения пользователей через время на странице, коэффициент кликабельности и отказы, которые для дорвеев составляют более 95% за период менее чем 5 сек. Это ключевой критерий спама уже давно и решают это не алгоритмы, а пользователи, которые безошибочно видят спам.
- YandexGPT-детектор. Для русского языка критично важна морфология и сочетаемость слов. Примеры нарушений — «Срочно чиним холодильники» и «Срочно чиним холодильные шкафы». Это неестественное сочетание! Или, «Купить диван» значит «Приобрести лежанку» — это смена семантики.
Культурные особенности русского и английского языков и морфологическая сложность.
- В русском спам-текстах чаще встречаются ошибки в падежах и «ремонт стиральных машинок» вместо «стиральных машин» — это ключевой маркер для Яндекса.
- Английский контент проверяется на естественность артиклей «a car» vs «the car» через BERT-контекст.
Семантические поля.
- В Google акцент на топическую связность. Например, для запроса «микроволновка» ожидаются слова «тарелка», «подогрев», а не «электромагнитное излучение» в 90% текста.
- Яндекс строже к локальному контексту, так для Москвы «ремонт окон» это «установка стеклопакетов», а для Ростова — «замена оконных рам». Интересно, сам об это никогда бы не подумал…
Примеры из практики
Кластер сети «ремонтных» дорвеев в 2023 году:
412 сайтов с текстами, сгенерированными через синонимайзер на базе ChatGPT. Вычислены Google через:
- Анализ редиректов JavaScript идёт через 302 редирект и на коммерческий сайт.
- Совпадение семантических векторов с эталоном «спам-шаблона».
Фильтр «Баян» от Яндекса в 2024 году:
Заблокирован сателлитный кластер из 17 сайтов с контентом, переписанным через «перефразировать текст онлайн». Маркеры спама:
- 78% биграмм совпадают с исходником при норме менее 40%
- Одинаковая структура H2-H4 на всех страницах.
Будущее борьбы и тренды 2025 года.
- Проактивные системы от Google’s SpamBrain теперь генерирует спам-контент сам, чтобы тренировать детекторы.
- Кросс-платформенный анализ и учёт данных из соцсетей, мессенджеров. Рассылки в Telegram маркируются как спам при более чем 60 сообщений в сутки.
- Этическая экспертиза через запросы вроде «как сделать рассылку спама» попадают под фильтрацию, а их авторы — в группу риска. Жёстка! Теперь опасно спрашивать что-либо у поисковиков…
Выводы
Главный сдвиг десятилетия — это переход от поиска ключей к оценке смысловой целостности. Если в 2015 году спамер выигрывал за счёт объёма, то в 2025-м даже YandexGPT-сгенерированный текст распознается по аномалиям в сочетаемости слов. Технологии типа SpamBrain 4.0 или «Королев» делают массовый спам экономически невыгодным и стоимость обхода фильтров на 70% выше потенциального дохода по данным за 2024 год. Как сказано в Google Search Central: «Сайты, нарушающие политику, могут не появляться в результатах вовсе», — и это уже не угроза, а реальность.
«А как насчёт текстов, сгенерированных нейросетями?», — спросите вы. А я вам отвечу, что они и есть спам для поисковиков. Большинство из них. Это и ответ, почему такую литературу очень сложно продвигать в поисковых системах и почему она обречена оставаться неудел у читателя. Друзья, пишем качественные тексты и развиваемся!