Практические методы двух-, трёх- и N-мерной скукометрии текстов
Автор: анонимышьТрадиционно качество текста оценивают «на глаз». Литературные критики используют размытые понятия: сюжет «провисает», книга «затянута», а герои ведут себя «картонно». Но в эпоху больших данных эти ощущения можно перевести на язык цифр: в рамках вычислительной нарратологии текст рассматривается не как объект искусства, а как структура данных с измеримой энтропией, топологией и логической связностью.
Ниже представлена методология квантификации понятий «скуки» и «авторской небрежности» через многомерный анализ: от поверхностной статистики до латентных векторных пространств.

1. Введение: от метафор к вычислительной нарратологии
Феноменология скуки носит бимодальный характер. С точки зрения теории информации, скука возникает на двух математических полюсах:
- Избыточная предсказуемость (Монотонность): Низкая энтропия, где каждый следующий элемент легко предсказывается на основе предыдущего.
- Избыточный шум (Хаос): Высокая энтропия без семантической когерентности, вызывающая когнитивную перегрузку и отторжение.
Задача автора — удержание текста в «зоне Златовласки» (оптимального уровня сюрприза по Шеннону), балансируя между узнаваемостью паттернов и новизной.

2. Двумерная скукометрия: ритм и синтаксическая стагнация
На базовом уровне текст представляет собой линейную последовательность символов. В этой плоскости скука является функцией синтаксической гомогенности и лексической бедности.
Вариативность синтаксиса и габитуация
Человеческий мозг склонен к габитуации — снижению реакции на повторяющийся стимул. В контексте чтения жесткая фиксация синтаксического паттерна приводит к потере внимания. Исследования стилометрии показывают, что тексты с высокой вовлеченностью демонстрируют широкий диапазон вариации длины предложений (Sentence Length Variation, SLV).
Эффективность прозы коррелирует со стандартным отклонением длины предложения (обозначим как sigma_SL):
- Низкая вовлеченность (sigma_SL < 3 слов): Текст ритмически монотонен, напоминает стук метронома или примитивные конструкции букваря.
- Высокая вовлеченность (sigma_SL > 5–8 слов): Динамическое чередование коротких (стаккато), средних и длинных (легато) периодов управляет скоростью чтения и дыханием читателя.
Индекс «водности» и лексическая вязкость
Критическим параметром является соотношение информативного сигнала и шума. Высокий показатель «водности» (более 60% стоп-слов, клише, вводных конструкций) снижает отношение сигнал/шум. Когнитивно это интерпретируется как «авторская лень»: работа по компрессии смысла перекладывается на читателя.
Отдельного внимания заслуживает частеречный анализ (POS-tagging). Исследование тысяч бестселлеров в рамках проекта The Bestseller Code выявило статистическую зависимость: успешные тексты опираются на активные глаголы, минимизируя использование наречий и прилагательных. Высокое соотношение «Прилагательное / Глагол» создает «вязкость описания»: мир детализируется, но состояние системы не меняется.

3. Трёхмерная скукометрия: семантическая плотность и динамика
На данном уровне анализируется не форма слов, а объем и движение смыслов в когнитивном пространстве.
Семантическая плотность и конкретность
Семантическая плотность (SD) отражает количество уникальных концептов на единицу текста. Скука часто коррелирует с низкой плотностью при большом объеме (verbose/low-density) — феномен искусственного растягивания мысли.
Важнейшим параметром вовлеченности является Рейтинг Конкретности. Психолингвистические данные указывают на корреляцию (r = 0.8) между использованием конкретной лексики (слова, вызывающие сенсорные образы: «кровь», «бархат», «скрип») и субъективным интересом. Абстрактная лексика («ситуация», «фактор», «сущность») когнитивно «скользкая» и не создает устойчивых визуальных якорей (Dual Coding Theory).
Эмоциональная волатильность
Современный сентимент-анализ подтверждает гипотезу Курта Воннегута о том, что истории имеют геометрическую форму. Предиктором удержания внимания служит Эмоциональная Волатильность (Sentiment Volatility).
- Высокая волатильность: Смена полярности (надежда <-> отчаяние) создает когнитивное напряжение и стимулирует выброс дофамина.
- Флэтлайн (Flatline): Отсутствие изменений в эмоциональном фоне героя ведет к стагнации внимания.
Нарративное зависание
Темп текста измеряется через плотность событий. Если на протяжении значительного отрезка (например, 5000 слов) вектор состояния мира (локации, знания, отношения героев) не меняется, фиксируется «Нарративное Зависание» (Narrative Stalling).

4. N-мерная скукометрия: латентные пространства и топология
Наиболее глубокий уровень анализа предполагает отображение текста в многомерное векторное пространство (например, 768 измерений в моделях BERT/Transformer). Здесь текст предстает не как цепочка символов, а как сложная геометрическая структура.
Векторная гомогенность и смысловая тавтология
При векторизации предложений можно измерить дисперсию смысловых кластеров. Скучный текст в N-мерном пространстве характеризуется высокой гомогенностью. При визуализации через метод главных компонент (PCA) он выглядит как плотное, неподвижное облако точек.
Это означает смысловую тавтологию: автор использует разные слова (лексическое разнообразие может быть высоким), но векторный смысл предложений остается неизменным. Сюжет «топчется на месте», не покидая одного семантического кластера.
Траектория случайного блуждания
Увлекательный текст в N-мерном пространстве представляет собой направленную траекторию (Random Walk with Drift). Вектор повествования должен постоянно смещаться, соединяя различные семантические области (например, переход от кластера «бытовой диалог» к кластеру «физическая угроза»).
- Разрывность (Incoherence): Слишком резкие скачки между далекими кластерами (большое косинусное расстояние) воспринимаются как бред или «словесный салат».
- Оптимальный поток: Плавная эволюция вектора, обеспечивающая «структурную ясность» при постоянном притоке новой семантической информации.

5. Расчёт порога толерантности к авторскому произволу
Взаимодействие «Автор — Читатель» описывается экономической моделью «Батарейки Доверия» (Trust Battery). Доверие — это исчерпаемый ресурс, расходуемый на поддержание «подавления недоверия» (suspension of disbelief).
Динамика ресурса
Порог толерантности (T_tol) — это точка, в которой заряд батарейки падает до нуля, что провоцирует отказ от чтения (Abandonment Point).
- Начальный капитал (T_0): Зависит от репутации автора (нарративного капитала) и жанровых ожиданий.
- События зарядки (+Delta T): Эстетическое удовольствие, разрешение загадок, остроумные диалоги.
- События разрядки (-Delta T): Скука (энтропия), нарушение логики, клише.
Квантификация нарушений
Идиотский сюжет (Idiot Plot): Ситуация, где конфликт поддерживается исключительно иррациональным поведением агентов. В N-мерном анализе это детектируется как «логическая галлюцинация»: вероятность действия персонажа P(Action | Traits) статистически ничтожна. Типичный маркер — троп «Недопонимание» (Miscommunication).
Deus Ex Machina: Разрешение конфликта без каузальной подготовки. Каждое такое событие наносит критический урон батарейке доверия, обесценивая предыдущие эмоциональные инвестиции читателя.
Формула порога толерантности может быть представлена как:

Статистика платформ показывает, что зона массового отказа находится в первых 10–15% текста.

6. Практическая реализация: архитектура «Скукометра 1.0»
Для проверки теоретических выкладок был разработан программный прототип «Скукометр 1.0». Алгоритм объединяет классический морфологический анализ и нейросетевые технологии для построения единого графа читательского доверия. Ниже приведена логика работы системы.
Технический стек и токенизация (2D)
На базовом уровне система использует библиотеки Pymorphy3 и Razdel для сегментации текста и лемматизации.
- Расчет ритма: Вычисляется стандартное отклонение длины предложений в скользящем окне. Значение sigma < 3.0 маркирует зону монотонности.
- Индекс динамики: Рассчитывается соотношение прилагательных к глаголам. Превышение порога 1.5 маркируется как «вязкое описание».
Семантический и векторный анализ (3D и ND)
Для оценки смысла используются эмбеддинги (Gemini Embedding API) и векторная база данных Qdrant.
- Сентимент-анализ: Каждому предложению присваивается валентность от -1.0 до 1.0. Данные сглаживаются фильтром Савицкого-Голая для построения эмоциональных дуг.
- Векторная гомогенность: Алгоритм измеряет косинусное расстояние между векторами соседних фрагментов. Если дисперсия векторов внутри окна стремится к нулю, регистрируется «сюжетное топтание на месте».
Алгоритм расчета Батарейки Доверия
График строится по кумулятивной модели со следующими параметрами (из конфигурации AnalysisConfig):
- Естественное угасание (Decay Rate): -0.2 балла за каждый шаг (симуляция усталости).
- Бонусы: +1.5 балла за высокую вариативность ритма (sigma > 5); +2.0 балла за высокую семантическую плотность (> 0.35).
- Штрафы: -2.5 балла за высокую водность (> 55%); -3.0 балла за векторную стагнацию.
- Логический контроль: Параллельно текст обрабатывается LLM с промптом «литературный критик» для выявления логических дыр (Plot Holes).
Результатом является график с тремя зонами: «Зона вовлечения» (зеленая), «Зона риска» (желтая) и «Зона отказа» (T < 30, красная), позволяющий точно определить страницу, на которой читатель прекратит чтение.

7. Заключение: экономика внимания
Расчет порога толерантности — это экономический расчет возврата инвестиций (ROI). Читатель инвестирует время и когнитивное усилие в обмен на нарративный транспорт и эмоциональный катарсис.
С точки зрения нейрофизиологии, «скука» и «раздражение произволом» — это факторы, прерывающие состояние потока (Flow State) и активирующие сеть пассивного режима работы мозга (DMN). Предложенные методы — от анализа sigma_SL до векторизации сюжетных дыр — позволяют перевести жалобы на «плохой текст» из области вкусовщины в строгую, диагностическую науку о качестве информации.
Источник: https://gist.github.com/SDSmirnov/a6f1d6a574a612981570fb578228fcc1
Скрипт: https://gist.github.com/SDSmirnov/2e4ab6f205f355e61bce5549d0e1fc29