Немного о числах лингвистики, или Спасибо пиратам за это
Автор: Яна ТихоходоваДа, я буду говорить о ЧиДЛе и на примере ЧиДЛа, но нет, это не самопиар, зачехлите свои минусомёты
С самого начала было ясно, что боты растащат открытый всем ветрам ЧиДЛ по сайтам — я была к этому готова, тревожит меня сей факт не сильно. Случилось, однако, неожиданно прекрасное — спасибо пиратам, люблю, когда интересующее меня делают за меня.
«Лингвистический анализ» ЧиДЛа, а точнее — автоматический подсчёт всего, что можно автоматически подсчитать: https://coollib.net/b/478519/la
Филология — наука, возможно, не самая точная, но вот в лингвистике жёсткого (и даже жестокого) матана хватает, если вдруг кто не знал.
К этому подсчёту у меня есть некоторые вопросы: например, почему указано, что многоточий на весь текст три, когда их там тридцать три тысячи и триста тридцать три. Возможно, оно копировалось не как один знак, а как три точки — или что, или как, я не знаю
Также не очень ясно, почему «доля диалогов в тексте» оценена как «немного ниже среднего» при среднем 26% и доле 14.33% — на мой взгляд, это не немного, и да, есть у ЧиДЛа такое свойство: авторский текст значительно преобладает.
Главный вопрос-то в чём? Можно ли из этих чисел вытащить что-то об ах таком загадочном «индивидуальном авторском стиле» — и могу сразу сказать, что нас с этой позиции не интересует никак вообще: частота использования букв.
Пусть профессионалы поправят меня, если я ошибаюсь, но насколько мне известно, она примерно одинакова у всех: разрывающие и небо, и Аллаха столбы «о», «е», «а» и «и» с чуть-чуть различающимся разбросом остального.
Ибо такова божья задумка частотность русского языка. Я не знаю, как нужно выпендриться, чтобы сломать конкретно эту систему и зачем — это свойство языка, а не стиля, разброс букв у нас общий на всех: вас вряд ли это интересовало, я не знаю, зачем вам эта информация, но вот вам она
А вот две последние таблицы определённый интерес представляют: принципиально они также схожи, но в деталях кроется дьявол — да; например, четверть моих (длиной, кстати, «выше среднего») предложений начинаются с союза, и это много.
Для сравнения: «Преступление и наказание» — https://coollib.net/b/175239/la; «Мастер и Маргарита» — https://coollib.net/b/175912/la, существительные в начале предложения союзы обгоняют, как и в «Войне и мире» https://coollib.net/b/102446/la.
(Кстати, как обычно, любопытен стилист-Набоков с активным словарным запасом «намного выше среднего»: https://coollib.net/b/150782/la).
Связки слов и позиции в предложении складываются в часть того, что ощущается «сугубо авторским» — разумеется, лишь часть, о если бы обсчёт авторского стиля можно было автоматизировать. Нет, эти числа не дают ясных ответов, но позалипать в них достаточно интересно.
Спасибо пиратам — пойду поем :)