Самая просматриваемая/пролайканная/откомменченная на АТ книга

Автор: Sango

...или немного статистического программирования с использованием python...



Вообще задачу можно было решить с помощью голых запросов (через requests) и парсинг html (чем-то вроде lxml или bs4). Но так уж вышло, что в рамках моей профессиональной IT-деятельности мне куда как ближе selenium. Поэтому данную задачу решил с помощью данного инструмента.


Основная аксиома задачи: нужные книги находятся у авторов из топ-150. Задел взял явно с запасом, но поскольку процесс автоамтизируется, то лучше прогнать побольше данных нежели иметь шанс упустить искомый результат


Шаг первый: получить список авторов из топ-150 (точнее ссылки на их профили). Это три первые страницы абсолютного рейтинга.

Шаг второй: у каждого автора пройтись по списку его книг по ссылке вида https://author.today/u/<идентификатор автоа>/works?page=<номер страницы>. Данная страница содержит в своем html-коде такую инфу как количество просмотров, лайков, и комментариев для книг.

Шаг третий: для упрощения алгоритма я просто работал по принципу: если найдено число больше чем предыдущий рекордсмен - оно становится новым рекордсменом. Такой алгоритм не позволяет создать условный топ из нескольких произведений (даже не скажет кто на втором и третьем местах), а позволяет выделить только одну книгу с максимальным значением того или иного параметра. Собственно что и ставил себе в задачу.


Написание-тестирование скрипта заняло полчаса. И минут по 10-15 заняли прогоны с целью определить самых...


1. Самая отлайканная книга (по количеству лайков) - "Кодекс Охотника"

2. Самая просматриваемая книга (по количеству просмотров) - "Сердце Дракона"

3. Самая комментируемая книга (по количеству комментариев) - "Косплей Сергея Юркина. Чужой."




Если с лайками и с просмотрами результаты были вполне ожидаемыми (авторы из ТОП-10), то по количеству комментариев немного нетипично, в том плане что рекорд взяла далеко не первая в своем цикле книга. И вообще прямо интересно даже, что вызвало такой шквал комментариев (почти 200 тысяч!!!)...

Также не стал пока искать самую отрецензированную книгу, так как здесь рекордсмены почти однозначно не среди топов и топовых книг. Поищу в следующий раз.


Допускаю что результаты могут быть некорректными. Была, точнее даже есть мысль сделать анализ более правильным: сперва собрать список всех книг (от выборки из 150 авторов), затем по каждой книге собрать статистику, и уже после провести сортировку. Так будет точнее, так можно и топ-3, и топ-10, и и топ-хоть-сколько сделать. Но пока ограничился таким быстрым результатом. Улучшенную статистику сделаю потом. Когда-нибудь. Однажды. Может быть...


Допускаю также что может быть косяк по комментариям, для случаев когда автор закрыл комментирование книги. Точнее не косяк, а отсутствие актуальной информации на данный момент. Но тут уж ничего не поделать...


Ни и конечно уверен многие задаются вопросом...



...а я отвечу...



...просто решил пофаниться и немного попрограммировать "для себя". Ибо почему бы и нет?



И нет, это не проплаченная и не халявная реклама упомянутых книг! Простые числовые факты, ничего более!


+422
1 327

0 комментариев, по

85K 6 053 2 498
Наверх Вниз