Как правильно обманывать людей с помощью статистики
Автор: Вадим СкумбриевUPD: в этом посте упоминается коронавирус! В самом конце и просто как пример. Ну вы поняли.
Статистика - крайне интересная вещь. Она позволяет выдавать абсолютно верные факты и при этом врать в глаза. Этакая информация Шрёдингера. Полуправда хуже лжи - это все знают, и именно на этом построено враньё с помощью статистики. Ошибка выжившего, нерепрезентативная выборка, некорректный сбор данных - лучшие друзья любого политика.
Но если я скажу, что врать можно даже с помощью вполне себе верных данных?
Можно, да. Так уж вышло, что наш мозг думает образами. Он не приспособлен к абстрактному мышлению, для этого приходится совершать над собой усилия и развиваться, учась преобразовывать абстрактные понятия в образы. Например, цифры в яблоки: одно яблоко плюс ещё одно будет два яблока. Таким образом можно даже дифференциальное исчисление постичь, я гарантирую это. К слову, именно этот принцип лежит в основе одного из фантдопов в "Метаморфозах сознания" (вы же не думали, что я оставлю этот пост без самопиара, да?).
Этот же принцип также является причиной, почему таблицы данных часто переводят в графики. Таблицы годятся, если надо передать информацию коллеге-инженеру - ему нужны цифры, а не картинка. А вот если надо показать её большим боссам, то цифры их не интересуют, их интересует общая картина. И конвертация массива данных в графику - один из лучших способов эту картину нарисовать.
Соответственно, и в инфографике на цифры мало кто смотрит. Куда важнее картинки и текст или речь автора. Вот тут-то и кроется подлость.
Вот очень простой пример. Я запустил Excel и состряпал такой график:
Зоны равны между собой. Но вот я делаю эту круговую диаграмму в Полном Три Дэ, и вуаля!
Перспектива искажает изображение, и теперь области НЕ равны визуально, хотя цифры остались прежними. Серая и синие области кажутся меньше, чем жёлтая и оранжевая. И если мне потребуется сказать, например, что из толпы опрошенных всего 25% предпочитают шаурму всему остальному фаст-фуду, я покажу это так:
А вот если аж 25% - как это много! - то вот так:
Ничего не изменилось, только тональность. И картинка следует ей.
Конечно, это самый простой пример. В реальности всё куда веселей. Вот, например, диаграмма, показывающая распределение голосов по областям США во время выборов 2008:
Красный - это Маккейн, а вовсе не Обама, как вы могли бы подумать. Почему же тогда победил последний? Потому что если сделать ту же диаграмму, но с учётом плотности населения, картина резко изменится:
Первая диаграмма отображала бы реальную картину, если бы за президентов голосовали квадратные метры земли. Но голосуют люди, и в условиях, когда в относительно крохотном по площади Нью-Йорке сосредоточено почти 3% населения страны, это серьёзно. Но при этом данные совершенно правдивы!
Просто люди не умеют понимать цифры. На это и расчёт.
И вот гвоздь программы - график заболеваемости коронавирусом в России:
Предположим, цифры на графике верны. Но где шкалы измерения? Они отсутствуют, и отсутствуют не просто так. Ведь если всё-таки нарисовать их, выяснится очень интересная вещь. Вот такая:
Цифры на графике, возможно, и верны. Только люди на цифры не смотрят. Они предпочитают картинки, а картинки врут. Все врут.
Ах да, надо паниковать, закупаться гречкой и туалетной бумагой, ну вы поняли.