Каждый день заражено одинаковое количество людей — так не бывает. Что происходит со статистикой по ковиду?
— Татьяна Голикова озвучила сенсационные данные: за время эпидемии скончалось 70 921 человек, у которых в графе «причина смерти» был записан ковид. Раньше называли цифру 56 430. И еще 45 109 умерли от других причин, но при этом болели ковидом. Почему вдруг такая откровенность?
— Обычно мы оперируем данными не по умершим, а по заболевшим, которые даются в сводках оперштаба. Это база Роспотребнадзора, где поголовно учитывают всех, с полными ФИО и прочими данными. Однако в разных регионах в эту базу попадают по-разному. В Москве для этого достаточно сдать положительный ПЦР-тест в государственной или в частной лаборатории.
Но бывает и по-другому. В самом начале эпидемии, в апреле-мае, положительный тест требовалось перепроверить. Лаборатории Роспотребнадзора, которые перепроверяли тесты, должны были находиться в каждом регионе, а если их не было, то образец пересылался к соседям. Результаты пересматривались, терялись, неправильно хранились, поэтому в базе Роспотребнадзора огромная недостача.
Но у Минздрава, у Голиковой, — другая система учета, где ПЦР-тесты не так важны. Главное — люди, действительно обратившиеся к врачам с жалобами и попавшие во внутреннюю базу данных по клиническим проявлениям — например, по КТ с характерным поражением легких. Эти цифры периодически озвучиваются на публику представителями Минздрава или другими официальными лицами, но не полностью, не регулярно и не все.
Конечно, эти данные тоже не полны. Но все же эти цифры более показательны, чем у Роспотребнадзора, и они произвели впечатление.
— Разве Роспотребнадзор не располагает данными по смерти от ковида?
— Статистика по смертности у Роспотребнадзора тоже есть, но они учитывают только тех, кто фигурировал в базе с положительным тестом и умер от ковида, согласно заключению врача. Это опять же очень узкое множество.
Но самая достоверная оценка числа жертв эпидемии — это избыточная смертность, которая считается статистическими методами, исходя из общей смертности от всех причин, как показывает и наш, и международный опыт.
— Когда смотрят, сколько за этот же период умерло в прошлом году, и сравнивают?
— Условно, да. Надо сравнить текущее число умерших с тем, которое было бы без эпидемии.
Но как считать вот это «было бы»? Можно взять прошлогоднюю статистику, но это грубо. Можно взять среднюю за 5 лет, проследить, как менялась смертность из года в год, и продлить эту динамику на 2020 год. И показать, что, если бы не пандемия, у нас было бы так.
Расхождение между реальной и гипотетической смертностью дало бы, возможно, результат еще более точный, чем у Минздрава.
— В данных Голиковой, обнародованных 30 декабря, уже был учтен декабрь? Ведь даже оперативные данные поступают с лагом в месяц-два.
— Конечно, нужно время на сбор данных, на экспертизу. Мне кажется, декабрь был включен только в качестве прогнозных значений. Исходя из того, как эпидемия развивается, мы можем примерно сказать, насколько декабрь будет отличаться от ноября. Эти предварительные данные тоже можно оценить.
«Реальные процессы так себя не ведут»
— Сейчас огромная мода на цифры и статистические графики. Что делать человеку, который их не понимает?
— Современный человек должен разбираться в графиках, для этого не требуется никаких особых навыков за пределами 6-го класса средней школы. Не надо их пугаться, надо просто посмотреть и подумать немножко. Это гораздо проще, чем может показаться напуганному обывателю. А какой именно график вас так обескуражил?
— Для меня любой график похож на клубок перепутанных разноцветных ниток. Но был один, который поняла даже я, — это график «с рыбками». Он отражал официальные данные регионов по заболеваемости, и даже неподготовленному человеку было понятно, что такой картинки, напоминающей треугольных рыбок с хвостиками, быть не может. Вы с самого начала поняли, что чиновники озвучивают липовые цифры?
— Идею мне подал мой бывший студент, Дмитрий Кофанов — он, кстати, сейчас защищает PhD по сравнительной политологии в университете Висконсина, такими учениками мы гордимся. Он прислал мне данные по своей родной Курской области и сказал: «Татьяна, мне кажется, здесь что-то странное».
И тогда я решила посмотреть, как соотносятся между собой смерти от ковида, зарегистрированные по любым двум категориям — например, сколько умирает мужчин и сколько женщин, или сколько умирает в столице региона, а сколько в остальной области.
Я сравнила столицу с областью, и стало ясно, что чиновники сглаживают ежедневную информацию так, чтобы один день не сильно отличался от другого. Но не бывает, чтобы каждый день заражалось примерно одинаковое количество людей.
— Зачем они так врут?
— Одно из объяснений: занесение этих смертей в базу Роспотребнадзора — настолько трудоемкая бюрократическая процедура, что, возможно, сотрудники просто не успевают обработать за один день все новые записи, они копятся.
Вот перед вами две стопки больничных карточек — одна из села, другая — из столицы региона. Берем из одной стопки сколько успеваем за рабочий день, условные 70 штук сверху, записываем. На следующий день — 70 из другой, записываем. Постепенно необработанные дела нарастают. Если вдруг смертность падает, а вместе с ней — аврал, то начинаем разгребать накопившиеся папки.
В результате получаются усредненные данные: сегодня столько-то людей умерло в области, завтра столько же — в столице, послезавтра опять в области, и так неделя за неделей. Общее количество смертей по центру и периферии одинаковое, это видно на графике, и это очень подозрительно, потому что реальные процессы так себя не ведут.
— Чисто человеческий фактор, никакого злого умысла?
— Возможно, есть и намеренное искажение. Но наша цель не поймать за руку обманщика, а проинтерпретировать информацию, чтобы понять, стоит ли на нее опираться, принимая решения. И ясно, что нет, не стоит.
При желании можно было бы увеличить мощности обработки информации, но, видимо, Роспотребнадзор не считал нужным это делать. И даже наоборот, хотел пригасить на графиках скорость распространения инфекции, чтобы избежать жестких ограничительных мер. Но я хочу подчеркнуть, что все это не более чем версии.
Шумные данные
— Как выглядит график, демонстрирующий фальшивые показатели? На что обращать внимание?
— Например, вы видите, что экспонента круто шла вверх, но вдруг остановилась, и началось этакое ровное «горное плато». Так не бывает в настоящую эпидемию: люди не перестают заражаться в одночасье, это неестественно. Должен быть рост, потом бугор, потом постепенный, неровный, растянутый во времени спад.
Эпидемиологическая кривая выглядит как колокол, но никогда она не выглядит как гладкое плато.
— А также кривая не может быть похожа на пилу с аккуратными зубчиками?
— Не может. Если видите маленькую дисперсию значений — это вранье, потому что реальные данные — любые — обычно очень шумные. Они никогда не выглядят идеально, всегда имеют большой разброс.
Кроме того, в реальности обычно присутствует некоторая цикличность. Например, в субботу и воскресенье меньше обращений в поликлиники, поэтому в понедельник у нас провал в данных. Вторник — всплеск госпитализаций, потому что начинают укладывать в больницу всех, кто терпел в выходные, а в понедельник пошел к врачу.
Всегда есть какая-то недельная сезонность, отзвуки выходных и праздников. Все это реальные процессы в жизни людей, которые влияют на процесс эпидемии, и в графике мы должны это видеть. Если не видим, возникает вопрос.
Статистика первой и второй свежести
— Может ли быть две статистики: одна закрытая, другая — публичная?
— В Советском Союзе нельзя было получить нормальных данных о многих вещах — о производстве каких-то товаров, об общем ВВП. Это все считалось по каким-то странным методикам, которые искажали реальность. Реальные цифры были либо засекречены, либо вообще никому не известны.
Мы все знаем про перепись 1937 и 1939 годов, которая показала чудовищные масштабы убыли населения от голода. Ее закрыли, а потом стали переписывать данные, но даже сейчас по определенным регионам следы этих приписок неплохо видны.
Точно так же, чтобы сгладить статистику, заключенных ГУЛАГа «раскидывали» по разным городам. Специалисты сегодня с этим работают, и концы иногда можно найти.
— Есть ли четкие алгоритмы раскрытия статистического вранья?
— Алгоритмов нет. Все зависит от первичных данных, от природы процессов, порождающих искаженные данные, и каждый раз надо разбираться заново. Это ужасно интересно.
Есть замечательная, популярная книга «Фрикономика». Стивен Левитт и Стивен Дабнер описывают, как с помощью несложных статистических методов удается обнаруживать манипуляции с первичными данными и приходить к интересным, неочевидным результатам. В частности, приведен такой кейс.
Учителям давали премию, когда их ученики хорошо сдавали школьные тесты. И вот группа учителей начала брать заполненные бланки и исправлять ответы. Как это выявили? В экзаменационных заданиях всегда есть сложные вопросы, на которые правильно отвечает небольшой и примерно одинаковый процент детей. В сильных школах он выше, в слабых ниже. И тут эти зависимости статистически перестали просматриваться. Подняли бланки, а там — ластиком затерто.
Цифры не обманывают. Обманывают люди
— Почему в начале пандемии информация по количеству заражений — по крайней мере, в Москве, — была своевременной и достоверной, а потом ею стали манипулировать?
— Действительно, было ощущение, что в первые месяцы информацию никто не искажал. Наоборот, широкое и честное оповещение людей о ходе эпидемии вполне приветствовалось. А потом, наверное, вмешались какие-то политические, экономические соображения, и наши официальные органы поменяли стратегию.
— Казалось бы, цифры — это что-то по определению беспристрастное и объективное. Но именно они оказались идеологически заряженными, их приходится редактировать, как в том анекдоте: «дважды два четыре, ну максимум пять». Такое бывало на вашей памяти?
— Знаете это высказывание, которое приписывают Марку Твену? «Есть ложь, есть наглая ложь, и есть статистика». Я очень не люблю эту поговорку. Почему?
Разумеется, можно использовать термины из статистики и даже какие-то статистические методы, чтобы подкрепить свои аргументы в политическом споре. В избирательной кампании в США всегда звучит один и тот же аргумент насчет налогообложения. Республиканцы говорят: «Давайте снизим налоги, потому что богатые люди платят основную массу налогов, 90%». Демократы говорят: «Давайте поднимем налоги, потому что богатые люди отдают не такую большую часть своего дохода, как бедные». Дело не в том, что одни врут с помощью статистики, а другие говорят правду, а в том, что обе стороны избирательно озвучивают аргументы и пытаются манипулировать общественным мнением. Но статистика в этом не виновата.
Поэтому я как преподаватель считаю своим священным долгом образовывать людей, чтобы ими не могли манипулировать. Если у меня и может быть какая-то миссия в жизни, то я бы выбрала эту.
Потому что на самом деле цифры не врут. Врут чиновники. Они врут, а мы считаем.
Возможно, в министерствах и ведомствах просто не хватает специалистов, или они заняты другим, но в России полно людей, которые могут и хотят добросовестно работать с данными. Почему бы их не привлечь к сотрудничеству? Однако я и мои товарищи по цеху занимаемся этим на волонтерских началах, нам интересно. Такое вот хобби.
— Кажется, это хобби стоило вам работы в РАНХиГС, а ваш коллега Алексей Ракша вынужден был уволиться из Росстата.
— Я ушла из РАНХиГС не потому, что сделала какие-то страшные разоблачения. Более того, люди, принимающие решения, даже просили меня делать презентации и рассказывать об этих результатах. Я консультировала, отвечала на вопросы. Так что сами по себе мои исследования не являются грехом ни с точки зрения руководства РАНХиГС, ни с точки зрения правительства.
Проблемы начались, когда меня начали цитировать зарубежные СМИ в статьях, тон которых для представителей российской власти был не очень комплиментарен. И тогда меня попросили давать интервью не иначе, чем через пресс-службу.
— «Правмир» обращался весной в пресс-службу РАНХиГС, но нам отказали.
— Знаете, каждый выполняет свой долг. Руководство РАНХиГС управляет большой организацией и заботится о благе работающих там многочисленных сотрудников. А я выполняю свой долг ученого, делаю исследования и рассказываю об этом публике.
Есть мнение, что можно работать честно, но при этом не обнародовать результаты, а писать докладные записки «наверх». Многие так делают, это их право. Но я считаю, что без открытости нельзя, научная деятельность подразумевает свободу слова. Если она по тем или иным причинам ограничивается организацией, то значит, мы с этой организацией разошлись в понятиях и надо увольняться. Все логично.
— Чем планируете заняться? Времени теперь много.
— У меня было много проектов по госзаданиям, которые имеют жесткий дедлайн. Теперь есть возможность хорошо осмыслить полученные результаты и написать что-то вдумчивое.
Есть планы по академическим научным статьям, до которых не доходили руки. Я давно собиралась сделать исследование по ГУЛАГу и теперь имею возможность засесть в архивах. Возможно, я еще прочитаю курс как почасовик, но не в РАНХиГС, а Российской экономической школе. Так что времени все равно не хватает.