Практикующие врачи - понимание основ статистического анализа необходимо для критического анализа информации (клинических рекомендаций, статей, докладов, рекламных материалов и пр.) о результатах медицинских исследований, прежде всего - о медицинских вмешательствах (лечебных, профилактических, диагностических, скрининговых).
Врачи-исследователи: та же необходимость, что и у практических врачей + для правильного проведения исследований и подготовки публикаций.
«Когда-то мне казалось, что медицинские журналы приходят к нам из идеального мира. В этом мире, недоступном простым смертным, авторы публикаций в совершенстве владеют статистическими методами, а строгие редакторы ни за что не пропустят работу со статистическими ошибками. Однако очень скоро я понял, как легко опубликовать ошибочную и просто бессмысленную статью, как невысок барьер на пути несостоятельной работы к читателю. Авторы и редакторы медицинских журналов живут в том же мире, что и мы и имеют о статистике примерно такое же представление, что и остальные его обитатели. В этом суровом мире существует, помимо прочего, такая неприятная вещь, как ограничение финансирования».
Стентон А. Гланц, 1998 г.
У 5 добровольцев измерили суточный диурез после приема разных доз препарата (предлагаемого диуретика). Зависимость диуреза от дозы представлена на рис. А: чем больше доза - тем больше диурез. Надёжен ли такой вывод?
Предположим, что если бы была исследована связь дозы и диуреза у всех людей, то зависимость бы не обнаружилась (Рис. B).
Пять человек, вошедших в первоначальное исследование, помечены зеленым. В данном случае мнимая зависимость порождена случайностью. С помощью статистических методов можно оценить вероятность подобной ошибки.
Доказательная медицина (англ. Evidence-based medicine - медицина, основанная на доказательствах) - подход к медицинской практике, при котором решения о применении профилактических, диагностических и лечебных мероприятий принимаются исходя из имеющихся доказательств их эффективности и безопасности. Такие доказательства подвергаются поиску, сравнению, обобщению и широкому распространению для использования в интересах пациентов (Evidence Based Medicine Working Group, 1993).
1. Каждое клиническое решение врача должно базироваться на научных фактах (врачебная практика).
2. «Вес» каждого факта тем больше, чем строже методология исследования, в ходе которого факт получен (научные исследования).
Данные - зарегистрированная информация; представление фактов, понятий или инструкций в форме, приемлемой для общения, интерпретации, или обработки человеком или с помощью автоматических средств (определение международного стандарта ISO/IEC/IEEE 24765:2010).
Биомедицинскими данными можно считать всю зарегистрированную соответствующим образом информацию о пациенте, которая может быть важна при проведении исследования и интерпретации его результатов. Можно выделить следующие группы биомедицинских данных:
Количественные данные или количественные параметры, количественные признаки, - это данные, выражаемые числами, с которыми можно производить арифметические действия.
Количественные данные могу измеряться в непрерывной или дискретной шкале.
Например, температуру тела можно изменять с любой точностью (непрерывная шкала) или, как это делается на практике, с шагом в 0,1 градуса, т.е. используя дискретную шкалу с шагом в 0,1 градус -фиксированный набор возможных значений с заданным расстоянием между ними.
Есть варианты строго дискретных параметров - для таких непрерывная шкала не имеет смысла. Например, число лейкоцитов в поле зрения при общем анализе мочи, или число пациентов с интересующим исследователя состояние может быть только целым.
Чаще всего на практике используются дискретные количественные данные, т.к. изменение непрерывного параметра происходит с некоторым шагом или некоторой точностью.
Качественные данные, или качественные параметры, качественные признаки, - это данные, выражающие наличие определённого качества или отношение к определённой группе объектов. С качественными признаками невозможно производить арифметические действия. Качественные данные также забывают категориальными.
Качественные данные могут быть:
Среди номинативных данных часто выделяют бинарные: качественные параметры с двумя вариантами значений. Например, пол мужской или женский, наличие или отсутствие некоторой патологии.
При необходимости из количественных данных всегда можно получить качественные, разбив количественную шкалу на интервалы и поименовав их.
Возрастная периодизация (классификация ВОЗ) | |
---|---|
Возраст (количественная шкала) |
Возрастной период (качественная порядковая шкала) |
18-44 лет | Молодость |
44-60 лет | Средний возраст |
60-75 лет | Пожилой человек |
75-90 лет | Старческий период |
90+ лет | Долгожитель |
120+ лет | Почетный старпер |
150+ лет | Путин переизбирается на 20-й срок |
Перевод между типами данных возможен в следующей последовательности:
Количественные непрерывные
⇓
Количественные дискретные
⇓
Качественные порядковые
⇓
Качественные номинальные
⇓
Качественные бинарные
Понятие выборки и генеральной совокупности
Изучаемая популяция объектов исследования называется генеральной совокупностью.
Для изучения закономерностей, характеризующих генеральную совокупность, производят выборку из генеральной совокупности, предполагая, что при достаточной численности её представителей (объёме выборки) статистические характеристики выборки будут относиться и ко всей генеральной совокупности.
Независимыми выборки называются в том случае, если попадания одного объекта (пациента) в одну их них никак не связано в попаданием других объектов (пациентов) в другие выборки данного исследования. Например: исследования различий значений некоторого параметра у мужчин и женщин.
Зависимыми (связанными) выборки называются в том случае, если попадания одного объекта (пациента) в одну их них однозначно определяет объект для второй и последующих выборок.
Например: исследования различий значений некоторого параметра у пациентов до и после лечения, исследования пар близнецов, исследования влияние параметров матери на значения параметров их детей.
Объем выборки - это число случаев, включенных в выборочную совокупность (количественная характеристика выборки).
Репрезентативность (фр. representation представление) - это соответствие характеристик выборки характеристикам генеральной совокупности.
Типы научно-медицинского исследования по протяжённости:
Поперечное исследование - обследование каждого пациента производится однократно.
Продольное исследование - проводится при условии выделения определенной группы пациентов, среди которых будет проводиться систематическое повторное наблюдение за течением болезни.
Типы научно-медицинского исследования по моменту начала сбора данных:
Проспективное - группа больных специально формируется и затем целенаправленно периодически наблюдается.
Ретроспективное - исследование проводится путем анализа уже имеющихся в медицинской документации данных о больных.
Дизайн исследования:
Не слепое исследование - и исследователь, и участники групп знают, кто относится к тестовой группе, а кто - к контрольной.
Простое слепое исследование - исследователь знает, кто относится к тестовой группе, а кто - к контрольной, но этого не знают сами участники групп.
Двойное слепое исследование - о разбиении на группы не знают ни участники групп, ни исследователь, знает только внешний контролёр.
Потребность в статистическом анализе:
Знания по статистическому анализу необходимы на следующих этапах проведения медицинских исследований:
1. Планирование исследования:
Позволяет определить объем и количество выборок, минимизировать число вопросов в анкетных исследованиях и др.
2. Сбор данных:
Позволяет контролировать качество собираемых данных еще до окончания исследования.
3. Подготовка данных к анализу:
Позволяет обнаруживать ошибки в данных.
4. Собственно анализ данных.
5. Интерпретация результатов, формулировка выводов, подготовка публикаций.
Рекомендуется включение в команду исследователей специалиста по анализу медицинских данных!
Нормальное распределение, или распределение Гаусса - распределение вероятностей, которое в случае одной переменой задаётся функцией плотности вероятности, совпадающей с функцией Гаусса. Считается, что большинство биологических параметров имеет именно нормальное распределение.
Важные свойства нормального распределения
Нормальное распределение однозначное задаётся всего двумя величинами: μ - математическим ожиданием (средним значением) и σ - среднеквадратическим отклонением (или дисперсией - σ2). В интервале μ±σ лежит 68,26% всех значений признака, интервале μ±2σ - 95,44% всех значений признака, интервале μ±3σ - 99,72% всех значений признака.
Статистическая гипотеза и уровень значимости
Статистическая гипотеза - любое предположение, касающееся неизвестного распределения случайных величин.
Н0 - Нулевая гипотеза - гипотеза, подлежащая проверке. Обычно формулируется об отсутствии различий.
Н1 - Альтернативная гипотеза - каждая допустимая гипотеза, отличная от нулевой.
Уровень значимости (α) - пороговая величина Р - значения -допускаемая вероятность ошибки при отвержении гипотезы Н0. В медицине - как правило 0,05.
Статистический критерий
Статистический критерий - строгое математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза с известным уровнем значимости. Статистический критерий, который следует использовать в конкретном случае, определятся в зависимости от:
Принято выделять параметрические и непараметрические критерии.
Выбор статистического теста (критерия) для сравнения групп зависит от:
1. Типа анализируемого признака (бинарный, количественный, качественный).
2. Вида распределения (в случае анализа количественных признаков):
- для нормально распределенных признаков могут применяться параметрические тесты,
- для любых/неизвестных распределений - непараметрические тесты.
3. Сопряженности выборок:
- несвязанные (независимые) выборки (пример: группы независимых пациентов),
- связанные (зависимые) выборки (пример: данные повторных измерений).
4. Числа сопоставляемых групп:
- две группы,
- три и более группы.
Параметрические критерии используют параметры нормального распределения - среднее и стандартное отклонение и применимы и более предпочтительны только в тех случаях, когда есть основания предполагать, что исследуемые признаки подчиняются нормальному распределению.
Основные параметрические статистические тесты для сравнения групп по количественным признакам | ||
---|---|---|
Нормальные распределения признака в группах | Несвязанные группы | Связанные группы |
2 группы | Т-критерий Стьюдента для несвязанных групп | Т-критерий Стьюдента для связанных групп |
3 и более | Дисперсионный анализ (ANOVA) | - |
Непараметрические критерии не зависят от вида распределения. Часто это ранговые критерии, в которых вместо числовых значений признаков используются их ранги, определяющие номер каждого измерения в упорядоченном по возрастанию ряду всех измерений.
Основные непараметрические статистические тесты для сравнения групп по количественным признакам | ||
---|---|---|
Нормальные распределения признака в группах | Несвязанные группы | Связанные группы |
2 группы | U-Критерий Манна-Уитни | Критерий Уилкоксона (Вилкоксона) |
3 и более | Критерий Краскела-Уоллиса | Критерий Фридмана |