Поиск

ГЛАВНАЯ

ОБСУЖДЕНИЕ

СТАНДАРТЫ

СПРАВОЧНИК

СТАТЬИ

НМО

ПРАКТИКА

Классическая параметрическая статистика в медицинских исследованиях

1. Методы параметрического статистического анализа одновыборочных исследований в медицине

1.1. Описание количественных данных в параметрическом случае

Оценка вида распределения

Распределение количественных данных может соответствовать нормальному или отличаться от него. Для оценки соответствия нормальному распределению используют несколько подходов
1. Визуальная оценка - сравнение гистограммы данных с нормальной кривой.
2. Проверка статистических гипотез о типе распределения с помощью статистических критериев:
  • Колмогорова-Смирнова,
  • Шапиро-Уилка,
  • Лиллиефорса,
В случае малых групп (меньше 20-30 пациентов) оценку распределения не проводят и используют непараметрические методы.

Описание данных

Описать параметр - указать необходимый и достаточный набор числовых характеристик параметра (переменной) для данной выборки, позволяющий в необходимом объеме восстановить вид распределения описываемого параметра в данной выборке. Использование параметрических статистических процедур предполагает нормальное распределение количественных данных. В этом случае для описания достаточно указать:
М или μ - среднее значение параметра (М - в выборке, μ - в генеральной совокупности)
m - стандартную ошибку среднего;
S или σ - среднеквадратическое отклонение (СКО) (S-оцененное по выборке, σ - в генеральной совокупности).
Вместо СКО иногда используется σ2 - дисперсия.

Вычисление значений описательных параметрических статистик

M = ni=1xi) / n

М - среднее значение параметра в выборке, n - число пациентов в выборке, хi - значения параметра у конкретного i-того пациента.

S = Σni=1(xi - M)2 / (n - 1)

S (σ) - среднеквадратическое отклонение (СКО), n - число пациентов в выборке, хi - значения параметра у конкретного i-того пациента, М - среднее значение параметра.

m = S / n

m или s - стандартная ошибка среднего, S (σ) -среднеквадратическое отклонение (СКО), n - число пациентов в выборке.

Доверительный интервал среднего

Иногда для среднего значения указывают доверительные интервалы, ширина которых зависит от среднего значения, количества степеней свободы и доверительной вероятности.
Доверительный интервал - интервал, в который попадает истинное значение измеряемой величины с заданной вероятностью.
Доверительная вероятность - вероятность того, что истинное значение измеряемой величины попадает в данный доверительный интервал (100%*(1-α)).
При объёме выборок больше 20 в качестве 95%-ного доверительного интервала можно использовать интервал от М - 2m до М + 2m. При меньшем объёме выборки такой интервал окажется зауженным. В это случае границы интервала следует вычислять по формуле: М ± tv,αm , где tv,α- критическое значение для t для уровня значимости а и числа степеней свободы v = n - 1 (n — объем выборки).

Корректно указывать эти значения в виде М ± m, S или М ± m (S). Также желательно указать объем выборки (n). Использовать часто встречающуюся в медицинских статьях форму М ± S не следует.

В строгом математическом смысле M и μ, т.е. среднее выборочное значение параметра и его математическое ожидание, S и σ, т.е. выборочное СКО и СКО в генеральной совокупности, - разные понятия. Они соотносятся как оценка истинного значения и само истинное значение. При увеличении объема выборки значения оценок приближаются (говорят «стремятся») к истинным значениям.
При не строгом соблюдении понятий пишут М ± σ вместо М ± S. Кроме того, также встречаются следующие обозначения рассматриваемых величин:
m: SE, SEM, sx
М: X, X
S: СКО, SD, sd, SSD

1.2. Корреляционный анализ в параметрическом случае

Корреляционный анализ

Часто исследователя интересует характеристика тесноты (силы) связи между параметрами, при этом выраженная одним числом. Эта характеристика называется коэффициентом корреляции, обычно её обозначают буквой r.

Свойства коэффициента корреляции

Коэффициент корреляции может принимать значения от -1 до +1. Знак коэффициента корреляции показывает направление связи (прямая или обратная), а абсолютная величина - тесноту связи. Коэффициент, равный -1, определяет столь же жесткую связь, что и равный +1. В отсутствие связи коэффициент корреляции равен нулю. Коэффициент корреляции оценивает только линейную связь.

Коэффициент корреляции Пирсона

Если оба исследуемых количественных параметра имеют нормальное распределение, то для описания линейной связи можно использовать коэффициент корреляции Пирсона. Коэффициент корреляции Пирсона вычисляется по формуле:

Формула коэффициента Пирсона

Принято говорить о силе линейной связи параметров при определённых значениях модуля коэффициента корреляции Пирсона.
менее 0,25 - слабая связь
0,25-0,75 - умеренная связь
более 0,75 - сильная связь

Представление результатов корреляционного анализа

Результаты корреляционного анализа принято приводить с указанием значения коэффициента корреляции, числа наблюдений и уровнем р-значения, а также словесной оценки силы связи:
   • «Между параметрами А и Б обнаружена сильная корреляционная связь: r=0,89 (n=76, р=0,012).»
В данном случае, p-значение появляется при проверки нулевой гипотезы «r=0», т.е. об отсутствии корреляции, в противовес альтернативной «r≠0». Большинство программ для статистического анализы выводят эти данные по умолчанию.

Важное замечание о корреляционном анализе

Корреляция лишь статистическое явление, наличие корреляции не означает определённой связанности событий. Возможно:

2. Методы параметрического статистического анализа двувыборочных исследований в медицине

2.1. Сравнение двух независимых выборок в параметрическом случае

t-Критерий Стьюдента

Критерий был разработан Уильямом Госсетом и опубликован в статье журнала «Биометрика» в 1908 году под псевдонимом «Student» (Студент). Критерий Стьюдента чрезвычайно популярен, он используется более чем в половине медицинских публикаций. Однако следует помнить, что

Принцип использования t-критерия Стьюдента

Для определения статистической значимости различий средних величин с помощью t-критерия Стьюдента требуется рассчитать значения t-статистики:

t = (M1 - M2) /m12 - m22

А затем расчётное значение t сравнить с взятым из таблицы критическим значением tкp v,α для соответствующего выбранным уровня значимости α и числа степеней свободы v = N1 + N2 - 2 (N1, и N2 — объемы первой и второй выборок).

Если рассчитанное значение t-критерия Стьюдента равно или больше критического, найденного по таблице, делаем вывод о статистической значимости различий между сравниваемыми величинами. Если значение рассчитанного t-критерия Стьюдента меньше табличного, значит различия сравниваемых величин статистически не значимы.

Табличные значения t-статистики Стьюдента можно найти в справочниках и интернет-источниках. На практике сейчас крайне редко используется ручной расчет t-критерия, поскольку он реализован в тотальном большинстве статистических пакетов в виде, не требующем обращения к таблицам.

Представление результатов применения t-критерия Стьюдента

С помощью t-критерия Стьюдента исследователь отвечает на вопрос «Различаются ли статистически значимо средние значение исследуемого признака в двух группах». При этом, как правило, исследователя интересует, какое значение принимает параметр в каждой из групп. При расчете t-статистики исследователь опирается на средние значения, т.е. при использовании t-критерия описательная статистика для каждой группы формируется автоматически. При представлении результатов такого исследования принято указывать:

t-критерий Стьюдента для случая неравных дисперсий

В случае, если дисперсии в двух выборках не равны, исходную формулу расчёта t-статистики можно подправить:

Формула t-критерия Стьюдента для случая неравных дисперсий

2.2. Сравнение двух зависимых выборок в параметрическом случае

Парный t-критерий Стьюдента

Для зависимых выборок нормально распределённых данных можно использовать парный t-критерий Стьюдента. В этом случае t-статистика вычисляется по следующей формуле:

Двухвыборочный t-критерий для зависимых выборок

где Md - средняя арифметическая разностей показателей, измеренных в связанных выборках, σd - среднее квадратическое отклонение разностей показателей, N - число исследуемых. А затем расчётное значение t сравнить с взятым из таблицы критическим значением tкp v,α для соответствующего выбранным уровнем значимости α и числом степеней свободы v = N - 1.

Интерпретация и представление результатов применения t-критерия Стьюдента

Интерпретация:

Представление результатов:

3. Методы параметрического статистического анализа выборочных исследований в медицине с числом выборок более двух

3.1. Дисперсионный анализ или ANOVA

Дисперсионный анализ (ANOVA - Analysis of Variation) позволяет проверить статистическую значимость различия между средними в разных группах с помощью сравнения дисперсий этих групп. Принято говорить о зависимой (исследуемой) количественной переменной и независимой, или группирующей.
Проверяется нулевая гипотеза об отсутствии различий между группами. При этом происходит разделение общей дисперсии на несколько по типу источников и сравнение дисперсии, вызванной различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. Если оценка дисперсии, связанной с внутригрупповой изменчивостью, близка к оценке межгрупповой дисперсии, то нулевую гипотезу не отклоняют. Если различия достаточно выражены, то нулевую гипотезу отклоняют и принимают альтернативную.

Виды дисперсионного анализа

Выделяют следующие виды дисперсионного анализа:

В рамках темы «Сравнение более двух независимых выборок в параметрическом случае» будет рассмотрен одномерный однофакторый анализ с простыми измерениями.

Принцип использования дисперсионного анализа

Математический принцип работы параметрического дисперсионного анализа непостижим для простого смертного и поэтому не будет здесь воспроизведён. Отметим лишь, что сравнение дисперсии, вызванной различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью проводится с целью сравнения средних значений. Если верна нулевая гипотеза (равенство средних в группах), то можно ожидать сравнительно небольшое различие в выборочных средних из-за случайной изменчивости. Поэтому при нулевой гипотезе внутригрупповая дисперсия будет практически совпадать с общей дисперсией, подсчитанной без учета групповой принадлежности. Полученные внутригрупповые дисперсии можно сравнить с помощью F-критерия (критерия Фишера), проверяющего, действительно ли отношение дисперсий значимо больше 1.

Важное замечание о дисперсионном анализе