Как читать статистику: p-значение и доверительный интервал

Как читать медицинские исследования

Практическое руководство для врачей и исследователей

📊 Что такое p-значение?

Коротко: вероятность получить наблюдаемый результат (или более экстремальный) при условии, что на самом деле эффекта нет. Обычно порог — 0,05. Если p < 0,05, результат считают статистически значимым.

Пример: новое лекарство снижает давление на 5 мм рт. ст., p = 0,03. Это значит, что если бы лекарство не работало, мы увидели бы такую разницу только в 3% случаев. Вероятность мала — значит, эффект, скорее всего, реален.

Но помните: p-значение не говорит о клинической важности. Даже очень маленькое p может быть у клинически ничтожного эффекта при большой выборке.

📏 Доверительный интервал (95% CI)

Диапазон, который с 95% вероятностью покрывает истинное значение эффекта в популяции. Например, «снижение давления 5 мм рт. ст. (95% CI: 2–8)» означает, что истинное снижение, скорее всего, лежит между 2 и 8.

Почему это важно? Узкий интервал — высокая точность. Если интервал пересекает 0 (например, –1 до 5), эффект статистически не значим. Кроме того, по доверительному интервалу можно оценить клиническую значимость: если даже нижняя граница превышает минимально важную разницу, эффект действительно важен.

⚖️ Статистическая значимость ≠ клиническая важность

Даже если p < 0,001, эффект может быть ничтожным. Пример: исследование на 100 000 пациентах показало снижение инфарктов с 5% до 4,9% (p < 0,001). Однако чтобы предотвратить один инфаркт, нужно лечить 1000 человек (NNT = 1000). Большинство врачей сочтут такой эффект клинически незначимым.

Что делать? Всегда смотрите на абсолютные риски, NNT (число больных, которых нужно пролечить) и минимальную клинически важную разницу (MCID), если она указана.

✅ Чек-лист: 5 вопросов к статье

1. Дизайн: Исследование рандомизированное и слепое? (РКИ — золотой стандарт).
2. Размер выборки: Обоснован ли он? (power calculation).
3. Группы: Сопоставимы ли они по исходным характеристикам? (таблица baseline).
4. Анализ: Проведён ли по принципу «намерение лечить» (ITT)?
5. Конфликт интересов: Есть ли финансирование производителем и раскрыты ли связи авторов?

Если исследование не удовлетворяет хотя бы трём пунктам, относитесь к выводам с осторожностью.

📉 Кривые Каплана‑Мейера

Показывают долю пациентов, не испытавших событие (смерть, рецидив) к каждому моменту времени. Ступеньки вниз — события, вертикальные чёрточки — цензурированные наблюдения (пациент выбыл или исследование закончилось).

Что важно смотреть: медиану выживаемости (время, к которому умирает половина пациентов), доверительные интервалы (обычно затенённая область) и таблицу «число под риском» под графиком. При сравнении двух кривых обращайте внимание на p-значение лог‑ранк теста.

📈 ROC-кривая и AUC

ROC-кривая показывает, как тест различает больных и здоровых при разных порогах принятия решения. AUC (площадь под кривой) — общая мера точности:

AUC = 0,5 – тест бесполезен (как монетка)
AUC = 0,7–0,8 – удовлетворительная точность
AUC = 0,8–0,9 – хорошая
AUC > 0,9 – отличная

При оценке диагностического теста обращайте внимание не только на AUC, но и на доверительный интервал вокруг неё.

Хотите самостоятельно анализировать данные?

Программа «АвИ Орбита» позволяет вычислять p-значения, доверительные интервалы, AUC, кривые выживаемости и строить ROC-кривые без формул. Работает полностью локально — ваши данные в безопасности.

Узнать больше