Регрессионный анализ в медицине

Регрессионный анализ для медицинских исследований

Линейная, логистическая регрессия и модель Кокса — простыми словами

🧠 Зачем нужен регрессионный анализ в медицине?

Регрессионный анализ позволяет ответить на три ключевых вопроса:

Оценка связи – связан ли фактор (возраст, давление, приём препарата) с исходом?
Прогнозирование – можно ли предсказать исход по набору факторов?
Коррекция на смешивающие факторы – является ли эффект независимым или объясняется другими переменными?

В отличие от простого сравнения групп, регрессия позволяет учитывать влияние многих переменных одновременно и получать скорректированные оценки.

📊 Основные типы регрессий в медицинских исследованиях

Линейная регрессия – когда исход (зависимая переменная) непрерывный: давление, уровень глюкозы, количество дней в стационаре.
Логистическая регрессия – когда исход бинарный: наступило событие/не наступило (смерть, инфаркт, ответ на терапию).
Регрессия Кокса (пропорциональных рисков) – для анализа времени до события (выживаемость, время до рецидива).

Выбор модели зависит от типа зависимой переменной.

📈 Линейная регрессия: предсказываем непрерывный показатель

Модель ищет линейную зависимость: Y = a + b₁X₁ + b₂X₂ + …

Коэффициент b показывает, на сколько единиц изменится Y при увеличении X на 1 единицу (при неизменных других факторах).
p-значение для коэффициента говорит, значима ли связь.
R² – доля дисперсии Y, объяснённая моделью (чем ближе к 1, тем лучше).

Пример: «Увеличение систолического давления на 10 мм рт. ст. ассоциировано с повышением уровня креатинина на 0,15 мг/дл (95% ДИ: 0,12–0,18; p < 0,001) после поправки на возраст и пол».

Важные допущения: линейность связи, независимость остатков, нормальность распределения остатков (для малых выборок). Нарушения можно проверить графически.

⚖️ Логистическая регрессия: бинарный исход

Модель предсказывает вероятность наступления события (от 0 до 1). Результат выражается через отношение шансов (OR, odds ratio).

OR > 1 – фактор увеличивает шанс события.
OR < 1 – фактор снижает шанс события.
OR = 1 – связи нет.

Пример: «Курение ассоциировано с повышенным риском инфаркта миокарда (OR = 2,5; 95% ДИ: 1,8–3,4; p < 0,001) после поправки на возраст, пол и артериальное давление».

Для проверки качества модели используют ROC-кривую и AUC (площадь под кривой), а также калибровочные графики (наблюдаемая vs предсказанная частота события).

⏱️ Регрессия Кокса: анализ выживаемости

Модель оценивает влияние факторов на время до наступления события (смерть, рецидив). Результат выражается через отношение рисков (HR, hazard ratio).

HR > 1 – фактор ускоряет наступление события (повышает риск).
HR < 1 – фактор замедляет событие (снижает риск).
HR = 1 – связи нет.

Пример: «Наличие сахарного диабета ассоциировано с более высоким риском смерти в течение 5 лет после инфаркта (HR = 1,8; 95% ДИ: 1,3–2,5; p < 0,001)».

Проверка допущения пропорциональности рисков – остатки Шёнфельда; при нарушении можно использовать стратификацию или модели с временными ковариатами.

🔍 Как отбирать переменные в модель?

Теоретическое обоснование – включайте факторы, которые по литературным данным могут влиять на исход (не только значимые по p-значению).
Пошаговый отбор (stepwise) – автоматические методы, но они могут привести к переобучению и ложным выводам. Лучше использовать регуляризацию (Lasso, Ridge) или включение всех априорно важных переменных.
Мультиколлинеарность – не включайте одновременно сильно коррелирующие предикторы (например, рост и вес в модели ИМТ). Проверяйте через VIF (variance inflation factor).
Коррекция на множественные сравнения – если вы проверяете много гипотез в одной модели, рассмотрите поправку (Бонферрони, ложная частота открытий).

📖 Как читать таблицу результатов регрессии?

Типичная таблица включает:

Переменная – фактор, включённый в модель.
Коэффициент (β) – для линейной регрессии (изменение Y). Для логистической и Кокса – обычно представляют OR или HR.
95% доверительный интервал (ДИ) – диапазон, в котором с 95% вероятностью находится истинное значение эффекта.
p-значение – статистическая значимость.

Важно: смотрите не только на p-значение, но и на клиническую значимость величины эффекта (например, OR = 1,05 при огромной выборке может быть статистически значимым, но не важным).

🏥 Пример: прогнозирование риска сердечно-сосудистых осложнений

Исследователи включают в модель возраст, пол, курение, систолическое давление, холестерин и статус диабета. После логистической регрессии получают OR для каждого фактора. На основе коэффициентов строят шкалу риска (например, балльную) и проверяют её калибровку (тест Хосмера-Лемешоу) и дискриминацию (AUC ROC). Если AUC > 0,8, модель считают хорошей. Такую модель можно использовать для выделения групп высокого риска в клинической практике.

⚠️ Типичные ошибки при использовании регрессий

Переобучение – слишком много переменных при малом числе событий. Рекомендуемое правило: не более 10–15 событий на один предиктор (для логистической регрессии).
Игнорирование взаимодействий – эффект фактора может зависеть от другого фактора (например, лечение эффективнее у женщин). Всегда проверяйте значимые взаимодействия.
Нелинейные связи – для непрерывных переменных стоит добавить квадратичные члены или сплайны, если связь нелинейная.
Пропущенные значения – не удаляйте строки с пропусками без обоснования. Рассмотрите импутацию (среднее, медиана, множественная импутация).

⚠️ Материал носит ознакомительный характер. Построение и интерпретация регрессионных моделей требует консультации со статистиком. Для клинических решений используйте только валидированные прогностические модели.

Стройте регрессионные модели без программирования

В «АвИ Орбита» реализованы линейная, логистическая регрессии и анализ выживаемости. После обучения выводятся коэффициенты, доверительные интервалы, p-значения и графики для проверки допущений.

Узнать больше