🧠 Зачем нужен регрессионный анализ в медицине?
Регрессионный анализ позволяет ответить на три ключевых вопроса:
- Оценка связи – связан ли фактор (возраст, давление, приём препарата) с исходом?
- Прогнозирование – можно ли предсказать исход по набору факторов?
- Коррекция на смешивающие факторы – является ли эффект независимым или объясняется другими переменными?
В отличие от простого сравнения групп, регрессия позволяет учитывать влияние многих переменных одновременно и получать скорректированные оценки.
📊 Основные типы регрессий в медицинских исследованиях
- Линейная регрессия – когда исход (зависимая переменная) непрерывный: давление, уровень глюкозы, количество дней в стационаре.
- Логистическая регрессия – когда исход бинарный: наступило событие/не наступило (смерть, инфаркт, ответ на терапию).
- Регрессия Кокса (пропорциональных рисков) – для анализа времени до события (выживаемость, время до рецидива).
Выбор модели зависит от типа зависимой переменной.
📈 Линейная регрессия: предсказываем непрерывный показатель
Модель ищет линейную зависимость: Y = a + b₁X₁ + b₂X₂ + …
- Коэффициент b показывает, на сколько единиц изменится Y при увеличении X на 1 единицу (при неизменных других факторах).
- p-значение для коэффициента говорит, значима ли связь.
- R² – доля дисперсии Y, объяснённая моделью (чем ближе к 1, тем лучше).
Пример: «Увеличение систолического давления на 10 мм рт. ст. ассоциировано с повышением уровня креатинина на 0,15 мг/дл (95% ДИ: 0,12–0,18; p < 0,001) после поправки на возраст и пол».
Важные допущения: линейность связи, независимость остатков, нормальность распределения остатков (для малых выборок). Нарушения можно проверить графически.
⚖️ Логистическая регрессия: бинарный исход
Модель предсказывает вероятность наступления события (от 0 до 1). Результат выражается через отношение шансов (OR, odds ratio).
- OR > 1 – фактор увеличивает шанс события.
- OR < 1 – фактор снижает шанс события.
- OR = 1 – связи нет.
Пример: «Курение ассоциировано с повышенным риском инфаркта миокарда (OR = 2,5; 95% ДИ: 1,8–3,4; p < 0,001) после поправки на возраст, пол и артериальное давление».
Для проверки качества модели используют ROC-кривую и AUC (площадь под кривой), а также калибровочные графики (наблюдаемая vs предсказанная частота события).
⏱️ Регрессия Кокса: анализ выживаемости
Модель оценивает влияние факторов на время до наступления события (смерть, рецидив). Результат выражается через отношение рисков (HR, hazard ratio).
- HR > 1 – фактор ускоряет наступление события (повышает риск).
- HR < 1 – фактор замедляет событие (снижает риск).
- HR = 1 – связи нет.
Пример: «Наличие сахарного диабета ассоциировано с более высоким риском смерти в течение 5 лет после инфаркта (HR = 1,8; 95% ДИ: 1,3–2,5; p < 0,001)».
Проверка допущения пропорциональности рисков – остатки Шёнфельда; при нарушении можно использовать стратификацию или модели с временными ковариатами.
🔍 Как отбирать переменные в модель?
- Теоретическое обоснование – включайте факторы, которые по литературным данным могут влиять на исход (не только значимые по p-значению).
- Пошаговый отбор (stepwise) – автоматические методы, но они могут привести к переобучению и ложным выводам. Лучше использовать регуляризацию (Lasso, Ridge) или включение всех априорно важных переменных.
- Мультиколлинеарность – не включайте одновременно сильно коррелирующие предикторы (например, рост и вес в модели ИМТ). Проверяйте через VIF (variance inflation factor).
- Коррекция на множественные сравнения – если вы проверяете много гипотез в одной модели, рассмотрите поправку (Бонферрони, ложная частота открытий).
📖 Как читать таблицу результатов регрессии?
Типичная таблица включает:
- Переменная – фактор, включённый в модель.
- Коэффициент (β) – для линейной регрессии (изменение Y). Для логистической и Кокса – обычно представляют OR или HR.
- 95% доверительный интервал (ДИ) – диапазон, в котором с 95% вероятностью находится истинное значение эффекта.
- p-значение – статистическая значимость.
Важно: смотрите не только на p-значение, но и на клиническую значимость величины эффекта (например, OR = 1,05 при огромной выборке может быть статистически значимым, но не важным).
🏥 Пример: прогнозирование риска сердечно-сосудистых осложнений
Исследователи включают в модель возраст, пол, курение, систолическое давление, холестерин и статус диабета. После логистической регрессии получают OR для каждого фактора. На основе коэффициентов строят шкалу риска (например, балльную) и проверяют её калибровку (тест Хосмера-Лемешоу) и дискриминацию (AUC ROC). Если AUC > 0,8, модель считают хорошей. Такую модель можно использовать для выделения групп высокого риска в клинической практике.
⚠️ Типичные ошибки при использовании регрессий
- Переобучение – слишком много переменных при малом числе событий. Рекомендуемое правило: не более 10–15 событий на один предиктор (для логистической регрессии).
- Игнорирование взаимодействий – эффект фактора может зависеть от другого фактора (например, лечение эффективнее у женщин). Всегда проверяйте значимые взаимодействия.
- Нелинейные связи – для непрерывных переменных стоит добавить квадратичные члены или сплайны, если связь нелинейная.
- Пропущенные значения – не удаляйте строки с пропусками без обоснования. Рассмотрите импутацию (среднее, медиана, множественная импутация).
⚠️ Материал носит ознакомительный характер. Построение и интерпретация регрессионных моделей требует консультации со статистиком. Для клинических решений используйте только валидированные прогностические модели.
Стройте регрессионные модели без программирования
В «АвИ Орбита» реализованы линейная, логистическая регрессии и анализ выживаемости. После обучения выводятся коэффициенты, доверительные интервалы, p-значения и графики для проверки допущений.
Узнать больше