Машинное обучение в медицине: метрики качества

Метрики качества моделей машинного обучения

Что означают цифры и как выбрать главную метрику для вашей задачи

🎯 Зачем оценивать модель с помощью метрик?

Метрики позволяют ответить на ключевые вопросы:

Насколько хорошо модель обобщает на новые данные?
Какие ошибки она совершает (ложноположительные, ложноотрицательные)?
Можно ли доверять её предсказаниям в клинической практике?

Выбор метрики зависит от типа задачи (классификация, регрессия, анализ выживаемости) и целей исследования. Ниже разберём основные метрики, которые доступны в «АвИ Орбита».

📊 Метрики для задач классификации

Матрица ошибок (confusion matrix) — основа для расчёта большинства метрик. Она показывает количество:

TP (True Positive): правильно предсказанных положительных случаев.
TN (True Negative): правильно предсказанных отрицательных случаев.
FP (False Positive): ложноположительных (ошибка I рода).
FN (False Negative): ложноотрицательных (ошибка II рода).

Accuracy (доля правильных ответов): (TP+TN)/(TP+TN+FP+FN). Хороша при сбалансированных классах. При сильном дисбалансе может вводить в заблуждение.

Precision (точность): TP/(TP+FP). Доля предсказанных положительных случаев, которые действительно являются положительными. Важна, когда цена ложноположительного вывода высока (например, ненужное инвазивное лечение).

Recall (чувствительность, полнота): TP/(TP+FN). Доля реальных положительных случаев, которые модель смогла обнаружить. Критична, когда пропуск заболевания опасен (онкологический скрининг).

F1‑score: гармоническое среднее precision и recall: 2 × (precision × recall)/(precision + recall). Полезна, когда нужен баланс между двумя метриками.

ROC‑AUC (площадь под ROC‑кривой): показывает способность модели различать классы при разных порогах. AUC 0,5 — случайное угадывание, 0,8–0,9 — хорошая дискриминация, >0,9 — отличная. Не чувствительна к дисбалансу классов.

PR‑AUC (площадь под precision‑recall кривой): лучше подходит для сильно несбалансированных данных (например, редкое заболевание).

В «АвИ Орбита» после обучения классификатора отображаются все перечисленные метрики, матрица ошибок и ROC‑кривая.

📈 Метрики для задач регрессии (предсказание непрерывной величины)

MAE (Mean Absolute Error): средняя абсолютная ошибка. Простая интерпретация: «предсказание в среднем отклоняется на X единиц».
MSE (Mean Squared Error): среднеквадратичная ошибка. Сильнее штрафует крупные ошибки за счёт возведения в квадрат.
RMSE (Root Mean Squared Error): корень из MSE — имеет размерность целевой переменной.
R² (коэффициент детерминации): доля дисперсии, объяснённая моделью. От 0 до 1, чем ближе к 1, тем лучше. Может быть отрицательным, если модель хуже простого среднего.
MAPE (Mean Absolute Percentage Error): средняя абсолютная процентная ошибка. Полезна для сравнения точности на разных шкалах, но не работает при нулевых значениях.

В «АвИ Орбита» после обучения регрессионной модели выводятся R², MAE, RMSE, а также график «предсказанные vs фактические» и остатки.

⏱️ Метрики для моделей выживаемости (Cox, случайный лес выживаемости)

C‑index (concordance index): аналог AUC для выживаемости. Показывает, насколько хорошо модель ранжирует пациентов по риску. Значение 0,5 — случайно, 0,8 и выше — отличная дискриминация.
Brier score (временной): среднеквадратичная ошибка вероятности выжить к заданному моменту. Чем меньше, тем лучше калибровка.
Калибровочные кривые: показывают, совпадают ли предсказанные вероятности с наблюдаемыми долями событий.

В «АвИ Орбита» для моделей выживаемости доступны C‑index, а также кривые Каплана‑Мейера для групп риска (для визуальной оценки дискриминации) и Brier-score.

⚖️ Как выбрать метрику для вашей задачи?

Если классы сбалансированы и важна общая точность → Accuracy.
Если важно не пропустить заболевание (высокая цена FN) → Recall (чувствительность).
Если важно не ошибиться ложноположительным диагнозом (цена FP) → Precision.
Если нужен баланс между precision и recall → F1‑score.
Если классы сильно несбалансированы → ROC‑AUC или PR‑AUC.
Для регрессии — MAE (интерпретируемость) или RMSE (штраф на крупные ошибки). R² полезен для сравнения моделей.

Всегда смотрите на несколько метрик — одна цифра не даёт полной картины.

🏥 Пример: скрининг рака молочной железы

Представим, что модель предсказывает злокачественность новообразования. Важно не пропустить рак (FN) — поэтому выбираем высокий recall. Но при этом ложноположительные срабатывания (FP) ведут к ненужным биопсиям. Поэтому оптимальный баланс — F1‑score. ROC‑AUC поможет сравнить модели в целом, не завися от выбранного порога.

В «АвИ Орбита» вы можете после обучения модели изменять порог классификации и видеть, как меняются метрики, чтобы выбрать оптимальный для вашей клинической ситуации.

⚠️ Информация носит ознакомительный характер. Выбор метрик и порога принятия решений должен осуществляться совместно с клиническими специалистами.

Оценивайте модели легко и наглядно с «АвИ Орбита»

Все описанные метрики, графики и матрицы ошибок доступны в графическом интерфейсе после обучения модели. Не нужно писать код — просто загрузите данные, выберите алгоритм и получите подробный отчёт о качестве.

Узнать больше