Машинное обучение в медицине: разметка данных

Разметка данных для медицинского ИИ: общие принципы и правила

Как подготовить качественные обучающие наборы для таблиц, текстов и изображений

🎯 Зачем размечать данные?

Модели машинного обучения с учителем требуют размеченных примеров. Разметка — это процесс присвоения меток объектам данных: строкам таблицы, фрагментам текста, областям на изображении. Качество разметки напрямую определяет, насколько точной и безопасной будет модель. Ошибки на этом этапе не исправляются никаким последующим алгоритмом.

В медицине цена ошибки особенно высока: неправильная разметка может привести к неверному диагнозу, пропуску патологии или необоснованному лечению. Поэтому важно подходить к разметке системно, с чёткими правилами и контролем качества.

🧭 Общие принципы (для всех типов данных)

  • Чёткие инструкции – каждый разметчик должен понимать, что считается нормой, как трактовать неоднозначные случаи, какие варианты допустимы.
  • Однородность – все объекты одного класса размечаются одинаково. Не должно быть ситуаций, когда один разметчик ставит метку «норма», а другой — «незначительные изменения» для одного и того же признака.
  • Пилотное тестирование – выделите 50–100 примеров, разметьте их несколькими экспертами и оцените согласованность (каппа Коэна). Если согласованность низкая — пересмотрите инструкции.
  • Итеративный подход – размечайте небольшими партиями, периодически обучайте прототип модели и используйте его для выявления сложных или спорных случаев (активное обучение).
  • Документирование – сохраняйте все версии инструкций, логи изменений правил разметки. Это поможет воспроизвести процесс и объяснить поведение модели.

📋 Разметка табличных данных (классификация, регрессия)

  • Выбор целевой переменной – определите, что именно будет предсказывать модель (категорию, числовое значение, время до события).
  • Источники меток – метки могут быть получены из клинических записей, лабораторных данных, заключений экспертов. Метка должна быть однозначно определяема.
  • Обработка пропусков – решите, как поступать с отсутствующими значениями в целевой переменной: исключать такие строки, использовать специальную метку («неизвестно») или применять методы импутации.
  • Стратификация – при разбиении на обучающую и тестовую выборки сохраняйте пропорции классов/диапазонов значений (стратифицированное разделение).

📝 Разметка текстов (NER, классификация, отношения)

  • Типы сущностей (NER) – определите, какие фрагменты текста нужно выделять (лекарства, симптомы, дозировки, анатомические структуры, даты). Начните с 5–10 основных типов.
  • Границы сущностей – договоритесь, включать ли предлоги и артикли в выделяемый фрагмент («в желудке» vs «желудке»). Жёстко зафиксируйте правило.
  • Неоднозначные случаи – создайте справочник (gazetteer) для сложных терминов. При сомнениях выбирайте консервативный вариант (не выделять).
  • Многоязычность – если данные содержат тексты на русском и английском, унифицируйте правила для обоих языков либо выделяйте языковые варианты в отдельные поля.
  • Контроль качества – регулярно проводите выборочную проверку (например, 10% размеченных записей) вторым экспертом. Ошибки анализируйте и корректируйте инструкции.

🖼️ Разметка медицинских изображений (рентген, КТ-срезы, гистология, DICOM)

  • Типы разметки
    • Классификация всего изображения – присвоение метки всему снимку («норма»/«патология»).
    • Обнаружение объектов (bounding boxes) – прямоугольники вокруг патологических очагов.
    • Сегментация (маски) – точное выделение контура опухоли, органа. Более трудоёмко, но даёт больше информации.
  • Инструменты разметки – прямоугольник, эллипс, свободный контур (лассо/полигон) с автоматическим замыканием.
  • Работа с DICOM
    • DICOM-файлы (КТ, МРТ, ПЭТ) можно импортировать в виде отдельных изображений (каждый срез как самостоятельный файл).
    • Деперсонализация – перед разметкой следует удалить или заменить метаданные, содержащие персональную информацию (PatientName, PatientID, StudyDate). Это требование законодательства о защите персональных данных.
    • Для многосрезовых серий разметка выполняется покадрово; результаты сохраняются в виде набора масок (по одной на срез).
  • Правила работы с масками
    • Маска должна точно повторять границы объекта, не захватывать здоровые ткани.
    • Для нечётких границ используйте консенсус нескольких экспертов или правило «округлять» с единообразным допуском.
    • Для многослойных структур (слои сетчатки) размечайте каждый слой отдельной маской с уникальной меткой.
  • Пакетная разметка – если у вас серия однотипных изображений, создайте шаблон с предустановленными классами и цветами. Это ускорит работу и уменьшит количество ошибок.
  • Форматы хранения – исходные изображения в несжатом виде (PNG, TIFF) или с минимальными потерями. Маски – в виде чёрно-белых PNG (бинарная сегментация) или цветных индексированных изображений (мультиклассовая). Для DICOM можно сохранять как PNG с отдельным файлом метаданных.

✅ Как проверить качество разметки?

  • Двойная разметка (два независимых эксперта) – с последующим разрешением конфликтов. Оптимально, если конфликты возникают не более чем в 5–10% случаев.
  • Коэффициент каппа Коэна – статистическая мера согласованности между экспертами. Значение выше 0,8 – отлично, 0,6–0,8 – хорошо.
  • Визуальный аудит – случайная выборка размеченных примеров просматривается главным экспертом.
  • Технические проверки – отсутствие выходов масок за границы изображения, непересечение маски с заведомо здоровыми областями, корректность форматов файлов.
  • Итеративное улучшение – по результатам проверок обновляйте инструкции и переобучайте разметчиков. Документируйте изменения.

🔒 Конфиденциальность и согласие пациентов

  • Обезличивание (деперсонализация) – перед разметкой удалите или замените на псевдонимы прямые идентификаторы (ФИО, номера полисов, даты рождения). Для DICOM обязательно очищайте метаданные (PatientName, PatientID, StudyDate).
  • Локальная обработка – все этапы разметки должны проводиться на защищённых компьютерах без передачи данных в облако или сторонние сервисы.
  • Информированное согласие – если вы используете клинические данные для разработки ИИ, убедитесь, что получено согласие пациентов на использование их данных в исследовательских целях.
  • Хранение ключей – если сохраняете маппинг «исходное значение — псевдоним», храните ключ отдельно от размеченных данных, в защищённом месте, с ограниченным доступом.

🛠️ Как выбрать софт для разметки?

  • Локальность и безопасность – приоритет программам, работающим офлайн и не отправляющим данные на сервер.
  • Поддержка нужных типов разметки – таблицы, текст, изображения (2D), DICOM (импорт срезов).
  • Удобство интерфейса – интуитивные инструменты рисования, возможность менять цвета классов, горячие клавиши, масштабирование.
  • Пакетная обработка и управление проектами – сохранение прогресса, шаблоны, экспорт в стандартные форматы (COCO, Pascal VOC, CoNLL, CSV).
  • Цена и лицензия – многие качественные инструменты имеют бесплатные версии для некоммерческого использования или разумную стоимость для коммерческих проектов.
⚠️ Материал носит ознакомительный характер. Окончательное качество разметки и, как следствие, модели зависит от квалификации разметчиков и репрезентативности выборки. Все медицинские решения должны приниматься врачом.

Нужен удобный инструмент для разметки медицинских данных?

Попробуйте «АвИ Орбита» — локальную платформу для разметки таблиц, текстов и изображений, включая импорт DICOM и деперсонализацию метаданных. Поддержка контроля качества и экспорт в популярные форматы.

Узнать больше