🎯 Зачем размечать данные?
Модели машинного обучения с учителем требуют размеченных примеров. Разметка — это процесс присвоения меток объектам данных: строкам таблицы, фрагментам текста, областям на изображении. Качество разметки напрямую определяет, насколько точной и безопасной будет модель. Ошибки на этом этапе не исправляются никаким последующим алгоритмом.
В медицине цена ошибки особенно высока: неправильная разметка может привести к неверному диагнозу, пропуску патологии или необоснованному лечению. Поэтому важно подходить к разметке системно, с чёткими правилами и контролем качества.
🧭 Общие принципы (для всех типов данных)
- Чёткие инструкции – каждый разметчик должен понимать, что считается нормой, как трактовать неоднозначные случаи, какие варианты допустимы.
- Однородность – все объекты одного класса размечаются одинаково. Не должно быть ситуаций, когда один разметчик ставит метку «норма», а другой — «незначительные изменения» для одного и того же признака.
- Пилотное тестирование – выделите 50–100 примеров, разметьте их несколькими экспертами и оцените согласованность (каппа Коэна). Если согласованность низкая — пересмотрите инструкции.
- Итеративный подход – размечайте небольшими партиями, периодически обучайте прототип модели и используйте его для выявления сложных или спорных случаев (активное обучение).
- Документирование – сохраняйте все версии инструкций, логи изменений правил разметки. Это поможет воспроизвести процесс и объяснить поведение модели.
📋 Разметка табличных данных (классификация, регрессия)
- Выбор целевой переменной – определите, что именно будет предсказывать модель (категорию, числовое значение, время до события).
- Источники меток – метки могут быть получены из клинических записей, лабораторных данных, заключений экспертов. Метка должна быть однозначно определяема.
- Обработка пропусков – решите, как поступать с отсутствующими значениями в целевой переменной: исключать такие строки, использовать специальную метку («неизвестно») или применять методы импутации.
- Стратификация – при разбиении на обучающую и тестовую выборки сохраняйте пропорции классов/диапазонов значений (стратифицированное разделение).
📝 Разметка текстов (NER, классификация, отношения)
- Типы сущностей (NER) – определите, какие фрагменты текста нужно выделять (лекарства, симптомы, дозировки, анатомические структуры, даты). Начните с 5–10 основных типов.
- Границы сущностей – договоритесь, включать ли предлоги и артикли в выделяемый фрагмент («в желудке» vs «желудке»). Жёстко зафиксируйте правило.
- Неоднозначные случаи – создайте справочник (gazetteer) для сложных терминов. При сомнениях выбирайте консервативный вариант (не выделять).
- Многоязычность – если данные содержат тексты на русском и английском, унифицируйте правила для обоих языков либо выделяйте языковые варианты в отдельные поля.
- Контроль качества – регулярно проводите выборочную проверку (например, 10% размеченных записей) вторым экспертом. Ошибки анализируйте и корректируйте инструкции.
🖼️ Разметка медицинских изображений (рентген, КТ-срезы, гистология, DICOM)
- Типы разметки
- Классификация всего изображения – присвоение метки всему снимку («норма»/«патология»).
- Обнаружение объектов (bounding boxes) – прямоугольники вокруг патологических очагов.
- Сегментация (маски) – точное выделение контура опухоли, органа. Более трудоёмко, но даёт больше информации.
- Инструменты разметки – прямоугольник, эллипс, свободный контур (лассо/полигон) с автоматическим замыканием.
- Работа с DICOM
- DICOM-файлы (КТ, МРТ, ПЭТ) можно импортировать в виде отдельных изображений (каждый срез как самостоятельный файл).
- Деперсонализация – перед разметкой следует удалить или заменить метаданные, содержащие персональную информацию (PatientName, PatientID, StudyDate). Это требование законодательства о защите персональных данных.
- Для многосрезовых серий разметка выполняется покадрово; результаты сохраняются в виде набора масок (по одной на срез).
- Правила работы с масками
- Маска должна точно повторять границы объекта, не захватывать здоровые ткани.
- Для нечётких границ используйте консенсус нескольких экспертов или правило «округлять» с единообразным допуском.
- Для многослойных структур (слои сетчатки) размечайте каждый слой отдельной маской с уникальной меткой.
- Пакетная разметка – если у вас серия однотипных изображений, создайте шаблон с предустановленными классами и цветами. Это ускорит работу и уменьшит количество ошибок.
- Форматы хранения – исходные изображения в несжатом виде (PNG, TIFF) или с минимальными потерями. Маски – в виде чёрно-белых PNG (бинарная сегментация) или цветных индексированных изображений (мультиклассовая). Для DICOM можно сохранять как PNG с отдельным файлом метаданных.
✅ Как проверить качество разметки?
- Двойная разметка (два независимых эксперта) – с последующим разрешением конфликтов. Оптимально, если конфликты возникают не более чем в 5–10% случаев.
- Коэффициент каппа Коэна – статистическая мера согласованности между экспертами. Значение выше 0,8 – отлично, 0,6–0,8 – хорошо.
- Визуальный аудит – случайная выборка размеченных примеров просматривается главным экспертом.
- Технические проверки – отсутствие выходов масок за границы изображения, непересечение маски с заведомо здоровыми областями, корректность форматов файлов.
- Итеративное улучшение – по результатам проверок обновляйте инструкции и переобучайте разметчиков. Документируйте изменения.
🔒 Конфиденциальность и согласие пациентов
- Обезличивание (деперсонализация) – перед разметкой удалите или замените на псевдонимы прямые идентификаторы (ФИО, номера полисов, даты рождения). Для DICOM обязательно очищайте метаданные (PatientName, PatientID, StudyDate).
- Локальная обработка – все этапы разметки должны проводиться на защищённых компьютерах без передачи данных в облако или сторонние сервисы.
- Информированное согласие – если вы используете клинические данные для разработки ИИ, убедитесь, что получено согласие пациентов на использование их данных в исследовательских целях.
- Хранение ключей – если сохраняете маппинг «исходное значение — псевдоним», храните ключ отдельно от размеченных данных, в защищённом месте, с ограниченным доступом.
🛠️ Как выбрать софт для разметки?
- Локальность и безопасность – приоритет программам, работающим офлайн и не отправляющим данные на сервер.
- Поддержка нужных типов разметки – таблицы, текст, изображения (2D), DICOM (импорт срезов).
- Удобство интерфейса – интуитивные инструменты рисования, возможность менять цвета классов, горячие клавиши, масштабирование.
- Пакетная обработка и управление проектами – сохранение прогресса, шаблоны, экспорт в стандартные форматы (COCO, Pascal VOC, CoNLL, CSV).
- Цена и лицензия – многие качественные инструменты имеют бесплатные версии для некоммерческого использования или разумную стоимость для коммерческих проектов.
⚠️ Материал носит ознакомительный характер. Окончательное качество разметки и, как следствие, модели зависит от квалификации разметчиков и репрезентативности выборки. Все медицинские решения должны приниматься врачом.
Нужен удобный инструмент для разметки медицинских данных?
Попробуйте «АвИ Орбита» — локальную платформу для разметки таблиц, текстов и изображений, включая импорт DICOM и деперсонализацию метаданных. Поддержка контроля качества и экспорт в популярные форматы.
Узнать больше