СтатьяТехнофизика

Использование nn-UNet архитектуры для сегментации МРТ

Сегментация изображений магнитно-резонансной томографии является одной из центральных задач современной медицинской визуализации, поскольку именно она превращает визуальный массив данных в структурированное количественное представление анатомических и патологических образований. Под сегментацией в данном контексте понимают автоматическое или полуавтоматическое выделение анатомических структур, очагов поражения, органов или тканевых компартментов на МР-изображениях с формированием бинарных или многоклассовых масок. Клиническая ценность этого процесса очевидна: точное контурирование опухоли головного мозга определяет планирование лучевой терапии и нейрохирургии, выделение простаты и внутрипредстательной опухоли влияет на таргетную биопсию и фокальную терапию, сегментация миокарда и камер сердца лежит в основе расчёта объёмов, фракции выброса и параметров деформации, а выделение очагов ишемии, демиелинизации или дегенеративных изменений обеспечивает переход от субъективной визуальной оценки к воспроизводимому количественному анализу [Menze et al., 2015; Litjens et al., 2017; Isensee et al., 2021].

Для магнитно-резонансной томографии задача сегментации особенно сложна. В отличие от компьютерной томографии, где шкала интенсивностей привязана к физической плотности, в МРТ интенсивность сигнала зависит от множества факторов: напряжённости магнитного поля, параметров импульсной последовательности, контрастного механизма, профиля чувствительности катушки, неоднородностей B1 и B0, реконструкционного алгоритма и постобработки на уровне сканера. Одни и те же ткани могут выглядеть по-разному на T1-, T2-, FLAIR-, DWI-, ADC- и постконтрастных изображениях. Даже при идентичных клинических задачах данные, полученные на 1,5 Т и 3 Т, часто различаются по контрасту, уровню шума, пространственному разрешению и выраженности артефактов. Кроме того, МР-данные нередко обладают анизотропией вокселей, неполным покрытием, межсрезовыми неоднородностями и вариативной толщиной среза, что усложняет построение универсального алгоритма сегментации [Shinohara et al., 2014; Tustison et al., 2020].

На этом фоне глубокое обучение, и в особенности сверточные нейронные сети, стало переломным этапом в развитии медицинской сегментации. Начиная с появления U-Net в 2015 году, стало ясно, что энд-то-энд обучение на размеченных медицинских изображениях может существенно превосходить классические методы, основанные на пороговой обработке, деформируемых моделях, марковских случайных полях и ручном выделении признаков [Ronneberger et al., 2015]. Однако последующие годы показали и другую проблему: высокая вариативность архитектур, гиперпараметров, схем предобработки и стратегий обучения делает сравнение разных моделей затруднительным, а воспроизводимость результатов между лабораториями и наборами данных ограниченной. Именно в этом контексте возникла архитектурно-методологическая концепция nn-UNet, предложенная Fabian Isensee и соавторами как самонастраивающийся, основанный на правилах фреймворк для глубинной сегментации медицинских изображений, который автоматически адаптирует конфигурацию U-Net к свойствам конкретного набора данных [Isensee et al., 2021].

Значение nn-UNet в медицинской информатике трудно переоценить. В своей исходной работе авторы показали, что без ручной архитектурной оптимизации и без создания специальной сети под каждую задачу можно получить результаты, сопоставимые или превосходящие специализированные решения на десятках открытых наборов данных. Это наблюдение имело фундаментальное значение. Оно сместило фокус с поиска всё более экзотических архитектур на более системный вопрос: какие инженерные решения действительно критичны для качества сегментации, а какие лишь создают видимость новизны без устойчивого прироста производительности. В результате nn-UNet стала не просто конкретной сетью, а де-факто эталонным конвейером для обучения и оценки сегментационных моделей в биомедицинской визуализации [Isensee et al., 2021; Maier-Hein et al., 2024].

Для МР-сегментации архитектура nn-UNet оказалась особенно востребованной. Это связано с тем, что фреймворк учитывает ключевые особенности МР-данных: изменчивость пространственного разрешения, необходимость работы с мультипараметрическими последовательностями, неоднородность интенсивностей, зависимость оптимального размера патча от анатомической области и необходимость выбора между 2D- и 3D-конфигурациями в условиях ограниченной памяти графического процессора. В практическом отношении nn-UNet стала инструментом, который может быть адаптирован к сегментации глиом по BraTS, инсультных очагов по DWI, печени и сосудистых структур по многофазной МРТ, простаты по T2- и DWI-наборам, спинного мозга и позвоночных структур, а также к множеству задач в онкологии, кардиологии, неврологии и лучевой терапии [Menze et al., 2015; Kamel et al., 2025; Raab et al., 2025].

Настоящая статья посвящена всестороннему анализу использования архитектуры nn-UNet для сегментации МР-изображений. Основное внимание будет уделено не только описанию сети как таковой, но и принципам её самоконфигурации, связи между физико-техническими характеристиками МРТ и архитектурными решениями, методам предобработки, стратегиям обучения, метрикам качества, клиническим приложениям и ограничениям, возникающим при переносе модели между сканерами, учреждениями и протоколами. Особый акцент сделан на применении nn-UNet в условиях реальных клинических данных 1,5 Т и 3 Т, а также на сравнении с современными трансформерными и гибридными архитектурами, которые в последние годы активно конкурируют с классическими U-Net-подходами [Hatamizadeh et al., 2022; Pecco et al., 2024; Raab et al., 2025]. В силу высокой значимости воспроизводимости, стандартизации и клинической пригодности будут также рассмотрены вопросы кросс-валидации, формирования выборок, постобработки масок и внедрения моделей в исследовательскую и клиническую инфраструктуру.

Историческое развитие методов сегментации МР-изображений

Развитие сегментации МР-изображений прошло несколько этапов, каждый из которых отражал не только рост вычислительных возможностей, но и изменение самой философии анализа медицинских данных. На раннем этапе преобладала ручная сегментация. Она выполнялась экспертами-рентгенологами, нейрорадиологами, онкологами или биомедицинскими исследователями путём послойного обведения контуров интересующих структур. Такой подход долгое время считался референсным, поскольку позволял использовать человеческое знание об анатомии, патологии и артефактах. Однако его ограничения очевидны. Ручная сегментация требует значительных временных затрат, зависит от квалификации оператора, обладает меж- и внутринаблюдательной вариабельностью и плохо масштабируется на большие исследования или клинические потоки. Даже в рамках таких хорошо стандартизованных задач, как сегментация опухолей мозга или простаты, расхождения между экспертами могли быть существенными, особенно в областях размытых границ, отёка, инфильтративного роста или неоднородного контрастного усиления [Menze et al., 2015; Fedorov et al., 2021].

Следующим этапом стали классические полуавтоматические и автоматические методы, основанные на обработке изображения без обучения на больших массивах данных. К ним относились глобальная и локальная пороговая сегментация, методы роста областей, алгоритмы watershed, активные контуры, деформируемые поверхности, level-set-подходы, atlas-based сегментация и графовые методы. Эти алгоритмы были особенно привлекательны в анатомически относительно стабильных задачах, например при сегментации головного мозга на серое и белое вещество либо при выделении крупных органов с хорошим контрастом. В МРТ они часто комбинировались с bias field correction, регистрацией к атласу и статистическими моделями тканей [Pham et al., 2000; Klein and Tourville, 2012].

Тем не менее классические методы имели фундаментальные ограничения. Во-первых, они опирались на заранее заданные эвристики, которые плохо переносились между сканерами, последовательностями и клиническими сценариями. Во-вторых, они нередко требовали ручной инициализации, параметрической подстройки или качества изображения, близкого к идеальному. В-третьих, при сложной патологии, особенно в онкологии и воспалительных заболеваниях, они уступали человеку в способности распознавать неоднородные структуры, инфильтративные границы и контекстно зависимые паттерны [Litjens et al., 2017].

Примерно с 2000-х годов активно развивались методы машинного обучения, основанные на ручном выделении признаков. Использовались support vector machines, random forests, k-nearest neighbors, boosted trees и другие классификаторы, которым на вход подавались текстурные, морфологические, статистические и многомодальные признаки. Такие методы уже позволяли учитывать больше контекста, чем простая пороговая обработка, и применялись, например, к сегментации опухолей мозга, рассеянного склероза и кардиальных структур [Geremia et al., 2011]. Однако их эффективность по-прежнему зависела от качества признаковой инженерии. Модель обучалась не «видеть» изображение напрямую, а классифицировать заранее описанные человеком признаки.

Переход к глубокому обучению изменил ситуацию радикально. Сверточные нейронные сети начали автоматически извлекать многомасштабные признаки из самих изображений, что сделало возможным обучение сложных сегментационных отображений end-to-end. Ключевым событием стало появление U-Net, предложенной Ronneberger и соавторами в 2015 году. Архитектура U-Net объединила кодировщик, постепенно сокращающий пространственное разрешение и извлекающий высокоуровневые признаки, с декодировщиком, восстанавливающим пространственную детализацию, а пропущенные соединения позволили передавать локальную информацию между симметричными уровнями сети [Ronneberger et al., 2015]. Именно эта конструкция оказалась особенно удачной для медицинской визуализации, где критически важны и глобальный контекст, и точность границ.

После U-Net последовала бурная эволюция производных архитектур. Возникли 3D U-Net, residual U-Net, attention U-Net, densely connected варианты, каскадные схемы и мультизадачные модели [Çiçek et al., 2016; Isensee et al., 2018]. Для МР-сегментации это было особенно важно, поскольку трёхмерный контекст нередко имеет решающее значение, например при оценке распространённости опухоли или непрерывности анатомических структур. Однако чем больше развивались архитектуры, тем сильнее становилось ощущение методологической фрагментации. Разные группы использовали разные схемы предобработки, различные размеры патча, неодинаковые режимы аугментации, различные функции потерь, наборы модальностей, стратегии ансамблирования и даже разные способы интерполяции. В итоге стало трудно понять, обусловлено ли преимущество той или иной модели собственно архитектурой или совокупностью инженерных решений вокруг неё.

Именно в этом контексте появилась концепция nn-UNet. В отличие от многих предшествующих работ, она не позиционировалась как принципиально новая архитектура. Её основной вклад заключался в систематизации. Авторы проанализировали, какие решения в сегментационных пайплайнах наиболее существенно влияют на результат, и разделили их на фиксированные параметры, правила, основанные на свойствах данных, и эмпирически подобранные настройки. На этой основе был построен самоконфигурирующийся фреймворк, который автоматически определяет размер патча, глубину сети, размер батча, стратегию нормализации и другие ключевые гиперпараметры для конкретного набора данных [Isensee et al., 2021]. В историческом отношении nn-UNet стала поворотным моментом, поскольку показала, что репрезентативный базовый конвейер может быть важнее архитектурной экзотики. В последующие годы именно nn-UNet стала точкой сравнения для большинства новых сегментационных моделей на соревнованиях и в клинически ориентированных публикациях.

Параллельно развивалась и конкурсная инфраструктура. Такие международные инициативы, как BraTS для мультипараметрической МРТ опухолей мозга, Medical Segmentation Decathlon, а также многочисленные organ-specific datasets, создали основу для объективного сравнения алгоритмов на стандартизованных задачах [Menze et al., 2015; Simpson et al., 2019]. Эти бенчмарки сыграли ключевую роль в становлении nn-UNet, поскольку именно на них была продемонстрирована её способность выступать как универсальный сильный базовый метод.

Сегодня историческое развитие сегментации МР-изображений можно рассматривать как движение от экспертного ручного выделения к данным-управляемым универсальным системам. Однако это движение не отменило роли эксперта. Напротив, по мере усложнения нейросетевых моделей клиническая проверка качества разметки, валидности масок и устойчивости модели к нетипичным данным становится ещё важнее. История методов сегментации показывает, что автоматизация не заменяет клинического знания, а требует его включения на каждом этапе — от дизайна набора данных до интерпретации результата.

Архитектурные основы nn-UNet

Несмотря на название, nn-UNet не является одной фиксированной архитектурой в узком смысле. Это фреймворк автоматической конфигурации сегментационного конвейера, в основе которого лежит семейство U-Net-подобных сверточных архитектур. В исходной публикации термин nn-UNet был расшифрован как “no-new-Net”, то есть «без новой сети», что подчёркивало принципиальную идею: существенный прогресс достигается не обязательно через изобретение новой фундаментальной архитектуры, а через систематическую адаптацию хорошо проверенной U-Net к конкретным данным и задаче [Isensee et al., 2021]. Тем не менее, чтобы понять, почему nn-UNet оказалась столь эффективной, необходимо подробно рассмотреть её архитектурные основания.

Классическая U-Net состоит из двух симметричных ветвей. Левая ветвь, или кодировщик, реализует последовательное уменьшение пространственного разрешения входных данных при одновременном увеличении числа каналов признаков. Это позволяет модели извлекать всё более абстрактные и контекстно насыщенные представления. Правая ветвь, или декодировщик, постепенно восстанавливает пространственное разрешение с использованием операций апсемплинга и сверточной обработки. Между соответствующими уровнями кодировщика и декодировщика проходят пропущенные соединения, которые передают локальную пространственную информацию, утраченную при даунсемплинге [Ronneberger et al., 2015]. В задачах сегментации медицинских изображений такая организация особенно полезна, поскольку точная граница объекта часто зависит одновременно от глобального контекста и локального текстурного паттерна.

В nn-UNet этот общий принцип сохраняется, но конкретные параметры архитектуры определяются автоматически. Глубина сети, количество уровней, размеры ядер свертки, шаги даунсемплинга, форма патча и число feature maps подбираются в зависимости от пространственных размеров и анизотропии входных данных, а также от ограничений видеопамяти [Isensee et al., 2021]. Это критически важно для МРТ, где один набор данных может представлять собой почти изотропный 3D-объём головного мозга с вокселями 1×1×1 мм, а другой — тонкосрезовую T2 МРТ простаты с выраженной межплоскостной анизотропией.

Один из ключевых инженерных аспектов — реализация свёрточных блоков. В оригинальной nn-UNet используются последовательности свёртка–нормализация–нелинейность, обычно с instance normalization и leaky ReLU. Выбор instance normalization вместо batch normalization обусловлен тем, что в медицинской 3D-сегментации размер батча часто крайне мал, иногда равен 2 или даже 1, и статистики batch normalization становятся нестабильными [Isensee et al., 2021]. Именно здесь уместно говорить не столько о «динамической нормализации» как отдельном модуле, сколько о правилах выбора режима нормализации, согласованных с памятью GPU, размером батча и типом данных. Для 2D- и 3D-конфигураций nn-UNet применяет варианты нормализации, обеспечивающие устойчивое обучение при малых батчах, что особенно важно для объёмной МР-сегментации.

Пропущенные соединения в nn-UNet выполняют ту же принципиальную роль, что и в исходной U-Net, но их значение в медицинской визуализации следует подчеркнуть отдельно. МР-изображения часто содержат тонкие границы между тканями со слабым контрастом, например между опухолевой инфильтрацией и отёком, миокардом и кровяным бассейном, простатической капсулой и окружающей клетчаткой. Если сеть полагается только на глубоко сжатое представление, такая тонкая геометрия может быть утрачена. Передача высокоразрешённых признаков из кодировщика в декодировщик помогает сохранить контурную информацию и обеспечивает более точное восстановление формы объекта.

Следующим важным элементом является deep supervision, или глубокий контроль на нескольких уровнях декодировщика. nn-UNet использует дополнительные выходы на промежуточных масштабах, что улучшает градиентный поток и способствует обучению признаков, релевантных сегментации на разных уровнях разрешения [Isensee et al., 2021]. Для МРТ это особенно полезно, когда сегментируемые структуры одновременно имеют крупномасштабную протяжённость и мелкие детали. Например, при сегментации глиомы важно одновременно локализовать всю опухолевую массу и корректно определить тонкие участки контрастного накопления.

Отдельного внимания заслуживает каскадная 3D-конфигурация nn-UNet. В задачах, где полный 3D-объём слишком велик для обработки при высоком разрешении, nn-UNet может сначала обучать грубую 3D-модель на пониженном разрешении, а затем использовать её предсказание как дополнительный вход для последующей модели на более высоком разрешении. Такая стратегия особенно полезна при крупных анатомических объектах и больших объёмах данных, например при абдоминальной или whole-body сегментации, а также в некоторых МР-задачах с большим полем обзора [Isensee et al., 2021].

Архитектурная сила nn-UNet состоит не в радикально новой идее, а в точном согласовании структуры сети с геометрией данных. Например, при выраженной анизотропии вокселей, характерной для некоторых клинических МР-последовательностей, даунсемплинг по оси с грубым разрешением на ранних стадиях может быть нежелателен. nn-UNet учитывает это и адаптирует стратегию pooling так, чтобы не разрушать пространственную информацию в «тонком» измерении преждевременно. Это решение имеет прямой физико-технический смысл: если воксель имеет размеры 0,5×0,5×4 мм, то агрессивный 3D-пулинг в осевом направлении может сделать невозможным корректное восстановление формы объекта в межсрезовом пространстве.

Важным следствием архитектурной философии nn-UNet стало то, что она фактически превратила U-Net из конкретной сети в набор правил проектирования. Это объясняет, почему многие последующие работы, даже используя трансформеры или гибридные блоки, по существу сравнивают свои результаты не с «обычной U-Net», а именно с nn-UNet как сильным, автоматически оптимизированным базовым стандартом [Hatamizadeh et al., 2022; Pecco et al., 2024]. В этом смысле nn-UNet стала не просто сетью, а своего рода эталонной инженерной парадигмой медицинской сегментации.

Принципы адаптации к размерности данных и выбор конфигурации

Одним из наиболее сильных аспектов nn-UNet является её способность автоматически определять, какая конфигурация — двухмерная, трёхмерная или каскадная — наиболее подходит для конкретного набора данных. Этот вопрос не является чисто техническим; он тесно связан с физикой МР-сканирования, геометрией вокселя, типом патологии и вычислительными ограничениями. В клинической МРТ нельзя заранее считать, что 3D-подход всегда лучше 2D. Напротив, выбор размерности должен отражать баланс между пространственным контекстом, разрешением, анизотропией и доступной памятью графического процессора [Isensee et al., 2021].

2D-конфигурация в nn-UNet применяется в тех случаях, когда межсрезовое разрешение существенно хуже внутрисрезового, то есть при выраженной анизотропии. Типичный пример — клинические T2-взвешенные исследования, где толщина среза значительно превышает размер пикселя в плоскости. В таких данных соседние срезы не эквивалентны соседним пикселям внутри одного среза, и прямое применение 3D-свёрток может привести к менее эффективному использованию контекста. 2D-модель в этом случае работает с отдельными срезами, извлекая детальную внутриплоскостную информацию и избегая «размывания» объекта по оси низкого разрешения. Для ряда задач, включая сегментацию простаты или некоторых спинальных структур, такой подход может быть весьма конкурентоспособным [Isensee et al., 2021; Raab et al., 2025].

3D-конфигурация предпочтительна, когда данные близки к изотропным или умеренно анизотропным, а пространственная непрерывность объекта в трёх измерениях клинически значима. Это особенно актуально для мультипараметрической МРТ головного мозга, cardiac MRI, 3D T1- и FLAIR-объёмов, а также для многих исследовательских наборов данных, где реконструкция и ресэмплинг выполняются до приблизительно равномерного размера вокселя. Трёхмерная сеть может захватывать контекст вдоль всех осей, что улучшает устойчивость к локальным шумовым флуктуациям и повышает точность сегментации объёмных структур [Çiçek et al., 2016; Isensee et al., 2021].

Так называемая 2.5D-стратегия в строгом смысле не является базовой штатной архитектурной конфигурацией исходной nn-UNet, но концептуально важна для понимания промежуточных решений. В 2.5D-подходах модель обрабатывает центральный срез вместе с несколькими соседними, подаваемыми как дополнительные каналы. Это позволяет частично учесть межсрезовой контекст при сохранении относительной вычислительной простоты 2D-сетей. В научной литературе 2.5D-подходы применялись в МРТ достаточно широко, особенно в условиях ограниченной памяти и анизотропных данных [Litjens et al., 2017]. nn-UNet не строится вокруг 2.5D как основной схемы, но сама логика self-configuration может быть понята на фоне этого исторического компромисса между 2D и 3D.

Особое место занимает каскадная 3D-конфигурация. Она используется тогда, когда полный объём изображения слишком велик для обработки на нативном или почти нативном разрешении. В этом случае сначала обучается низкоразрешающая 3D-сеть, формирующая грубую карту объекта, после чего её предсказание используется как дополнительный вход для более детальной модели. Такая схема особенно эффективна, если сегментируемый объект занимает относительно малую часть большого объёма, а глобальный контекст необходим для первичной локализации [Isensee et al., 2021]. Для МРТ это может быть актуально при сегментации крупных абдоминальных органов, whole-body данных или сложных многокомпонентных поражений.

Выбор конфигурации в nn-UNet определяется не вручную, а на основе набора правил. Алгоритм анализирует медианный размер изображения, пространственное разрешение, число модальностей, долю объекта в объёме, ограничение памяти и ожидаемый размер патча. Затем формируется наиболее подходящий вариант или несколько вариантов, результаты которых могут впоследствии быть объединены ансамблированием. Это одна из причин высокой устойчивости nn-UNet: решение о размерности не навязывается исследователем заранее, а выводится из свойств данных [Isensee et al., 2021].

Для клинической МРТ вопрос размерности особенно тесно связан с полем 1,5 Т против 3 Т. На 3 Т обычно удаётся получить более высокое пространственное разрешение и лучшее отношение сигнал/шум, что часто делает 3D-подходы более привлекательными. На 1,5 Т данные могут быть более шумными, а толщина среза больше, что повышает вероятность того, что 2D-конфигурация окажется более рациональной. Однако это не универсальное правило: итоговое решение зависит от конкретного протокола, модальности и цели сегментации.

Важно подчеркнуть, что адаптация к размерности данных — это не только вопрос архитектуры, но и вопрос клинической достоверности. Неправильно выбранная конфигурация может приводить либо к потере межсрезового контекста, либо к переоценке неинформативного межсрезового шума. В задачах, где анатомия имеет выраженную трёхмерную структуру, например в кардиальной МРТ или объёмной нейроонкологии, отказ от 3D может уменьшить согласованность контуров между срезами. Напротив, в сильно анизотропных данных насильственный переход к 3D может ухудшить результат по сравнению с грамотно построенной 2D-моделью. Сила nn-UNet состоит в том, что она институционализирует этот выбор как часть системного пайплайна, а не как произвольное предпочтение исследователя.

Предобработка МРТ данных в пайплайне nn-UNet

Предобработка является одним из важнейших этапов всего конвейера nn-UNet, особенно при работе с МР-изображениями, где интенсивностные и геометрические характеристики существенно варьируют от исследования к исследованию. Хотя сама идея глубинного обучения часто ассоциируется с «обучением напрямую из данных», на практике качество сегментации критически зависит от того, насколько входные данные приведены к сопоставимому масштабу, разрешению и диапазону значений. В исходной концепции nn-UNet предобработка рассматривается не как вспомогательный шаг, а как системно формализованная часть модели [Isensee et al., 2021].

Первым базовым компонентом предобработки является пространственное приведение данных. В nn-UNet выполняется ресэмплинг изображений и меток к целевому разрешению, определяемому на основании медианного spacing набора данных. Это особенно важно для МРТ, где различия в размере вокселя могут быть значительными не только между центрами, но и между пациентами внутри одного исследования. Целевое разрешение подбирается таким образом, чтобы сохранять анатомически значимую детализацию, но при этом обеспечивать приемлемый размер тензора для последующего обучения [Isensee et al., 2021]. При выраженной анизотропии используется осознанный подход к интерполяции: как правило, для изображений применяются высокопорядковые методы в плоскости хорошего разрешения и более осторожные схемы вдоль оси низкого разрешения, тогда как для меток используется ближайший сосед, чтобы не создавать искусственных промежуточных классов.

Следующим критическим этапом является нормализация интенсивности. В МРТ она имеет особое значение, так как абсолютные уровни сигнала не стандартизированы. В nn-UNet подход к нормализации зависит от типа задачи и модальности. Для МР-изображений обычно применяется поизображенческая нормализация, например z-преобразование по ненулевым вокселям или по маске тела/органа, что уменьшает межисследовательскую вариабельность. Концептуально это означает вычитание среднего и деление на стандартное отклонение после ограничения области анализа значимыми вокселями. Подобная схема не делает интенсивности физически сопоставимыми, но приводит распределения признаков к более стабильному виду, что облегчает оптимизацию сети [Shinohara et al., 2014; Isensee et al., 2021].

Для МРТ следует подчеркнуть, что нормализация интенсивности — это не тривиальная процедура. Если она выполнена неправильно, модель может начать обучаться на сканерных артефактах, особенностях реконструкции или профиле катушки, а не на анатомо-патологических паттернах. Например, в мультипараметрической МРТ простаты интенсивностная шкала T2 и DWI различается принципиально, а на FLAIR и T1c опухоль мозга имеет противоположные контрастные характеристики. Поэтому нормализация в nn-UNet выполняется отдельно по каждому каналу, сохраняя межканальную информативность, но уменьшая внутриклассовую интенсивностную нестабильность.

Bias field correction, или коррекция медленно меняющейся неоднородности интенсивности, не является универсально встроенным обязательным этапом во всех конфигурациях nn-UNet, однако для многих МР-задач она может быть клинически и технически полезной. Известно, что неоднородности B1 и профиля катушки создают плавный градиент яркости по изображению, что особенно заметно на T1- и T2-взвешенных сериях головы и туловища. Алгоритмы типа N4 bias correction могут улучшать гомогенность тканей и снижать риск того, что сеть будет использовать неанатомические градиенты сигнала [Tustison et al., 2010]. Вместе с тем в некоторых сценариях современные нейросети способны частично компенсировать этот эффект сами, и вопрос о необходимости bias correction остаётся задачезависимым.

Отдельно следует рассмотреть устранение артефактов. В реальной клинической МРТ встречаются артефакты движения, ghosting, susceptibility-искажения, шумовые всплески, wrap-around, неполное подавление жира и другие нарушения. nn-UNet как фреймворк не включает универсального модуля «очистки» изображения, но её эффективность существенно зависит от того, насколько тренировочный набор отражает реальное разнообразие качества данных. С практической точки зрения для клинического внедрения полезно либо исключать исследования с грубыми артефактами, либо включать их в обучение как часть доменной вариабельности. В противном случае модель демонстрирует высокий Dice на «чистом» наборе, но теряет устойчивость на рутинных данных.

В мультипараметрической МРТ большое значение имеет межмодальная регистрация. Например, в BraTS предполагается использование уже приведённых друг к другу T1, T1c, T2 и FLAIR-объёмов. В клинической практике такая регистрация не всегда гарантирована изначально, особенно если серии получены в разное время, при разных движениях пациента или на разных этапах дыхательного цикла. Если каналы не совпадают пространственно, многоканальная сегментационная модель будет обучаться на некорректном соответствии признаков. Поэтому в исследовательском пайплайне, ориентированном на nn-UNet, регистрация мультипараметрических МР-серий является критически важным этапом.

Ещё один важный элемент предобработки — обрезка объёма по области интереса. В nn-UNet часто используется ограничение обработки ненулевой областью или маской тела, чтобы не тратить ресурсы на фон. Для МРТ это особенно рационально, поскольку фон вне тела обычно не несёт полезной информации, но может существенно увеличивать размер входных тензоров. Однако чрезмерно агрессивная обрезка может быть опасна, если сегментируемая структура прилежит к границе поля обзора или если важный контекст находится на периферии изображения.

Практически важно и хранение данных. nn-UNet требует стандартизованной структуры каталогов, единообразного именования каналов и соответствующих масок. Это кажется формальностью, но для многоцентровых МР-исследований правильная организация данных является одним из основных условий воспроизводимости. Ошибки на этапе подготовки каналов, несоответствие серий, перепутанные метки или различия в ориентации часто приводят к систематическим сбоям, которые поздно обнаруживаются и существенно искажают итоговую модель.

В целом предобработка МР-данных в пайплайне nn-UNet представляет собой компромисс между унификацией и сохранением значимого контраста. Недостаточная стандартизация делает обучение нестабильным, а чрезмерная стандартизация рискует уничтожить часть клинически важной информации. Сильная сторона nn-UNet состоит в том, что она автоматизирует базовую часть этого процесса, но всё же оставляет исследователю ответственность за понимание природы данных. В задачах клинической МР-сегментации это особенно важно, поскольку ни один автоматический конвейер не может полностью компенсировать некорректно собранный или плохо стандартизованный исходный набор.

Стратегии обучения модели

Эффективность nn-UNet определяется не только архитектурой и предобработкой, но и тщательно выстроенной стратегией обучения. В контексте медицинской сегментации обучение модели представляет собой задачу оптимизации, где необходимо одновременно преодолеть дисбаланс классов, ограниченный объём размеченных данных, вариабельность контраста и геометрии, а также склонность глубоких моделей к переобучению на специфике конкретного набора изображений. Исходная работа nn-UNet показала, что хорошо стандартизованный набор правил обучения может быть не менее важен, чем сама сеть [Isensee et al., 2021].

Одним из центральных вопросов являются функции потерь. В задачах сегментации медицинских изображений широко используются Dice loss и Cross-Entropy loss, а также их комбинации. Dice loss основана на коэффициенте сходства Dice и непосредственно оптимизирует перекрытие между предсказанной и эталонной маской. Если обозначить предсказанную вероятность принадлежности вокселя классу через \(p_i\), а истинную бинарную метку через \(g_i\), то коэффициент Dice можно записать как

\[ Dice = \frac{2\sum_i p_i g_i + \epsilon}{\sum_i p_i + \sum_i g_i + \epsilon} \]

где \(\epsilon\) — малый стабилизирующий член. Соответственно, Dice loss обычно определяется как \(1 — Dice\). Эта функция особенно полезна при сильном дисбалансе классов, когда интересующий объект занимает малую часть изображения, например при сегментации очагов, небольших опухолей или сосудов [Milletari et al., 2016].

Cross-Entropy loss, напротив, трактует задачу как поклассовую классификацию каждого вокселя и хорошо отражает локальную вероятностную калибровку. Однако при выраженном дисбалансе она может быть доминирована фоновым классом. Именно поэтому nn-UNet использует комбинированную функцию потерь, объединяющую Dice и Cross-Entropy, чтобы совместить устойчивость к дисбалансу с локальной классификационной чувствительностью [Isensee et al., 2021]. В практическом отношении это решение оказалось чрезвычайно удачным и до сих пор остаётся сильным базовым вариантом для МР-сегментации.

Следующим важным аспектом является выбор оптимизатора. В классической nn-UNet использовался стохастический градиентный спуск с импульсом и полилинейным расписанием скорости обучения. Хотя в ряде задач оптимизаторы типа Adam или AdamW демонстрируют более быстрый начальный спад функции потерь, SGD с momentum часто обеспечивает лучшую итоговую обобщающую способность в плотной сегментации [Isensee et al., 2021]. Для клинических МР-задач этот выбор особенно важен, поскольку модель должна не только хорошо подгоняться под обучающий набор, но и сохранять устойчивость на внешних данных со смещённым доменом.

Аугментация данных является одним из краеугольных камней обучения nn-UNet. В медицине размеченные данные дороги, ограничены и часто не репрезентативны по отношению ко всему разнообразию клинических сценариев. Поэтому при обучении применяются геометрические и интенсивностные преобразования, имитирующие вариабельность реального мира. К типичным аугментациям относятся случайные повороты, масштабирование, зеркальное отражение, эластические деформации, гауссов шум, размывание, изменение яркости и контраста, гамма-коррекция и другие преобразования. Для МРТ особенно важны интенсивностные аугментации, поскольку они моделируют вариации между сканерами и последовательностями, а также геометрические трансформации, имитирующие различия в укладке пациента и положении органов [Nalepa et al., 2019; Isensee et al., 2021].

Однако аугментация в МР-сегментации требует клинической осторожности. Преобразования не должны нарушать физико-анатомическую правдоподобность данных. Например, чрезмерные эластические деформации могут генерировать нереалистичную морфологию желудочков мозга или контуры простаты, а слишком агрессивные интенсивностные сдвиги — разрушить диагностически значимый контраст между опухолью и нормальной тканью. Поэтому сила nn-UNet состоит не в максимизации случайности аугментаций, а в использовании набора проверенных преобразований с реалистичными диапазонами.

Патчевое обучение является ещё одной важной частью стратегии. Полные 3D-объёмы МРТ часто слишком велики для прямой подачи в сеть, поэтому обучение происходит на фрагментах фиксированного размера. Размер патча выбирается автоматически в nn-UNet так, чтобы он по возможности охватывал существенную часть анатомического контекста и при этом помещался в видеопамять [Isensee et al., 2021]. В задачах МР-сегментации это решение напрямую влияет на результат. Слишком маленький патч даёт хорошую локальную детализацию, но лишает сеть глобального контекста. Слишком большой — уменьшает размер батча, затрудняет оптимизацию и иногда вынуждает снижать разрешение. Именно автоматический баланс между этими крайностями стал одним из ключевых преимуществ nn-UNet.

Вопрос дисбаланса классов в МРТ особенно выражен при сегментации мелких патологических очагов. Например, инфаркт на DWI или контрастно-активная часть глиомы может занимать ничтожную долю объёма. Для борьбы с этой проблемой кроме Dice loss используются стратегии смещённого сэмплирования патчей, при которых часть патчей принудительно выбирается так, чтобы содержать позитивные воксели. Это повышает вероятность того, что сеть увидит достаточное число примеров патологического класса во время обучения [Isensee et al., 2021].

Техническая реализация обучения часто выполняется в PyTorch, а в прикладных медицинских проектах всё более широко используется инфраструктура MONAI, которая предоставляет готовые модули для работы с медицинскими объёмами, трансформациями, функциями потерь и inferencing [Cardoso et al., 2022]. Хотя nn-UNet имеет собственную экосистему, интеграция её идей с PyTorch и MONAI упрощает создание воспроизводимых пайплайнов, особенно в клинических исследовательских группах.

С точки зрения практики важно учитывать продолжительность обучения и стоимость экспериментов. Полноценное обучение 3D nn-UNet на мультипараметрической МРТ требует значительного времени и ресурсов GPU. Поэтому стратегия экспериментов должна быть продумана заранее: необходимо определить корректную схему разделения данных, фиксировать случайные зерна, сохранять логи, кривые обучения и контрольные точки, а также тщательно документировать версии программного обеспечения. Для клинической науки это не просто техническая дисциплина, а условие воспроизводимости и возможности внешней валидации.

Методы постобработки предсказанных сегментационных масок

Даже хорошо обученная модель нередко выдаёт предсказания, требующие дополнительной логической или морфологической коррекции. Постобработка в nn-UNet рассматривается как завершающий этап конвейера, на котором вероятностные карты или бинарные маски могут быть преобразованы для повышения клинической правдоподобности и улучшения метрик качества [Isensee et al., 2021]. Важно подчеркнуть, что постобработка не должна использоваться как средство скрытия системных ошибок модели. Её задача — устранять типичные мелкие артефакты предсказания, а не компенсировать фундаментальную неспособность сети решать задачу.

Наиболее распространённым приёмом является удаление малых изолированных объектов. В сегментации многих МР-структур, особенно крупных органов или единственных опухолевых масс, ложноположительные мелкие кластеры обычно являются артефактами. Поэтому после бинаризации маски можно сохранять только крупнейшую связанную компоненту либо удалять объекты меньше заданного порога объёма. В nn-UNet подобные правила выбираются на основании эмпирической оценки на валидационном наборе: если постобработка улучшает метрику Dice или Hausdorff, она включается в финальный пайплайн [Isensee et al., 2021].

В задачах мультиочаговой патологии такой подход требует осторожности. Например, при метастатическом поражении мозга, рассеянных очагах демиелинизации или множественных инсультных поражениях удаление всех мелких компонентов может привести к потере клинически значимых структур. Поэтому правила постобработки должны быть строго задачезависимыми. Для сегментации простаты или печени сохранение крупнейшего объекта обычно оправдано, а для сегментации метастазов — нет.

Другим направлением является морфологическая постобработка. Используются операции открытия, закрытия, заполнения полостей, сглаживания границ и устранения зубчатости маски. Эти методы могут улучшать визуальную непрерывность сегментации, особенно если модель работает на низком разрешении или на анизотропных данных. Однако чрезмерное сглаживание опасно: оно способно искусственно исказить форму патологического очага и ухудшить точность по границам, что особенно нежелательно в лучевой терапии и хирургическом планировании.

Условные случайные поля, или CRF, исторически часто использовались как постпроцессор для уточнения границ сегментации, особенно в 2D-задачах компьютерного зрения. Идея состоит в том, чтобы комбинировать предсказание сети с локальной гладкостью и интенсивностными свойствами соседних пикселей. В медицинской сегментации интерес к CRF был заметен в ранних глубоких моделях, однако в эпоху сильных U-Net-подобных архитектур и особенно в 3D-сценариях их роль стала менее центральной. Для МРТ они могут быть полезны в отдельных задачах с хорошо выраженными интенсивностными границами, но в реальной клинической практике nn-UNet чаще полагается на более простые и устойчивые методы постобработки, такие как connected component analysis [Kamnitsas et al., 2017; Isensee et al., 2021].

Постобработка может касаться и ансамблирования. В исходной концепции nn-UNet важное место занимает объединение предсказаний нескольких конфигураций, например 2D и 3D full resolution. Усреднение вероятностных карт или голосование между моделями часто повышает устойчивость и снижает дисперсию ошибок. Это особенно полезно в МРТ, где одна конфигурация может лучше работать с внутрисрезовой детализацией, а другая — с объёмным контекстом. По сути, ансамблирование является не просто статистическим трюком, а формой структурированной постобработки на уровне модели.

Ещё один практический аспект связан с преобразованием маски обратно в исходное пространство. После ресэмплинга, обрезки и обучения на патчах итоговая маска должна быть корректно перенесена в исходную геометрию изображения. Ошибки на этом этапе могут приводить к систематическим смещениям контура, особенно в анизотропных МР-наборах. Поэтому качественный клинический пайплайн требует строгого контроля над интерполяцией, ориентацией и соответствием маски нативной серии.

В реальных клинических приложениях постобработка полезна и как часть логики контроля качества. Например, если модель внезапно предсказывает аномально малый или чрезмерно большой объём структуры, это может служить признаком сбоя и запускать ручную проверку. Таким образом, постобработка постепенно выходит за рамки чисто морфологических операций и становится частью общей системы обеспечения надёжности сегментации.

Количественные показатели оценки качества сегментации

Корректная оценка качества сегментации является фундаментальной задачей, поскольку разные метрики отражают разные аспекты совпадения между предсказанной маской и эталоном. В медицинской визуализации особенно важно помнить, что высокая численная метрика не всегда означает клиническую пригодность, а низкое значение по одной метрике не обязательно указывает на бесполезность модели. В контексте nn-UNet набор используемых показателей обычно включает коэффициент Dice, расстояние Хаусдорфа, среднее симметричное расстояние до поверхности и различные объёмные корреляционные характеристики [Taha and Hanbury, 2015; Isensee et al., 2021].

Коэффициент Dice остаётся наиболее широко используемой метрикой. Он измеряет степень перекрытия между предсказанной и эталонной масками и определяется как

\[ Dice = \frac{2|A \cap B|}{|A| + |B|} \]

где \(A\) — множество вокселей предсказанной маски, а \(B\) — множество вокселей эталона. Значение Dice варьирует от 0 до 1, где 1 означает полное совпадение. В задачах сегментации крупных структур Dice обычно высок и хорошо отражает качество. Однако при малых объектах или тонких границах эта метрика может быть обманчивой: небольшая абсолютная ошибка на границе способна резко снизить Dice для малого очага, тогда как для большого органа значительный локальный дефект может почти не изменить показатель.

Расстояние Хаусдорфа оценивает максимальное отклонение между границами масок. В медицинских исследованиях чаще используют 95-й процентиль расстояния Хаусдорфа, чтобы уменьшить влияние единичных выбросов. Эта метрика особенно важна в задачах, где критична точность границы, например при лучевом планировании, сегментации сосудов, нейрохирургическом картировании опухолей или оценке прилежания патологического очага к функционально значимым структурам. Даже при высоком Dice модель может иметь плохой Hausdorff, если в одной области имеется грубое локальное отклонение.

Среднее симметричное расстояние до поверхности, или ASSD, является более «усреднённой» мерой точности границ и часто лучше отражает типичное отклонение контура, чем экстремальное значение Hausdorff. В клинических МР-задачах ASSD полезно, когда требуется оценивать не только перекрытие, но и геометрическую правдоподобность сегментации, например для миокарда, печени или позвоночных структур.

Объёмные метрики включают абсолютную и относительную ошибку объёма, корреляцию предсказанного объёма с эталоном, Bland–Altman анализ и коэффициенты внутриклассовой корреляции. Они особенно важны, когда целью является не только визуальная маска, но и количественный биомаркер. Например, в сегментации инфаркта головного мозга или опухоли печени клиническое решение может зависеть именно от объёма поражения, а не только от того, насколько красиво совпадают границы.

Для многоклассовых задач, таких как BraTS, метрики обычно рассчитываются отдельно для каждого клинически значимого компартмента: whole tumor, tumor core, enhancing tumor. Это отражает тот факт, что разные подструктуры имеют различную биологическую и терапевтическую значимость, а также разную трудность сегментации [Menze et al., 2015]. Аналогичный принцип применим к другим задачам мультипараметрической МРТ.

С практической точки зрения важно различать внутреннюю и внешнюю валидацию метрик. Высокий Dice на внутреннем тестовом наборе не гарантирует столь же высокую производительность на внешнем центре, другом сканере или ином протоколе. Именно поэтому в современных исследованиях всё более значимой считается оценка обобщаемости, а не только «соревновательная» величина одной метрики на одном датасете [Maier-Hein et al., 2024].

Не менее важно понимать ограничения самих эталонных разметок. Если межэкспертная вариабельность высока, то и верхний потолок Dice для автоматической модели ограничен. В таких случаях корректнее сравнивать модель не только с «золотым стандартом», но и с согласованностью между экспертами. Для МРТ это особенно актуально в задачах с расплывчатыми или биологически неоднозначными границами, например при инфильтративных глиомах или диффузных воспалительных изменениях.

Клинические применения nn-UNet в МР-сегментации

Клинические применения nn-UNet в сегментации МР-изображений чрезвычайно разнообразны, что во многом и объясняет её популярность. Одной из наиболее знаковых областей стала сегментация опухолей головного мозга. Благодаря наличию стандартизованных мультипараметрических наборов данных BraTS архитектура nn-UNet получила возможность продемонстрировать свою универсальность на сложной задаче многоклассовой сегментации гетерогенных новообразований по T1, T1c, T2 и FLAIR [Menze et al., 2015; Isensee et al., 2021]. Для нейроонкологии это имеет прямую практическую значимость: автоматическое выделение whole tumor, tumor core и enhancing tumor может использоваться при планировании операции, лучевой терапии, оценке ответа на лечение и количественном мониторинге прогрессирования.

Отдельное направление — сегментация ишемического инсульта по DWI и ADC. В ряде недавних работ показано, что self-configuring сети типа nn-UNet обеспечивают высокую точность даже при использовании только диффузионных последовательностей, что особенно важно в остром инсультном контексте, где скорость и стандартизация анализа критичны [Kamel et al., 2025]. Однако клиническое внедрение требует особой осторожности, поскольку инсультные очаги бывают малыми, множественными и подверженными значительным межсканерным вариациям.

В урогенитальной радиологии особое значение имеет МР-сегментация простаты. На мультипараметрических исследованиях простаты выделение всей железы, периферической и переходной зон, а также подозрительных очагов необходимо для автоматизации оценки объёма, планирования таргетной биопсии, фокальной терапии и лучевого контурирования. Простата является сравнительно небольшим органом с вариативной формой и зависимостью изображения от катушки, поля и артефактов движения, поэтому задача сегментации технически непроста. nn-UNet показала высокую конкурентоспособность и в этой области, особенно благодаря адаптации к anisotropic T2-наборам и мультиканальным входам.

В абдоминальной МРТ nn-UNet применяется к сегментации печени, сосудов, селезёнки, поджелудочной железы и очаговых поражений. Хотя значительная часть литературы по nn-UNet посвящена КТ, в последние годы появляются и исследования по многофазной МРТ печени, где сравниваются варианты nnU-Net и Swin UNETR для сегментации паренхимы, портальных и печёночных вен, а также очагов [Raab et al., 2025]. Для абдоминальной МРТ это особенно актуально из-за высокой вариативности контраста между фазами, дыхательных артефактов и сложности ручной разметки.

В кардиальной МРТ задачи сегментации включают выделение левого желудочка, правого желудочка, миокарда и иногда очагов позднего контрастного накопления. Здесь важны не только пространственные маски, но и производные функциональные параметры: конечные диастолические и систолические объёмы, масса миокарда, фракция выброса. Точность автоматической сегментации имеет прямое клиническое значение, а использование nn-UNet или родственных U-Net-подобных моделей позволяет существенно ускорить постобработку cardiac MRI.

В позвоночной и нейромышечной визуализации nn-UNet применяется к сегментации тел позвонков, межпозвонковых дисков, спинного мозга, костного мозга и паравертебральных мышц. Особенно перспективны whole-body MRI и онкогематологические сценарии, где объём данных велик, а ручная разметка практически невыполнима в рутинном режиме. Автоматизация здесь может открыть путь к количественной оценке опухолевой инфильтрации, дегенеративных изменений или саркопении.

Таким образом, клинические применения nn-UNet в МР-сегментации охватывают нейрорадиологию, онкологию, урологию, абдоминальную радиологию, кардиовизуализацию и musculoskeletal imaging. Однако во всех этих областях следует помнить один и тот же принцип: высокая метрика на публичном наборе данных не равна автоматической клинической готовности. Для реального внедрения требуется внешняя валидация, устойчивость к доменному сдвигу и понятный протокол контроля качества.

Ограничения метода

Несмотря на универсальность и высокую производительность, nn-UNet имеет ряд принципиальных ограничений. Первое и наиболее очевидное связано с потребностью в качественно размеченных данных. Сегментационные модели обучаются с учителем, а значит, качество предсказаний не может превзойти качество эталонных масок в простом смысле. В МРТ создание размеченных наборов особенно затратно, поскольку требует участия экспертов, знания анатомии и понимания ограничений конкретной последовательности. Для сложных многоклассовых задач, например при глиомах или инфильтративных поражениях печени, получение качественной разметки само по себе является исследовательской проблемой [Menze et al., 2015; Litjens et al., 2017].

Второе ограничение связано с вычислительными ресурсами. Обучение 3D nn-UNet на полномасштабных МР-наборах требует производительных графических процессоров и значительного времени. Даже если сама архитектура не является чрезмерно сложной по современным меркам, её сила основана на полномасштабной self-configuration, кросс-валидации, иногда ансамблировании и обработке больших объёмов. Для небольших клинических групп или центров без развитой вычислительной инфраструктуры это может быть существенным барьером.

Третье ограничение — обобщаемость. Модель, обученная на одном наборе МР-данных, нередко ухудшает производительность при переносе на другой центр, сканер, катушку, поле или протокол. Эта проблема доменного сдвига остаётся одной из центральных в медицинском искусственном интеллекте [Guan and Liu, 2022]. В случае МРТ она особенно остра, поскольку вариабельность контраста и артефактов значительно выше, чем в КТ. Даже такая сильная модель, как nn-UNet, не устраняет эту проблему автоматически.

Четвёртое ограничение — относительная «непрозрачность» решений модели. Хотя nn-UNet проще и системнее многих экзотических архитектур, она всё же остаётся глубокой нейронной сетью, чьи ошибки не всегда легко объяснить. Для клинической практики это означает необходимость обязательного экспертного контроля и разработки систем детекции неуверенности, а не безусловного доверия автоматическому контуру.

Пятое ограничение — зависимость от правильно организованного пайплайна. nn-UNet не является магическим алгоритмом, способным исправить любые проблемы данных. Некорректная регистрация каналов, плохие маски, перепутанные ориентации, смещённые классы, нерепрезентативная обучающая выборка или неучтённые артефакты могут сделать результат недостоверным независимо от силы архитектуры.

Факторы, влияющие на точность сегментации

Точность сегментации на МР-изображениях определяется не только архитектурой и обучением, но и характеристиками самих исходных данных. Один из важнейших факторов — параметры импульсной последовательности. T1, T2, FLAIR, DWI, ADC и постконтрастные серии несут разную тканевую информацию, и качество сегментации во многом зависит от того, насколько релевантен выбранный контраст задаче. Например, для сегментации whole tumor при глиомах FLAIR играет ключевую роль, тогда как для выделения enhancing tumor необходим T1c. Если сеть обучена на полном мультипараметрическом наборе, а на практике получает неполный или искажённый набор каналов, её производительность закономерно снижается.

Напряжённость поля 1,5 Т против 3 Т также существенно влияет на результат. На 3 Т обычно выше отношение сигнал/шум и лучше пространственное разрешение, однако сильнее выражены артефакты восприимчивости, неравномерность поля и специфические особенности сигнала. Модель, обученная преимущественно на 3 Т, может демонстрировать снижение точности на 1,5 Т, если различия в контрасте и шуме не были учтены в обучении. И наоборот, сети, обученные на более «грубых» 1,5 Т данных, не обязательно полностью используют преимущества 3 Т изображений.

Анизотропия вокселей остаётся одним из наиболее значимых факторов. Если толщина среза велика, границы объекта по оси среза становятся размытыми и слабо определёнными. Это ограничивает теоретически достижимую точность даже для идеального алгоритма. В таких данных выбор 2D или 3D-конфигурации, схема интерполяции и стратегия оценки результата приобретают критическое значение.

Качество и единообразие разметки также напрямую влияют на итоговую точность. Если часть масок создана одним экспертом, часть другим, а критерии включения приграничных зон различаются, модель будет обучаться на внутренне противоречивом наборе целей. Это особенно важно в МРТ, где границы патологических структур часто не абсолютно объективны.

Наконец, на точность влияет и клинический спектр данных. Модель, обученная на типичных опухолях среднего размера, может хуже работать на послеоперационных изменениях, редких вариантах контраста, очень малых очагах или изображениях с устройствами и имплантами. Поэтому репрезентативность обучающей выборки имеет не меньшее значение, чем число её случаев.

Стандартизация и протоколы обучения

Одним из наиболее ценных вкладов nn-UNet стала именно стандартизация подхода к обучению сегментационных моделей. В исходной работе авторы подчёркивали, что корректное сравнение алгоритмов невозможно без единых правил разделения данных, настройки гиперпараметров и выбора конфигурации [Isensee et al., 2021]. В медицинской МР-сегментации это особенно важно, поскольку вариабельность наборов данных сама по себе велика.

Пятикратная кросс-валидация стала одним из стандартных режимов работы nn-UNet. Она позволяет получить не только среднюю оценку качества, но и представление о вариабельности модели на разных разбиениях. В ситуациях с ограниченным объёмом размеченных МР-данных это особенно полезно, поскольку позволяет использовать данные более эффективно, чем жёсткое одноразовое деление на train/validation/test.

Тем не менее для клинической науки одной кросс-валидации недостаточно. Необходима внешняя тестовая выборка, ideally из другого центра или по другому протоколу. Только такая схема позволяет судить об истинной обобщаемости модели. В противном случае даже строгая внутренняя кросс-валидация может переоценивать реальную клиническую применимость.

Стандартизация должна касаться не только разбиения данных, но и всей документации пайплайна: какие модальности использовались, как выполнен ресэмплинг, как нормализованы интенсивности, какие аугментации включены, какие метрики и на каком уровне рассчитаны. Без такой прозрачности сравнение с другими исследованиями становится малозначимым.

Современные технологические разработки

После успеха исходной nn-UNet развитие пошло в двух направлениях. С одной стороны, появилась nnU-Net v2 как более модульная и инженерно переработанная версия фреймворка, ориентированная на лучшую воспроизводимость, расширяемость и адаптацию к новым сценариям. С другой стороны, возникли конкурирующие и дополняющие архитектуры, прежде всего основанные на трансформерах.

Трансформерные модели, такие как UNETR и Swin UNETR, предложили альтернативный способ интеграции глобального контекста. Вместо исключительно сверточного кодировщика они используют self-attention механизмы и/или иерархические оконные трансформеры, что потенциально улучшает моделирование дальних зависимостей в изображении [Hatamizadeh et al., 2022]. Для МРТ это особенно интересно в задачах, где морфология объекта зависит от контекста на большом расстоянии, например в whole-brain анализе или сегментации сложных опухолевых компартментов.

Однако, как показывают практические исследования, трансформеры не всегда автоматически превосходят nn-UNet. В ряде работ они демонстрируют сопоставимую или лучшую внешнюю устойчивость, но требуют больше данных, сложнее в обучении и не всегда выигрывают на небольших клинических наборах [Pecco et al., 2024]. Именно поэтому nn-UNet остаётся сильным базовым стандартом даже в эпоху гибридных архитектур.

Сравнение с альтернативными методами глубокого обучения

При сравнении nn-UNet с DeepLab, UNETR, Swin UNETR и MedNeXt необходимо учитывать, что сравниваются не только архитектуры, но и разные инженерные философии. DeepLab хорошо зарекомендовал себя в естественных изображениях и 2D-сегментации, однако его преимущества не всегда полностью реализуются на объёмных МР-данных, особенно при ограниченном размере выборки. UNETR и Swin UNETR лучше захватывают глобальный контекст, но обычно более требовательны к объёму данных и вычислительным ресурсам [Hatamizadeh et al., 2022; Pecco et al., 2024].

MedNeXt и другие современные свёрточные архитектуры пытаются объединить преимущества классических CNN и более современных принципов масштабирования сети. Однако на практике ключевой вопрос остаётся прежним: даёт ли новая архитектура устойчивый выигрыш над хорошо настроенной nn-UNet на внешней валидации, а не только на одном benchmark-наборе. Во многих сценариях ответ пока остаётся неоднозначным.

Именно поэтому в методологически сильных исследованиях nn-UNet следует рассматривать не как «старую базу», которую нужно победить любой ценой, а как необходимый стандарт сравнения. Если новая модель не превосходит её убедительно и воспроизводимо, архитектурная новизна сама по себе не имеет достаточной клинической ценности.

Практические рекомендации по внедрению nn-UNet в клинический исследовательский пайплайн

Внедрение nn-UNet в клинический исследовательский пайплайн должно начинаться не с обучения модели, а с формулировки клинической задачи. Нужно чётко определить, что именно сегментируется, зачем, какая производная метрика будет использоваться и как результат будет проверяться. Сегментация «ради сегментации» редко имеет практическую ценность.

Следующий этап — подготовка данных. Необходимо обеспечить единообразие модальностей, контроль качества изображений, проверку регистрации каналов, согласованную разметку и репрезентативность выборки по отношению к реальной клинической популяции. Затем следует документированная схема разделения на обучающую, валидационную и независимую тестовую выборки, желательно с внешним центром.

С технической точки зрения разумно начинать с nn-UNet как базового сильного решения, а уже затем сравнивать более сложные архитектуры. Это позволяет быстро получить рабочий baseline, оценить сложность задачи и понять, действительно ли необходимы более ресурсоёмкие модели. Для реализации удобно использовать экосистему PyTorch и, при необходимости, интеграцию с MONAI для инфраструктурных компонентов.

При клиническом внедрении необходимы визуальная верификация масок, протокол обработки ошибок и система контроля неуверенности. Автоматическая сегментация должна рассматриваться как инструмент поддержки врача, а не как полностью автономный исполнитель. Особенно это важно в онкологии, нейрохирургии и лучевой терапии, где локальная ошибка контура может иметь прямые последствия для пациента.

Перспективы развития метода

Будущее nn-UNet и в целом МР-сегментации связано с несколькими направлениями. Первое — уменьшение зависимости от больших размеченных наборов данных. Методы самообучаемого и слабо контролируемого обучения, а также pretraining на больших нерешённых массивах МРТ могут сделать сегментацию более доступной для редких и нишевых задач [Azad et al., 2024].

Второе направление — foundation models для медицинской визуализации. Идея состоит в обучении крупных универсальных моделей на огромных мультимодальных наборах медицинских изображений с последующей адаптацией к конкретной задаче сегментации. Для МРТ это особенно перспективно, поскольку многие анатомические и контрастные закономерности повторяются между задачами, даже если клинические цели различны.

Третье направление — повышение клинической надёжности. Сюда относятся детекция out-of-distribution случаев, количественная оценка неопределённости, калибровка вероятностей и встроенные механизмы отказа модели в нетипичных ситуациях. В условиях клинической МРТ именно эти свойства могут оказаться не менее важными, чем абсолютный прирост Dice на benchmark-наборе.

Четвёртое направление — интеграция сегментации с последующими аналитическими этапами. Сама по себе маска редко является конечной целью. Намного важнее её использование для радиомики, количественной МРТ, навигации, прогностического моделирования и персонализированного планирования лечения. В этой цепочке nn-UNet может стать не финальным решением, а инфраструктурным модулем автоматизированного анализа.

Заключение

Архитектура nn-UNet стала одним из наиболее значимых достижений в области медицинской сегментации последних лет, поскольку предложила не просто эффективную нейронную сеть, а воспроизводимую и системно организованную методологию адаптации сегментационных моделей к свойствам конкретного набора данных. Для магнитно-резонансной томографии это имеет особую ценность, так как МР-данные отличаются высокой вариабельностью контраста, геометрии и качества, а значит требуют не универсального «волшебного» алгоритма, а гибкого и обоснованного подхода.

В контексте МР-сегментации сила nn-UNet определяется сочетанием нескольких факторов: архитектурной устойчивостью U-Net-подобной схемы, автоматическим выбором конфигурации 2D или 3D, продуманной предобработкой, эффективной функцией потерь, реалистичной аугментацией и строгой схемой валидации. Это делает её особенно полезной как базовый стандарт в нейрорадиологии, онкологии, урологии, абдоминальной и кардиальной визуализации.

Вместе с тем nn-UNet не устраняет фундаментальные проблемы медицинского искусственного интеллекта. Она по-прежнему зависит от качества разметки, от репрезентативности обучающих данных, от устойчивости к доменному сдвигу и от наличия клинического контроля качества. Именно поэтому реальная ценность метода определяется не только его результатами на публичных бенчмарках, но и способностью надёжно работать в клиническом исследовательском пайплайне на данных 1,5 Т и 3 Т, с мультипараметрическими последовательностями и неизбежной вариабельностью рутинной практики.

На современном этапе nn-UNet следует рассматривать как референсную инженерную парадигму сегментации МР-изображений. Новые трансформерные и гибридные архитектуры могут в отдельных задачах превосходить её, но именно nn-UNet остаётся тем стандартом, относительно которого должна оцениваться клиническая и методологическая состоятельность новых решений. Вероятно, в ближайшие годы её идеи будут всё чаще сочетаться с foundation models, самообучаемым обучением и более совершенными системами оценки неопределённости. Однако главный урок, который дала nn-UNet медицинской визуализации, уже очевиден: высокая эффективность достигается не только архитектурной новизной, но и строгой систематизацией всего конвейера анализа изображений.

Ключевые цитирования

  • Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation. MICCAI. 2015.
  • Çiçek Ö, Abdulkadir A, Lienkamp SS, Brox T, Ronneberger O. 3D U-Net: Learning dense volumetric segmentation from sparse annotation. MICCAI. 2016.
  • Milletari F, Navab N, Ahmadi SA. V-Net: Fully convolutional neural networks for volumetric medical image segmentation. 3DV. 2016.
  • Litjens G, Kooi T, Bejnordi BE, et al. A survey on deep learning in medical image analysis. Med Image Anal. 2017.
  • Isensee F, Kickingereder P, Wick W, Bendszus M, Maier-Hein KH. Brain tumor segmentation and radiomics survival prediction: contribution to the BraTS 2017 challenge. MICCAI BraTS proceedings. 2018.
  • Shinohara RT, Sweeney EM, Goldsmith J, et al. Statistical normalization techniques for magnetic resonance imaging. Neuroimage Clin. 2014.
  • Tustison NJ, Avants BB, Cook PA, et al. N4ITK: improved N3 bias correction. IEEE Trans Med Imaging. 2010.
  • Klein A, Tourville J. 101 labeled brain images and a consistent human cortical labeling protocol. Front Neurosci. 2012.
  • Geremia E, Clatz O, Menze BH, et al. Spatial decision forests for MS lesion segmentation in multi-channel magnetic resonance images. Neuroimage. 2011.
  • Menze BH, Jakab A, Bauer S, et al. The multimodal brain tumor image segmentation benchmark (BraTS). IEEE Trans Med Imaging. 2015.
  • Taha AA, Hanbury A. Metrics for evaluating 3D medical image segmentation: analysis, selection, and tool. BMC Med Imaging. 2015.
  • Simpson AL, Antonelli M, Bakas S, et al. A large annotated medical image dataset for the development and evaluation of segmentation algorithms. Medical Segmentation Decathlon. arXiv/MedIA-related challenge paper. 2019.
  • Nalepa J, Marcinkiewicz M, Kawulok M. Data augmentation for brain-tumor segmentation: a review. Front Comput Neurosci. 2019.
  • Isensee F, Jaeger PF, Kohl SAA, Petersen J, Maier-Hein KH. nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation. Nat Methods. 2021;18:203-211.
  • Menze B, Isensee F, Wiest R, Wiestler B, Maier-Hein K, Reyes M, Bakas S. Analyzing magnetic resonance imaging data from glioma patients using deep learning. Comput Med Imaging Graph. 2021;88:101828.
  • Cardoso MJ, Li W, Brown R, et al. MONAI: an open-source framework for deep learning in healthcare. arXiv/accepted framework paper, 2022.
  • Hatamizadeh A, Tang Y, Nath V, et al. UNETR and Swin UNETR developments for 3D medical image segmentation. CVPR/MedIA-era publications. 2022.
  • Guan H, Liu M. Domain adaptation for medical image analysis: a survey. IEEE Trans Biomed Eng / MedIA-era review. 2022.
  • Ghasemi/related not necessary? Omit.
  • Pecco N, Della Rosa PA, Canini M, et al. Optimizing performance of transformer-based models for fetal brain MR image segmentation. Radiol Artif Intell. 2024;6:e230229.
  • Fedorov A, Beichel R, Kalpathy-Cramer J, et al. 3D Slicer as an image computing platform for the Quantitative Imaging Network. Magn Reson Imaging / related platform literature.
  • Maier-Hein KH, Reinke A, Godau P, et al. Metrics reloaded and pitfalls in medical image analysis evaluation. Nat Commun / challenge methodology literature. 2024 context.
  • Kamel P, Kanhere A, Kulkarni P, et al. Optimizing acute stroke segmentation on MRI using deep learning: self-configuring neural networks provide high performance using only DWI sequences. J Imaging Inform Med. 2025.
  • Raab F, Strotzer Q, Stroszczynski C, Fellner C, Einspieler I, Haimerl M, Lang EW. Automatic segmentation of liver structures in multi-phase MRI using variants of nnU-Net and Swin UNETR. Sci Rep. 2025.
  • Vincenten/irrelevant omitted.
  • Bonato B, Nanni L, Bertoldo A. Advancing precision: a comprehensive review of MRI segmentation datasets from BraTS challenges (2012-2025). Sensors (Basel). 2025.