SAMed/MedSAM以及SwinUNet都不敌，SAMUS才是UNet与SAM结合的正确的道路，一路SOTA没对手！

点击下方卡片，关注「AI视界引擎」公众号

SAM是一种杰出的通用图像分割模型，在医学图像分割领域近来引起了相当大的关注。尽管SAM在自然图像上表现出色，但在处理医学图像，特别是涉及低对比度、模糊边界、复杂形状和小尺寸目标的医学图像时，其性能明显下降且泛化能力有限。

在本文中，作者提出了SAMUS，这是一种专为超声图像分割定制的通用模型。与以前基于SAM的通用模型不同，SAMUS不仅追求更好的泛化性能，还降低了部署成本，使其更适用于临床应用。

具体而言，基于SAM，引入了一个并行的CNN分支，通过跨分支的注意力将局部特征注入ViT编码器，以实现更好的医学图像分割。然后，开发了Position Adapter和Feature Adapter，将SAM从自然领域适应到医学领域，并从需要大尺寸输入（1024×1024）适应到小尺寸输入（256×256），以更适合临床应用。

作者收集了一个包括约30,000张图像和69,000个Mask，涵盖6个目标类别的全面超声数据集进行验证。广泛的比较实验在任务特定评估和泛化评估下展示了SAMUS相对于最先进的任务特定模型和通用基础模型的优越性。此外，SAMUS可以部署在入门级GPU上，因为它已经摆脱了长序列编码的限制。

代码、数据和模型：https://github.com/xianlin7/SAMUS

1、简介

医学图像分割是一项关键技术，用于识别和突出显示医学图像中的特定器官、组织和病变，是计算机辅助诊断系统的重要组成部分。已经提出了许多深度学习模型，用于自动医学图像分割，展示出巨大的潜力。然而，这些模型都是为特定目标量身定制的，应用于其他目标时需要重新训练，给临床使用带来了很大的不便。

SAM作为视觉分割的通用基础模型，因其在各种目标上出色的分割能力和强大的零样本泛化能力而广受好评。根据用户提示，包括点、边界框和粗略Mask，SAM能够分割相应的目标。因此，通过简单的提示，SAM可以轻松地适应各种分割应用。这一范 paradigm 使多个个体医学图像分割任务集成到一个统一的框架中（即通用模型），极大地促进了临床部署。

尽管构建了迄今为止最大的数据集（即SA-1B），但由于可靠临床注释的稀缺性，SAM在医学领域遭遇了快速的性能下降。一些基础模型已经提出，通过在医学数据集上调整SAM，将其适应医学图像分割。然而，与SAM一样，它们在进行特征建模之前在输入图像上执行无重叠的16×Tokenization，这破坏了用于识别小目标和边界的局部信息，使其难以分割具有复杂/丝状形状、弱边界、小尺寸或低对比度的临床目标。此外，它们中的大多数需要尺寸为1024×1024的输入，导致GPU消耗巨大，因为生成了长输入序列。

在本文中，作者提出了SAMUS，旨在将SAM的出色分割性能和强大的泛化能力转移到医学图像分割领域，同时降低计算复杂性。SAMUS继承了SAM的ViT图像编码器、提示编码器和Mask解码器，具有针对图像编码器的定制设计。首先，作者通过减小输入尺寸来缩短ViT分支的序列长度，以降低计算复杂性。然后，作者开发了一个Feature Adapter和一个Position Adapter，用于将ViT图像编码器从自然领域微调到医学领域。

为了补充ViT图像编码器中的局部（低级）信息，作者引入了一个并行的CNN分支图像编码器，与ViT分支并行运行，并提出了一个跨分支注意力模块，使ViT分支中的每个块可以从CNN分支 assimilate 局部信息。此外，作者构建了一个名为US30K的大型超声数据集，包括30,106张图像和68,570个Mask，以全面评估SAMUS的有效性。实验结果表明，SAMUS在任务特定和通用医学图像分割方面均优于最先进的方法。更重要的是，与SAM相比，SAMUS具有显着的泛化能力，同时大大降低了培训成本。

贡献总结如下：

一种基础模型SAMUS，专为通用超声图像分割而设计，与SAM相比，需要更少的GPU资源。
一种CNN分支图像编码器和跨分支注意力模块，可以有效补充ViT图像编码器中的局部信息。
一种Feature Adapter和Position Adapter，用于微调ViT分支图像编码器，进一步优化SAM以适应医学领域。
一个包含30,106张图像和68,570个Mask的大型超声数据集，用于全面评估SAMUS的有效性。

2 相关工作

2.1 视觉调优

随着计算机视觉中基础模型的惊人发展，提出了一系列视觉调优方法，以将这些基础模型适应下游任务。通常，最近的视觉调优方法可以分为五大类，包括微调、参数调优、重新映射调优、提示调优和自适应调优。

具体来说，微调方法涉及调整预训练模型的整个参数集或有选择地微调预训练模型的特定部分。参数调优方法直接修改模型参数的权重或偏差。重新映射方法通过知识蒸馏、基于权重的重新映射或基于架构的重新映射将从预训练模型中学到的信息传递给下游模型。提示调优通过将一组可学习参数与输入进行结合或设计一个子网络来生成视觉提示的方式，引入了下游任务的知识。Adapter调优是最广泛采用的策略，通过将额外的可学习参数与冻结的预训练模型相结合，促进了下游任务的学习。

2.2 将SAM适应到医学图像分割

SAM在自然图像中表现出色，但在某些医学图像分割任务中遇到困难，尤其是在具有复杂形状、模糊边界、小尺寸或低对比度的目标上。

为了弥补这一差距，使SAM能够有效地适应医学图像领域，已经提出了几种方法，使用有限的下游医学数据集来调整SAM。MedSAM通过冻结图像编码器和提示编码器，重点调整SAM的Mask解码器，以可接受的成本在医学图像上进行训练。SAMed采用低秩（LoRA）策略对图像编码器进行调优，以更低的计算成本调整SAM，使其更适用于医学图像分割。MSA在ViT图像编码器的每个变换层上采用两个downReLU-upAdapter来引入任务特定信息。

SAMed/MedSAM以及SwinUNet都不敌，SAMUS才是UNet与SAM结合的正确的道路，一路SOTA没对手！

如图1所示，与当前基于SAM的基础模型相比，提出的SAMUS更注重补充局部特征并减少GPU消耗，这对于在临床场景中进行准确且易于部署的医学图像分割至关重要。

3 方法

3.1 概述

SAMed/MedSAM以及SwinUNet都不敌，SAMUS才是UNet与SAM结合的正确的道路，一路SOTA没对手！

如图2所示，SAMUS的总体架构继承自SAM，保留了提示编码器和Mask解码器的结构和参数，没有进行任何调整。相比之下，图像编码器经过精心修改，以解决局部特征不足和计算内存消耗过多的挑战，使其更适合于临床友好的分割。主要修改包括减小输入尺寸，重叠的Patch嵌入，向ViT分支引入Adapter，添加CNN分支以及引入跨分支注意力（CBA）。

具体来说，输入的空间分辨率从1024×1024像素缩小到256×256像素，由于Transformer中较短的输入序列，GPU内存成本大幅降低。重叠的Patch嵌入使用与SAM中的Patch嵌入相同的参数，但其Patch跨度减半，与原始跨度保持良好的信息一致性。

ViT分支中的Adapter包括Position Adapter和5个Feature Adapter。Position Adapter用于适应较短序列中的全局位置嵌入，因为输入尺寸较小。第一个Feature Adapter遵循了重叠的Patch嵌入，以使输入特征与预训练的ViT图像编码器所需的特征分布相一致。其余的Feature Adapter附加到全局Transformer中的前馈网络的残差连接上，以微调预训练图像编码器。

在CNN分支方面，它与ViT分支并行，通过CBA模块向后者提供互补的局部信息，该模块以ViT分支特征作为Query，并与CNN分支的特征建立全局依赖性。值得注意的是，CBA仅集成到每个全局Transformer中。最后，两个分支的输出被合并为SAMUS的最终图像特征嵌入。

3.2 ViT分支中的Adapter

为了促进SAM的训练图像编码器（即ViT分支）在更小的输入尺寸和医学图像领域的泛化，作者引入了一个Position Adapter和5个Feature Adapter。这些Adapter可以有效地调整ViT分支，同时只需要更少的参数。

具体来说，Position Adapter负责调整位置嵌入以匹配嵌入序列的分辨率。它首先通过Stride和Kernel-Size为2的最大池化对位置嵌入进行降采样，实现与嵌入序列相同的分辨率。随后，应用Kernel-Size为3×3的卷积操作来调整位置嵌入，进一步帮助ViT分支更好地处理较小的输入。

所有Feature Adapter具有相同的结构，包括下投影、激活函数和上投影3个组成部分。每个Feature Adapter的过程可以表示为：

SAMed/MedSAM以及SwinUNet都不敌，SAMUS才是UNet与SAM结合的正确的道路，一路SOTA没对手！

其中G代表GELU激活函数，和是投影矩阵，是特征嵌入的维度。通过这些简单的操作，Feature Adapter使ViT分支更好地适应医学图像领域的特征分布。

3.3 CNN分支

CNN分支由顺序连接的卷积-池化块组成。具体来说，输入首先通过一个单一的卷积块，然后通过3个卷积-池化块进行处理。

然后，CNN分支中的特征映射与ViT分支的特征映射具有相同的空间分辨率。在CNN分支的其余部分，这种单一的卷积块被连续重复4次。CNN分支的这种简约和轻量级设计是为了防止训练过程中的过拟合。

3.4 跨分支注意力

跨分支注意力（CBA）模块在CNN分支和ViT分支之间建立了一个桥梁，以进一步通过ViT分支补充缺失的局部特征。

对于来自ViT分支Fv和CNN分支的特征映射对，单一Head的跨分支注意力可以表示为：

SAMed/MedSAM以及SwinUNet都不敌，SAMUS才是UNet与SAM结合的正确的道路，一路SOTA没对手！

其中代表函数。，和是用于将和投影到不同特征子空间的可学习权重矩阵。是相对位置嵌入，是CBA的维度。CBA的最终输出是这种单头注意力的线性组合。

3.5 训练策略

在训练之前，SAMUS使用在SA-1B上训练的权重来初始化从SAM继承的参数。其余参数被随机初始化。在训练过程中，只有Adapter、CNN分支和CBA模块的参数会被更新，而其他参数将保持冻结。训练过程通过组合损失函数进行监督，包括Dice损失和二元交叉熵损失。

为了方便使用，SAMUS只使用最简单的正点提示。作者通过在标签的前景区域中随机采样一个点来模拟专家提供提示的过程。SAMUS使用Adam优化器进行训练，初始学习率为0.0001，批大小为8，共进行200个epochs的训练。

4、实验

4.1 与SOTA任务特定方法的比较

比较方法：选择了12种SOTA任务特定方法进行比较，涵盖了基于CNN、基于Transformer和CNN-Transformer混合方法。

基于CNN的方法包括U-Net、CPFNet、CA-Net、CE-Net和AAU-Net
基于Transformer的方法包括SwinUnet、SETR和MISSFormer
CNN-Transformer混合方法包括TransUNet、TransFuse、FAT-Net和H2Former

定量结果：

SAMed/MedSAM以及SwinUNet都不敌，SAMUS才是UNet与SAM结合的正确的道路，一路SOTA没对手！

在TN3K、BUSI、CAMUS-LV、CAMUS-MYO和CAMUS-LA上，不同任务特定方法的定量结果总结在表7中。

SAMed/MedSAM以及SwinUNet都不敌，SAMUS才是UNet与SAM结合的正确的道路，一路SOTA没对手！

在这些最先进的方法中，H2Former在TN3K和CAMUS-MYO上取得了最佳性能，分别获得了82.48%和87.31%的平均Dice分数。TransUnet、CA-Net和FATNet在BUSI、CAMUS-LV和CAMUS-LA上取得了最佳性能，平均Dice分数分别为82.22%、93.59%和91.55%。

相比之下，SAMUS在包括TN3K、BUSI、CAMUS-LV、CAMUS-MYO和CAMUS-LA在内的所有5个任务上都取得了更好的性能，平均Dice分数分别为84.45%、85.77%、93.73%、87.46%和91.58%。这验证了SAMUS将SAM适应医学图像领域的有效性。

定性结果：

不同方法的定性分割结果，包括U-Net、AAU-Net、MISSFormer、H2Former和SAMUS，如图4所示。

SAMed/MedSAM以及SwinUNet都不敌，SAMUS才是UNet与SAM结合的正确的道路，一路SOTA没对手！

从视觉上看，超声图像的分割因其低对比度、不均匀特征和模糊的物体边界而具有挑战性。现有方法难以准确区分目标和背景，导致了大量的假阴性和/或假阳性。

相比之下，SAMUS在保持目标区域的完整性和减少假阳性方面表现出优越性。这归功于SAM框架的固有优势，以及SAMUS引入的具体调整和设计。

泛化能力：

SAMed/MedSAM以及SwinUNet都不敌，SAMUS才是UNet与SAM结合的正确的道路，一路SOTA没对手！

不同任务特定方法的泛化性能定量比较如图3所示。在比较方法中，H2Former、TransUnet和TransFuse分别在DDTI、UDIAT和HMC-QU上取得了最佳性能。

相比之下，SAMUS在每个数据集上都超过了最佳比较方法，并分别提高了Dice分数，平均增加了7.06%、12.22%和7.42%。在可见和不可见数据集之间的性能比较中，与其他比较方法相比，SAMUS在3个不同的分割任务中都遇到了最小的性能下降。

一个有趣的观察是，在乳腺癌分割任务上，SAMUS在不可见数据集（即UDIAT）上的性能甚至优于可见数据集（即BUSI）上最佳比较方法。这显示了SAMUS在处理未知领域方面的出色泛化能力，展示了它在各种医学图像分割场景中的稳健性和适应性。