论文题目:Exploring Unbiased Activation Maps for Weakly Supervised Tissue Segmentation of Histopathological Images
摘要:
组织病理学图像中的组织分割在计算病理学中起着至关重要的作用,因为它具有预测癌症患者预后的重要潜力。目前,许多弱监督语义分割(WSSS)方法都致力于利用图像级标签来实现像素级分割,目的是最小化对详细标注的需求。这些方法大多依赖于从分类模型中提取的类激活映射(CAM),经常导致对象覆盖率较低。主要原因是分类模型存在很强的归纳偏差,主要关注对象的区别性特征,而不是非区别性特征。受此启发,我们提出了一种简单而有效的方法,通过利用区分特征和非区分特征来引入自监督任务,并生成包含整个对象的无偏激活图(UAM)。具体地说,我们的方法需要对对象类的所有空间特征进行聚类来派生语义中心。然后,每个中心作为空间过滤器,放大相似特征并抑制相异特征,并提取高质量的伪标签(对象边界处的一些噪声)。此外,我们进一步提出了一种降噪(NR)学习方法来训练分割网络向可信信号方向,并减少了错误预测的影响。在两个公共组织病理学图像数据集上的综合实验结果表明,该方法的性能优于目前最先进的弱监督分割方法。
图1。比较来自CAM、Grad-CAM和我们的方法的激活图,顺序分别为:原始图像、地面真实情况、生成的伪标记以及肿瘤上皮(红色)、坏死(绿色)和肿瘤相关间质(橙色)的类激活图。它最好是彩色的。
1、Introduce
肿瘤微环境(TME)在促进肿瘤生长方面起着至关重要的作用[1],并显著影响癌症患者的预后和治疗结果[2]。确定TME中的各种组织类型,如肿瘤上皮组织、间质组织和正常组织,对于准确的癌症诊断和治疗计划至关重要,因为它们在肿瘤进展中起着关键作用。[1]。因此,区分和分割不同类型的组织对于TME的精确定量是至关重要的[3]。目前的组织分割标准使用组织病理学全切片图像(WSIS),提供十亿像素尺度的TME的高分辨率图像。近年来,深度卷积神经网络(DCNN)在具有像素级注释的组织分割任务中表现出了优越性,并取得了巨大的成功[4]。然而,密集像素级注释的收集是耗时和费力的,特别是对于组织病理学图像,因为它们的高分辨率和不同组织之间的复杂边界。
为了减少标注像素级标签的繁琐任务,已经引入了各种用于组织病理图像的弱监督语义分割(WSSS)方法,使用了不太精确的标签,如边界框[5]、涂鸦[6]、点注释[7]和图像级标签[1]、[8]。这些方法大大减少了标注工作,与像素级标注相比,图像级标签所需的时间减少了95%以上[1]。其中,基于图像级标签的类激活映射(CAM)[9]已经成为WSSS的流行策略。基于CAM的WSSS过程通常分三个阶段展开:1)利用图像级标签训练分类模型;2)通过CAM为每个类别生成伪标签;以及3)利用这些伪标签训练语义分割模型,就好像它们被完全标注一样。最终分割模型的有效性在很大程度上取决于CAM生成的伪标签的质量。然而,CAM经常受到前景对象稀疏覆盖的影响,导致大量对象像素被错误地识别为背景,如图1的第一行所示,其中只有几个像素以暖色突出显示。
最近的研究[8]、[10]强调了CAM的一个关键局限性,它源于分类模型固有的归纳偏差。这些模型倾向于优先考虑每一类的歧视性特征,而不是较少的非歧视性特征。具体地说,分类模型的目标不需要识别整个对象来最小化损失函数,从而导致使用不完整的输入特征进行分类。在最终卷积层之后的全局平均汇集(GAP)过程中,仅考虑最具区分性的特征,而忽略其他特征。对于肿瘤上皮组织分类,GAP可以过滤出一般的组织模式(即非区别性特征),允许模型关注特定的细胞排列和核非典型性关键(即区别性特征)以进行准确的分类。此外,对于肿瘤相关的间质、坏死和淋巴细胞浸润性组织,鉴别特征提供了区分不同类别的关键视觉线索(例如,致密的胶原纤维、组织空洞和圆形淋巴细胞)。相比之下,非区别性特征(例如,正常间质、低密度区域和非恶性淋巴组织聚集物)不能为分类提供有用的信息[11]。因此,从CAM生成的伪标签对于有效的分割来说是不够准确的。
为了解决这个问题,已经提出了几种方法[1]、[10]、[12],它们擦除区分区域以迫使网络识别每一类的更详细的区域。例如,HistoSegNet[12]采用Grad-CAM[13]以及一系列后处理方法来扩大CAM的激活区。Han等人的研究成果。[1]提出了一种基于模板擦除的方法,通过逐步扩大CAM的激活区域来获得高质量的伪标签。此外,Transformers[14]利用其捕获远程依赖项的能力,已经在WSSS中得到了利用。然而,这些方法都试图基于区分特征来细化激活区域映射。在病理图像中,组织边界特征通常是模糊的,仅依靠区别性特征来完全捕捉组织形态会增加边界区域的不确定性[15],如图1的第二行所示。因此,这些方法产生低质量的伪标签,并且进一步限制了最终分割模型的性能。
基于上述观察,我们假设,使模型能够同时关注区别性和非区别性特征可能有利于探索更完整的区域。基于这一假设,我们提出了一种新的弱监督语义分割框架,通过引入发现非区分对象区域的自监督任务来提高分割性能。具体地说,我们的框架需要对每个类别的所有空间特征进行聚类以获得语义中心,然后将每个中心顺序应用到特征图块上以产生我们的UAM,并生成高质量的伪标签。此外,针对语义分割中像素级伪标签不准确的问题,进一步提出了一种降噪(NR)学习方法来优化训练过程。具体地说,我们的方法利用置信度图作为权重,自适应地计算交叉熵损失,并鼓励网络将可信的监督信号优先于噪声监督信号。我们在两个弱监督组织病理学图像分割基准:LUAD-OrganoSeg[1]和BCS-WSSS[16]上对我们提出的方法进行了评估。广泛的实验和烧蚀研究表明,我们提出的方法优于最先进的WSSS和其他基于CAM的方法。与全监督模型相比,我们的方法具有相当的定量和定性结果。
总而言之,我们的主要贡献有三个方面。
- 提出了一种有效的具有图像级标签的弱监督组织分割方法,降低了标注代价。通过实现一个专注于发现对象的非区分部分的自我监督任务,我们的方法显著地增强了对整个对象的伪标签覆盖的全面性。
- 我们提出了降噪学习来改进噪声伪标签的分割,引入置信度加权来强调可靠的伪标签,并使网络能够专注于可信的监督信号而不是噪声的监督信号。
- 在两个公共组织病理学图像数据集上的实验结果表明,我们提出的方法优于最先进的WSSS方法。
2、Related Works
在这一部分中,我们回顾了使用图像级标签的弱监督语义分割方法,涵盖了自然图像和组织病理图像。此外,我们还探讨了噪声标签学习的最新进展。
A.弱监督语义切分
通常,弱监督分割方法根据其弱标注的类型分为三类:图像级标签[1]、[8]、涂鸦[6]和点[7]。在这些标签中,图像级标签是最容易获得的,因此受到了极大的关注。自从CAM[9]被引入以来,已经发展了许多弱监督语义分割(WSSS)方法,主要集中在解决CAM中的边界歧义问题。例如,SCCAM[17]通过在特征级别上聚类将对象划分为子类别,并使用此子类别信息训练分类网络,从而迫使网络学习更好的边界。此外,由于转换器能够捕获全局和长范围依赖关系[14]、[18],因此已被用于单级弱监督语义分割。然而,重要的是要注意,上述所有方法都是为自然图像设计的。由于组织病理学图像的同质性较高,直接应用这些方法往往会导致效果不理想。
组织病理学图像的精细注释需要专业知识,并在获取过程中构成重大挑战。一些学者试图将基于CAM的方法集成到组织病理学图像的WSSS中。例如,OrganoSegNet[12]使用Grad-CAM[13]以及一系列专门设计的用于组织病理学图像分割的后处理。Han等人的研究成果。[1]介绍了一种基于擦除的方法,该方法逐步扩大关注范围,以获取丰富的伪标签内容。张某等人。[19]利用Transformer对整个组织病理图像中的远程依赖关系进行建模,增强了CAM识别更完整区域的能力。此外,Zhang et al.[20]倡导将语言知识融入WSSS,为目标结构本地化提供可靠的指导。Li等人。[21]利用置信度损失去除伪标签中的噪声,只包含有信心的像素标签进行分割训练。然而,这些改进的变种在使用区别性特征捕获完整组织方面仍然遇到挑战。主要的局限性在于组织病理学组织的边界和局部内容不能仅通过区别性特征来完全捕捉。因此,由这些方法生成的伪标签可能缺乏精确地描绘完整目标区域的精度。相反,我们的方法利用非区分特征来生成具有增强的完整对象覆盖率的CAM。
B.自监督学习
近年来,自监督方法挖掘潜在信息并构建监督信号,为缩小完全监督语义分割和弱监督语义分割之间的监督差距提供了一种很有前途的解决方案。Wang等人。[22]对各种变换后的CAM图像进行一致性正则化,实现自监督学习。Edam[23]提出了一种后处理方法,将显著图中的置信度区域整合到CAM中。Chang等人。[17]引入发现子类别的自我监督任务,从而提供额外的监督以增强特征表示。Chen等人[24]提出了一种自监督的特定于图像的原型探测方法来获取完整的区域。此外,Lei等人也提出了自己的观点。[25]在一次学习过程中,通过在单个图像中找到班级中心点来传播涂鸦。然而,这些方法可以动态地生成单个原型来表示特定的类,导致不稳定。与已有方法相比,该方法充分考虑了类原型的多样性,引入了稳定化和多样性的原型来发现完整的区域,并构造了一种自监督的方式来增强特征表示的能力。
3、Method
在这一部分中,我们概述了我们的弱监督语义分割方法,重点是生成无偏激活图和实现准确的语义分割。我们的方法,如图2所示,分三个主要阶段展开。最初,我们采用训练分类网络的标准实践,使用CAM技术[9]来捕获初始对象响应,尽管其限于区分部分(见小节。III-A)。为了解决这个问题,我们的第二阶段引入了一个自我监督的任务,旨在产生更有效地包围整个对象的无偏伪标签(参见小节。III-B)。最后阶段涉及使用这些无偏伪标签训练DCNN进行语义分割,并辅之以降噪(NR)损失策略(见小节III-C)。在以下各节中,我们将详细介绍每个阶段。
A.多类标签分类
由于处理高分辨率组织病理学图像的计算能力的限制,一种被广泛采用的方法是将整个切片图像(WSIS)裁剪成大量较小的斑块图像。通常,从WSIS裁剪的补丁图像通常包含N+1个类别:N个前景类别(例如,肺癌中的肿瘤上皮、肿瘤相关间质、坏死和淋巴细胞)和一个背景类别。这为每个补丁产生了潜在的2N+1个不同的标签。然而,传统的单标签分类网络只能为每个斑块分配一个预测,忽略了斑块内多个组织区域的多样性和共存。相反,多标签分类网络可以灵活地处理同一图像内多个组织区域的共存,这为每种组织类型提供了独立的预测。因此,我们利用多标签分类网络来生成CAM。
为了简化这个过程,我们采用了一个二进制向量y∈{0,1}N+1,其中每个元素Yn表示补丁中是否存在类n。如图2(A)所示,我们利用具有标准分类网络ResNet-38[26]的CAM[9]技术。该网络处理输入面片x以产生特征映射f(X)∈RH×W×C,其中C表示通道数,H和W分别表示高度和宽度。我们使用多标签软边际损失[1]进行训练,并为每个类别生成CAM,如下所述:
其中Wn是类别n的分类器权重。
B.生成无偏伪标签
在多标签分类过程中,为了保证分类性能,分类器只输入区分特征,而非区分特征被间隙层剔除。这一原则使得分类器的权重大大偏向于区分特征,导致前景的非区分特征被识别为背景。我们假设,使模型能够同时关注歧视性和非歧视性特征,可以帮助探索更完整的区域。基于这一假设,我们提出了一种自监督的特征表示优化策略,旨在通过同时考虑区分特征和非区分特征来获得无偏的伪标签。具体地说,我们利用聚类方法获得原始空间特征的语义中心来表示每一类的区分特征。然后,基于这些语义中心,对原始特征进行空间滤波,将非区分特征聚合到前景区域,生成更准确的伪标签。图2(B)描述了该方法的过程,主要分为三个阶段:1)聚类语义中心;2)选择中心;3)生成无偏伪标签。
在接下来的部分中,我们将对每个阶段进行详细描述。
1)聚类语义中心:提出用语义中心来表示每类的特征分布,从而能够捕捉到更完整的区域。与少镜头分割中的中心表示不同,WSSS中没有像素级掩模。为了探索表征特征分布的语义中心,我们设计了一个高效的两步流水线。第一步提供分类的前景和背景集合,第二步将这些集合聚集在一个综合的特征空间上,以实现准确的类表示。
首先,给定一个图像样本x,对于每个类别,我们基于生成的CAM在空间上将特征块f(X)分成两个集合:前景的F和背景的B:
其中f(X)i,j∈Rc表示位置(i,j)处的空间特征,而τ是用于从CAMn(X)生成0-1掩码的阈值。F包含被识别为前景的空间特征,而B包含被分类为背景的空间特征。对于每一类,为了简单起见,我们将所有样本上的前景特征合并到集合F中,并类似地,将背景特征合并到集合B中,以省略类下标。
然后,我们将K-均值聚类应用于F和B,旨在识别每个集合中的K个聚类中心,其中K是预定义的超参数。值得注意的是,对于每个前景类(例如,肿瘤上皮组织),背景可以不仅包括空白区域,而且可以包括各种类型的组织,诸如肿瘤相关间质、坏死组织或炎症区域。因此,我们使用K个聚类中心来分别表示每个前景类及其对应的背景类,以确保完全捕获所有特征。前景的结果簇中心表示为F={F1,···,FK},背景的结果簇中心表示为B={B1,···,BK}。这个过程有效地将相似的特征组合在一起,便于区分特定类别图像区域的前景和背景中的重要模式。2)选择中心:由于CAM中的特征偏向表示,背景特征有可能被错误地分类到前景集合F.因此,所获得的语义中心并不完全可靠。为了缓解这个问题,引入一个‘评估者’对于确定集群中心作为质心的适宜性是至关重要的。一种实用的解决方案利用分类器的权重Wn来充当这个自动评估器。该方法通过应用Wn来计算F内每个前景集群中心Fi的预测分数,使得能够更有洞察力地选择相关特征并提高所生成的伪标签的总体精度:
其中wj表示分类器的第j类权重。随后,我们选择置信度较高的中心,特别是其中zi?f为阈值的中心,通常设置为较高的值,如0.9.所选中心表示为ˆF=Fˆ1,···,ˆFˆKF。直观地,这种具有自信预测的中心被认为是前景类的核心语义特征或质心的代表,从而确保在分割过程中只强调最相关的特征。
在准备使用这些前景质心生成无偏激活图(UAM)的过程中,我们的方法有意地保留了非区分特征,同时主动抑制了强背景特征或假阳性。这种平衡是通过以类似于但与我们处理前景质心的方式相反的方式来处理背景质心来实现的。具体地说,对于集合B内的每个背景集群中心Bi,我们采用与用于前景中心Fi相同的评估策略,计算预测分数。这种双重方法确保了前景和背景之间的细微差别,通过突出相关特征和最大限度地减少来自强但不相关的背景信号的干扰,提高了生成的UAM的准确性和可靠性。
一个经过良好校准的模型,经过精确的类别标签训练,预计将产生对背景特征的低预测分数,表明它们与目标类别无关。因此,我们选择那些预测分数zi低于阈值µb(通常设置在0.9左右)的中心,并将这些中心指定为Bˆ=Bˆ1,···,ˆBˆKb。需要注意的是,我们的方法不会对超参数µf和µb的值过于敏感,只要它们在合理的范围内。这一点的经验验证载于第五至B.4节。
3)生成无偏伪标签:每个质心代表一个视觉模式,其中Fi中的对应类相关模式,Bi中的对应背景相关模式。例如,在肿瘤上皮组织分割的背景下,前景质心可能捕获诸如肿瘤上皮组织特有的乳头状结构、微乳头状结构或腺泡结构等结构模式。相比之下,背景质心可以识别非肿瘤特征,如同质性或树突状结构,通常见于坏死性或淋巴细胞性背景。为了使模型能够同时关注区分特征和非区分特征,我们基于语义原型对原始特征进行空间过滤。该方法将非区分特征聚合到前景区域中,目的是生成无偏伪标签。
具体地说,每个质心都起到了空间过滤器的作用,增强了与自身相似的特征,而削弱了不同的特征。对于每个质心,我们在特征图块f(X)上的所有空间位置上滑动它,计算它与每个位置上的空间特征的余弦相似度。最终,这将产生质心和空间特征之间的余弦相似图。在计算了所有相似图(通过滑动所有质心来实现)之后,我们以以下方式聚合它们:
其中n表示类的索引,i表示第n类的质心集合Fˆ或Bˆ的索引。函数sim()表示余弦相似度。由于sim()值始终落在[−1,1]的范围内,因此fsn和bsn贴图上的每个像素都有一个规格化值,这意味着fsn和bsn是规格化的。直观地,FSN突出显示输入图像中与第n个质心相关的类区域,而BSN强调背景区域。前者需要保留,而后者(例如,与背景特征高度相关的像素)应该被移除。因此,我们可以将UAM制定如下:
我们使用线性内插法对归一化的UAM(X)进行上采样,从而确保其大小与输入图像的大小一致。注意,最终激活映射UAm(X)∈RH×W×N具有N个通道,每个通道对应于前景类。然而,在分割任务中,有N+1个类,其中包括一个额外的背景类。为了将UAM(X)转换为用于分割的伪标签Y(X),其中0表示背景,[1,···,N+1]表示前景类,我们首先使用颜色阈值方法[1]将输入图像的白色区域识别为背景类。因此,获得二元背景掩码MBG∈0,1H×W×1,其中0和1分别表示背景区域和前景区域。然后,我们对UAM(X)应用argmax运算,并将每个值递增1,以确保其值落在[1,N+1]的范围内。最后,将结果乘以二元前景掩码MBG,将伪标签Y(X)中的背景区域设置为0:
C.利用伪标签进行分割
WSSS的主要目标是利用高质量的伪标记来分割组织,就像在完全监督的条件下一样。我们使用带有ResNet-38[26]主干的DeepLabV3+[27]作为基本的分割框架,省略了DenseCRF用于后处理。值得强调的是,ResNet-38权重在分类阶段进行了预训练。在接收到输入图像x及其对应的无偏伪标签Y(X)时,我们继续从倒数第二层提取特征地图。然后通过Gumbel Softmax估计器对该特征图进行处理,产生N+1维概率图P。与Softmax估计器相比,Gumbel Softmax估值器通过引入重新参数化技巧来促进概率图中更极化的分布[28],这对于训练分段网络是有益的。
然而,WSSS面临着噪声标签的挑战,尤其是在组织病理学图像分割中。非优势组织的标记,如坏死和淋巴细胞,经常被优势组织的标记模糊,导致UAM中象素的表达不足,从而降低了对这些类别存在的置信度。这种情况增加了为非主要类别生成低于平均水平的伪标签的可能性,通过适合于标签噪声来提高假阳性率。
为了减少噪声标签的影响,降低误检率,我们引入了一种降噪(NR)损失LNR。该方法通过应用置信度来调整传统的二值交叉熵损失,旨在利用更可靠和更干净的监督。为了实现这种方法,我们首先计算UAM中每个前景类的置信度映射CMN∈RH×W,如下所示:
在那里我代表第i个前台班。对于背景类,我们使用1−MBG来计算置信度图CMBG。然后,将前景类和背景类的置信度图连接起来,形成用于调整二进制交叉熵损失的统一方案:
在该公式中,CMN动态调整第n类(包括背景类)的损失,Yn表示第n类是否存在于补丁中,Pn表示预测的概率。这种加权损失机制的目的是将模型的训练重点细化到类识别置信度较高的图像段。它的设计是为了减轻噪声标签的影响,并通过强调对更可靠的标签区域的训练来潜在地降低假阳性率,从而在最小化错误标签数据的影响的同时提高模型在识别优势类和非优势类方面的性能。
4、DATASETS AND IMPLEMENTATION DETAILS
A.数据集
1)LUAD-OrganoSeg:公共弱监督组织语义分割数据集LUAD-OrganoSeg[1]包括广东省人民医院的29例患者和TCGA的20例肺腺癌患者。数据集提供商已将WSIS裁剪成17,285个斑块,目标放大倍数为10倍,斑块大小为224×224。对于弱监督分割任务,三位病理学家注释了四种前景组织类型:肿瘤上皮(TE)、肿瘤相关间质(TAS)、坏死(NEC)和淋巴细胞(LYM),其中一块可能包含一种以上类型的前景组织。数据集被划分为训练集(16,678块,图像级注释)、验证集(300块,像素级注释)和测试集(307块,像素级注释)。
2)BCS-WSSS:我们使用BCSSWSSS[16]数据集将我们的弱监督方法与全监督方法进行了比较,旨在评估我们所提出的模型的有效性。该数据集包含151个感兴趣区域(ROI),这些ROI来自151个H&E染色的乳腺癌整张幻灯片图像,为每个ROI提供像素级注释。注释包括五种组织类型:肿瘤(TUM)、间质(STR)、淋巴细胞浸润性(LYM)、坏死性(NEC)和其他(OTR)。根据这些ROI,数据集提供者通过裁剪和应用语义分割掩码来生成31,826个补丁,以创建One-Hot编码矢量。然后,将这些补丁分配到具有23,422个补丁(图像级注释)的训练集、具有3,418个补丁(像素级注释)的验证集、以及包括4,986个补丁(像素级注释)的测试集。
B.实施细节
我们的方法是在由NVIDIA RTX Titan GPU支持的Ubuntu系统上用PyTorch实现的。我们分别使用ResNet-38[26]和DeepLabV3+[27]作为分类和分割的骨架。在分类阶段,图像块以224×224像素的分辨率进行处理,批次大小为20。训练持续了20个纪元(LUAD-HistoSeg数据集)和40个纪元(BCS-WSSS数据集),初始学习率为1E2,通过多项式衰减策略进行调整。在伪标签生成阶段,我们重用了分类模型的权重,将阈值τ设置为LUAD-HISTIOSEG的0.25%和BCSSWSS的0.4%。对于LUAD-HistoSeg,集群参数K被选择为10,对于BCS-WSSS,集群参数K被选择为12,其他超参数(µf和µb)根据验证性能被优化为0.9。在分割过程中,我们将训练周期保持在20,并将两个数据集的学习率设置为7E-2,而不限制图像分辨率。应用了数据增强技术,如随机重新缩放、裁剪、垂直翻转、高斯模糊和归一化。我们使用每个类别的交集(IOU)、平均IOU(MIUU)和频率加权IOU(FwIoU)来评估模型的性能。
5、Experiments
在这一部分中,我们进行了一系列实验,以全面评估我们提出的模型在仅使用图像级标注实现语义分割方面的有效性。第五至A节用最先进的方法进行了定量和定性比较。随后,我们在V-B小节中进行消融研究,以评估我们提议的方法的有效性。
A.比较最先进的方法
1)与伪标签生成方法的比较:为了评价生成的伪标签的质量,我们与几种典型的基于伪标签生成的方法进行了比较,包括CAM[9]、Grad-CAM[12]、SC-CAM[17]、TransWS[19]、MLP[1]、SIPE[24]Hamil[15]和TPRO[20]。定量和定性结果如表一所示。表一比较了我们的伪标记物与以前方法产生的伪标记物的质量。请注意,TPRO是唯一一种使用多通道信息(语言和图像信息)生成伪标签的方法。对于其他方法,我们使用分类模型Restnet-38[26]从输入图像生成伪标签。具体地说,与基准CAM相比,我们的方法在所有指标上都有显著的提高,例如,在LUAD-HistoSeg上,MIUU从70.44%提高到76.24%,在BCSSWSSS上从56.52%提高到68.11%。同时,我们的方法在LUAD-OrganoSeg上以1.30%(74.94%比76.24%)的性能提升了次好的TPRO方法,在BCS-WSSS上以3.78%(64.33%比68.11%)的性能提升了性能。此外,对于所有类别的伪标签生成,我们的方法也取得了最好的性能。值得注意的是,所有这些竞争方法都没有考虑目标的非区分特征,这通常导致在伪标签生成中对前景目标的覆盖率较低。
2)与WSSS方法的比较:为了验证我们的方法的有效性,我们用我们生成的伪标签训练了一个分割模型,并将它的性能与已有的WSSS方法进行了比较:StanoSegNet[12]、TransWS[19]、OEEM[21]、MLP[1]、Hamil[15]和TPRO[20]。所有方法都使用DeepLabV3+[27]作为其分割框架。基线方法包括使用CAM衍生的伪标签来训练分割模型。请注意,OEM、HAMIL、MLP和我们的方法应用了不同的标签降噪策略,而其他方法使用的是二进制交叉熵损失。表II中给出的定量结果显示,以前方法中的伪标签显示出相当大的噪声,对分割精度产生了不利影响。在LUAD-HistoSeg数据集上,OEEM、MLP、HAMIL和TPRO显示出比基线略有改善,分别增长了12.12%、14.33%、13.79%和17.5%。我们的方法显著优于这些方法,在两个数据集上将MIU值分别提高到78.31%和70.88%,分别比基线高19.01%和24.64%。这些数字突显了我们方法的卓越性能和最先进的地位。
我们还通过分析LUAD-OrganoSeg上每个类别的IOU分布来评估我们的方法与以前的方法相比的稳定性。稳定性,由IOU分布中较高的平均值和较低的标准差表示,在小提琴曲线图中直观地表示(图4)。我们的方法增强了跨类的稳定性和一致性,在性能可靠性方面超过了其他方法。
3)定性比较:图3展示了两个数据集上不同模型的定性结果,其中我们的模型在描绘更准确的组织边界方面优于以前的研究。这一改进源于解决了CAM的一个基本局限性,该局限性倾向于关注区别性特征,而使得非区别性特征较少被代表。正如在黑色矩形中突出显示的那样,由于这一限制,传统方法不能捕获精确的边界。我们的方法通过引入无偏激活图,有效地抑制了最具区分性的区域,促使神经网络利用更广泛的图像特征。这一策略调整大大提高了弱监督语义分割在组织病理学图像中的性能。此外,定性分析证实了在分割阶段引入伪监督的重要性,这对于减少分类过程中引入的噪声起着至关重要的作用。
B.消融研究
1)与完全监督的比较:在使用为组织语义分割提供像素级注释的BCS-WSSS数据集的实验中,我们将我们的伪监督方法与完全监督方法进行了比较。这两个模型都使用了DeepLab V3+架构,并针对相同数量的纪元进行了培训,以保持可比性。表III中详细的结果显示,我们的伪监督模型在所有组织类型(包括不太常见的组织类型)上实现了与完全监督模型的近乎等同,性能差异低于2%。图5所示的定性分析表明,伪监督模型的分割结果实际上与完全监督方法的分割结果相当。尽管这两个模型都显示出与人工注释高度一致,但在组织类别模糊的区域划定平滑边界时遇到了困难。这一比较强调了伪监督在语义分割任务中接近完全监督的精度的潜力,为病理学家提供了大量的注释工作量,并为优化组织病理学分析中的资源效率指明了一个有前途的方向。
2)对比基础模型:近年来,在海量数据集上训练的基础模型,如Segment Anything Model(SAM)[29],由于其强大的泛化能力,大大简化了图像分割过程,使其在不可见图像和对象上具有优异的性能。我们使用SAM代替CAM来生成伪标签,并将其与UAM进行比较。定量和定性结果如表IV和图6所示。比较表明,我们的方法优于SAM。我们分析了SAM性能较差的原因是SAM可能仍然需要针对特定的组织病理学分析领域进行微调或调整。然而,在WSSS中,由于缺少像素级标签,SAM无法进行微调,导致其性能不足。
3)关键成分的贡献:我们在LUAD-OrganoSeg数据集上的方法评估强调了无偏激活图(UAM)和降噪损失LNR的关键作用。如表五所示,仅实施UAM就导致了所有组织类型的显著增强,反映在FwIoU和MIEU指标中,分别比基线增加了16.8%和16.57%。图1示出了UAM在生成确保全面的对象表示同时最小化背景噪声的优良伪标签方面的有效性。加入降噪后的LNR进一步将模型的精度提高了2.44%,显示了这些分量的相加效应。总而言之,UAM通过提高标签质量为准确分割提供了坚实的基础,而LNR优化了这些标签的使用,突出了它们对我们方法卓越性能的协同影响。
4)超参数敏感性分析:在图7中,我们给出了在LUAD-StanoSeg和BCS-WSSS数据集上通过在分割阶段整合UAM所实现的生成的无偏伪标签的质量(MIUU)。通过调整几个关键参数的值来进行超参数敏感性分析:(A)用于区分前景和背景特征的阈值τ,(B)K-Means聚类算法中使用的聚类数K,以及(C)和(D)分别用于选择与前景和背景相关联的质心的阈值µf和µb。图7(A)表示在LUAD-HIGROOSEG和BCSSS-WSSS数据集上的τ的最佳值分别为0.25和0.4。微小的调整不会显著影响结果;例如,在图7(B)中,将τ增加到0.35时,UAM的降幅小于1。在图7(B)中,当K设置为10和12时,UAM的最佳MIU值分别为75.87%和69.56%,并且当K增加到15时,UAM的最优MIU值仅下降1.1个百分点。图7(C)和(D)表明,µf和µb的最佳值均设置为0.9。平缓的曲线表明,UAM对µf和µb相对不敏感。这归因于分类模型的特点,分类模型在WSSS的初始阶段进行训练,以产生概率接近0或1的过度自信的预测。因此,为这些不同的值设置阈值(µf和µb)非常简单。
6、Discussion
我们创新的无偏激活图(UAM)技术引入了一种通过聚类局部质心来计算热图的方法,显著提高了分割任务的伪标签质量。如表V和图1所示,UAM实现了优于传统CAM的边界划定和本地化,而不需要额外的培训。它在理论上是通用的,能够与各种基于CAM的WSSS框架和潜在的其他特征提取程序集成,标志着分割方法的重大进步。
此外,我们的降噪学习策略进一步提高了分割性能。请注意,这种方法不需要额外的信息,只是最大限度地利用了UAM中的信息。该技术可以应用于病理图像处理中存在噪声标签的各种场景,包括半监督学习[30]和无监督学习[31]。
尽管我们的方法具有优势,但我们的方法也有局限性,指出了令人兴奋的未来方向:1)视觉转换器[19]的探索在图像分类中显示了良好的结果,可以进一步提高我们方法的效率,超过基于DCNN的模型。2)解决了在组织病理图像中选择高质量伪标记的挑战,在组织病理图像中,传统的K-均值可能由于组织区域完整性问题而步履蹒跚,通过考虑用于更准确的中心选择的分层聚类[32]。3)研究降维,如主成分分析(PCA)[33],以提高余弦相似性对高维特征的效用,潜在地提高整体性能。4)构建了一种通用的组织病理图像弱监督语义分割方法,并以肺癌和乳腺癌为例进行了验证。在未来的研究中,这种方法可以扩展到其他癌症和组织类型的组织病理图像。这些见解强调了我们的方法对该领域的贡献,以及它在组织病理图像分割方面未来发展的广泛潜力。