ACM MM 2025 | 复旦上财 TPP：文本提示 + 三重传播，革新医学影像序列分割 SOTA-程序员充电站

点击下方名片，解锁医学前沿阵地。

在现代影像诊断中，医生常常需要在连续的CT、MRI或内窥镜图像序列中精准定位特定解剖结构或病变。传统分割模型要么忽视序列间的关联性，要么缺乏与医生的交互能力——直到Text-Promptable Propagation（TPP）模型的出现，这一局面被彻底改变。

论文信息

题目：Text-Promptable Propagation for Referring Medical Image Sequence Segmentation

基于文本提示传播的指称医学图像序列分割

作者：Runtian Yuan、Mohan Chen、Jilan Xu、Ling Zhou、Qingqiu Li、Yuejie Zhang、Rui Feng、Tao Zhang、Shang Gao

源码：https://github.com/yuanruntian/TPP

医学影像分割的三大痛点

现有技术在处理医学图像序列时面临难以逾越的障碍：

孤立分析陷阱：2D模型将序列帧视为独立图像，丢失时间/空间关联性
计算成本难题：3D模型虽能捕捉相关性，但卷积操作代价高昂
交互缺失局限：无法通过自然语言指定目标，难以满足临床精准需求

如图1所示，这些局限导致传统模型在复杂临床场景中表现不佳。而TPP模型通过创新设计，完美解决了这三大痛点。

图1：传统分割模型在医学序列图像中的局限性（a-c）与TPP模型的交互优势（d-e）

重磅数据集：Ref-MISS-Bench横空出世

为推动这一领域发展，研究团队构建了目前规模最大的指称医学图像序列分割数据集——Ref-MISS-Bench。该数据集具有三大特点：

多模态覆盖：包含MRI、CT、超声、内窥镜4种主流医学成像模态
丰富解剖结构：涵盖20种器官和病变，从心脏、肺部到肝肿瘤、息肉
海量数据支撑：3,644个训练序列（125,487张图像）+1,061个测试序列（41,078张图像）

图2：Ref-MISS-Bench数据集的模态分布与解剖结构覆盖

数据集的文本提示由大语言模型生成并经放射科医生验证，每个目标结构包含3个描述（轮廓、形状、颜色），例如"肝肿瘤在CT上呈现不规则低密度影，边界模糊"。

TPP模型：文本提示+三重传播的创新架构

TPP模型的核心优势在于将自然语言理解与序列传播机制深度融合，其总体架构如图3所示：

图3：TPP模型架构包含跨模态指称交互与三重传播两大核心模块

跨模态指称交互：让模型听懂医学术语

多模态特征提取：

视觉编码器提取图像序列的多尺度特征
语言编码器将医学文本提示转换为语义向量

视觉-语言对齐：通过多头注意力机制建立图像区域与文本描述的关联，例如将"边界模糊的肿块"与图像中相应区域精准匹配
动态提示融合：自动筛选最相关的文本提示，聚焦模型注意力到目标结构
基于Transformer的三重传播：让分割在序列中"流动"
如图4所示，三重传播机制利用序列图像的连续性，实现目标的稳定追踪：
图4：传播策略对分割结果的提升（蓝色为传统方法，红色为TPP）
1. 框传播：前一帧的目标框作为当前帧的初始定位参考
2. 掩码传播：通过内存读取机制传递前帧的语义信息
3. 查询传播：将最优特征嵌入从历史帧传递到当前帧
这种设计使模型在处理内窥镜视频或3D断层扫描时，能像医生阅片一样利用上下文信息，显著提升分割一致性。
实验结果：全面超越现有方法
在Ref-MISS-Bench上的测试显示，TPP模型表现出压倒性优势：
医学领域对比
方法
心脏平均Dice
腹部平均Dice
总体提升
UNetR
72.3%
68.5%
-
MedSAM
76.1%
71.2%
-
TPP 85.6% 82.3% +9.5%
视频分割领域对比
在病变分割任务中，TPP以显著优势超越ReferFormer等方法：
- 肝肿瘤：65.27% vs 47.43%（+17.84%）
- 肾肿瘤：77.73% vs 61.75%（+15.98%）
图5：TPP模型在不同模态上的分割效果（从左到右：CT、MRI、内窥镜）
零样本与泛化能力
最令人惊叹的是TPP的泛化能力：
- 零样本设置下，乳腺肿块分割性能仅下降4.78%
- 单样本学习时，息肉分割效果与全数据训练相当
这意味着模型可快速适应新的解剖结构，极大降低临床部署成本。
消融实验：关键组件的贡献分析
通过 ablation study 验证了各模块的必要性：
图6：不同文本提示对分割性能的影响
- 详细描述性提示比仅用类名的提示性能高5%以上
- 掩码传播和查询传播对性能贡献最大（各+2.8%以上）
- 三重传播组合使用时效果最佳
临床价值与未来展望
TPP模型为医学影像分析带来三大变革：
1. 人机协作新模式：医生通过自然语言指令与AI交互
2. 跨模态统一框架：同一模型处理2D视频与3D断层图像
3. 低成本泛化能力：零样本/单样本学习降低标注需求
未来，随着提示工程的优化和多模态融合的深入，这类模型有望成为临床影像诊断的标配工具，让精准分割不再受限于特定设备或解剖结构。