持续语义分割实战：从理论到方法，攻克增量学习中的灾难性遗忘-程序员充电站

1. 为什么你的语义分割模型总是"健忘"？

每次给模型喂新数据，旧知识就丢得一干二净？这就像让一个学生学完数学就忘记语文，学完物理就忘记化学。在持续语义分割任务中，这种现象被称为灾难性遗忘——模型在学习新类别时，对旧类别的识别能力断崖式下跌。

我去年在工业质检项目里就吃过这个亏。当时需要检测的缺陷类型从5种增加到12种，重新训练后的模型对新缺陷的识别率确实上去了，但原本能准确识别的老缺陷却开始频频误判。生产线上的误检率直接翻倍，差点造成百万级损失。

究其原因，神经网络本质上是参数共享的。当新数据进来时，反向传播会粗暴地调整所有参数，旧知识对应的权重分布就被破坏了。更麻烦的是语义分割这种密集预测任务——每个像素点都要分类，模型需要同时记住物体形状、纹理、上下文关系等多维度特征，遗忘问题比图像分类任务严重得多。

2. 对抗遗忘的两大流派

2.1 带着"错题本"学习：Data-Replay方法

这就像学生复习时翻看以前的笔记。具体操作时，我们需要在存储空间和模型效果间做权衡：

样本回放：直接存原始图片

# 示例：从旧数据集中选择代表性样本 def select_exemplars(dataset, num_samples): # 使用类别平衡策略 class_counts = np.bincount(dataset.labels) samples_per_class = num_samples // len(class_counts) return [dataset[class_idx][:samples_per_class] for class_idx in range(len(class_counts))]

优点是简单直接，但存储压力大。我在医疗影像项目里试过，存储1000张256x256的CT切片就要占用3GB空间。

特征回放：只存特征向量通过计算每个类别的特征均值（原型），存储空间能减少90%以上。不过实测发现，这对小物体（如电子元件中的焊点）效果较差，因为局部特征容易被平均化。

2.2 无存档学习：Data-Free方法

当遇到隐私或存储限制时（比如处理医疗数据），这类方法就是救命稻草：

自监督学习：让模型自己出题最近在用对比学习做道路场景分割时，我让模型区分同一位置不同天气的图像（正样本对）和不同位置的图像（负样本对）。这样即使没有旧数据标签，模型也能保持对道路结构的理解。

知识蒸馏：老模型当老师

# 新旧模型间的知识蒸馏 def distillation_loss(old_logits, new_logits, temperature=2): old_probs = F.softmax(old_logits / temperature, dim=1) new_probs = F.softmax(new_logits / temperature, dim=1) return F.kl_div(new_probs.log(), old_probs, reduction='batchmean')

温度参数temperature是关键——太高会模糊类别差异，太低又会导致梯度爆炸。经过多次调参，发现2-3之间最适合街景分割任务。

3. 实战中的场景适配技巧

3.1 不同增量模式的选择

类别增量（Class-Incremental）：新增物体类型比如从识别"汽车+行人"扩展到"汽车+行人+信号灯"。这时用生成式回放效果最好，我用RECALL-GAN生成的老类别图像，让模型在VOC数据集上的旧类别mIoU仅下降2.3%。
域增量（Domain-Incremental）：同一物体不同环境比如从晴天图像扩展到雨雾天图像。实测发现，结合自监督和轻量微调（仅调整最后两层）是最经济的方案，在Cityscapes数据集上训练时间比全参数调整少67%。