论文核心信息
论文标题:DL-MAML:一种新的蝴蝶物种自动识别模型
发表期刊:《计算机研究与发展》(2024 年第 61 卷第 3 期)
作者团队:赵戈伟(陕西师范大学计算机科学学院)、许升全(陕西师范大学生命科学学院)、谢娟英(陕西师范大学计算机科学学院)
DOI:10.7544/issn1000-1239.202220860
核心创新:融合深度学习特征提取与改进型 MAML 元学习,解决野外蝴蝶小样本、细粒度分类的泛化难题
一、模型整体架构改进逻辑
DL-MAML 的核心设计是 “深度学习特征提取 + 改进型 MAML 元学习” 的串联架构”,针对原始 MAML 的三大缺陷:特征提取能力弱、元学习模块表达不足、元训练易过拟合,进行靶向改进。整体架构分为两大模块,流程为:
输入图像 → ResNet34 特征提取模块(固定参数)→ 特征图尺寸适配 → 改进型 MAML 元学习模块(参数可更新)→ 分类输出
这种架构的关键创新的是特征提取与元学习解耦:特征提取模块专注于挖掘图像本质语义特征,元学习模块专注于学习通用初始参数,避免两者梯度干扰,同时通过元学习模块的结构与目标函数优化,提升小样本适配能力。
二、核心模块改进结构详解
(一)特征提取模块:ResNet34 的定制化改造
原始 MAML 直接将 84×84×3 的图像输入 4 层简单卷积网络,特征提取能力有限。DL-MAML 引入 ResNet34 作为独立特征提取器,具体改进如下:
结构改造:移除 ResNet34 的最后一个全连接层,保留卷积层、残差块和池化层,仅作为特征编码器使用。核心组件是残差块,结构为:
3×3 卷积(64 滤波器)→ ReLU 激活 → 3×3 卷积(64 滤波器)→ shortcut 连接(恒等映射)→ ReLU 激活
该结构解决了深层网络的梯度消失问题,能提取更高级的抽象特征(如蝴蝶翅膀的花纹纹理、颜色分布等本质特征)。
参数与输入输出:特征提取模块的参数在整个训练过程中固定不更新,避免元学习模块的梯度反向传播影响特征提取稳定性。输入为 224×224×3 的蝴蝶图像,输出为 84×84×3 的特征图,与元学习模块的输入尺寸匹配。
核心作用:过滤野外图像的背景干扰、遮挡噪声,将原始像素级图像转化为语义级特征,为元学习模块提供高质量输入,解决 MAML “特征看不准” 的问题。
(二)元学习模块:对 MAML 的双重改进
元学习模块是 DL-MAML 的核心,在原始 MAML 基础上进行 “结构加深” 和 “目标函数正则化” 双重改进,具体结构如下:
原始 MAML 元学习模块结构:
4 个基础卷积模块(Conv3×3+ReLU+BN+MaxPool)→ 全连接层(分类头)
其中,前 3 个卷积模块的池化层为 2×2,最后 1 个为 2×1;每个卷积层的滤波器数量为 32。
DL-MAML 元学习模块改进:
结构加深:在原始 4 层卷积模块后,新增 2 层深层卷积模块,参数如下:
第 5 层卷积:kernel=3×3,stride=1,padding=0,filters=512
第 6 层卷积:kernel=3×3,stride=1,padding=0,filters=1024
新增层未添加池化层,避免特征图尺寸过度缩小,增强特征表达能力。
目标函数正则化:在原始 MAML 的元目标函数中加入 L2 正则项,抑制参数过度拟合元训练任务分布。
训练流程:沿用 MAML 的 “内循环 - 外循环” 双循环训练,但参数更新规则因目标函数变化而调整。
三、核心公式解析与改进关联
(一)原始 MAML 的核心公式(作为改进基准)
内循环参数更新:针对元训练任务,利用支持集损失更新任务特定参数
:
其中,为元参数(初始参数),
为内循环学习率,
为支持集的交叉熵损失。
外循环元目标函数:最小化所有元训练任务的查询集损失期望,更新元参数:
其中,为元训练任务分布,
为查询集损失。
外循环元参数更新:通过随机梯度下降(SGD)更新:
其中,为外循环学习率。
(二)DL-MAML 的改进公式(核心创新点)
改进后的元目标函数(加入 L2 正则):
新增项为 L2 正则项,
为正则化权重(论文通过实验确定最优值
)。
核心作用:惩罚过大的元参数,抑制模型对元训练任务分布的过度适配,减少过拟合风险 —— 就像给元参数更新 “踩刹车”,避免参数向元训练任务的细节倾斜。
改进后的外循环元参数更新:
梯度计算不仅包含查询集损失的梯度,还增加了正则项的梯度,使元参数更新更平缓,更倾向于学习通用特征。
损失函数(交叉熵损失):无论是支持集还是查询集,损失计算均采用交叉熵损失,保持与原始 MAML 一致:
其中,为任务中的样本 - 标签对,
为当前任务的参数(内循环更新后的
或元参数
)。
(三)公式改进与结构改进的协同逻辑
新增的 2 层卷积模块增强了元学习模块的特征表达能力,能更好地利用 ResNet34 提取的高质量特征,对应公式(1)-(5)中的特征映射能力提升 —— 让模型能捕捉到任务间更复杂的共性规律。
L2 正则项(公式 4、5)则针对性解决了 “结构加深可能带来的过拟合风险”,两者形成互补:结构加深提升模型容量,正则化限制模型过度拟合,最终让元参数既具备强表达能力,又具备通用适配性。
四、改进效果的量化验证(基于论文实验)
论文通过消融实验验证了各改进点的有效性,核心结果如下(5-way 1-shot 任务):
模型配置 | 准确率(%) | 改进贡献来源 |
原始 MAML(4 层卷积) | 61.04 | 基准性能 |
MAML+2 层卷积(无正则) | 72.13 | 结构加深提升特征表达 |
MAML+L2 正则(无新增卷积) | 72.05 | 正则化抑制过拟合 |
DL-MAML(2 层卷积 + L2 正则 + ResNet34) | 78.42 | 特征提取 + 结构加深 + 正则化协同优化 |
从结果可见,单独的结构改进或正则化改进能带来约 11 个百分点的提升,而三者协同后能实现 17.38 个百分点的大幅提升,印证了改进策略的合理性 —— 特征提取模块解决 “输入质量问题”,元学习模块的双重改进解决 “模型容量与泛化平衡问题”。
五、关键技术亮点总结
解耦设计:特征提取与元学习模块分离,ResNet34 固定参数确保特征提取的稳定性,元学习模块专注于通用参数学习,避免梯度干扰。
靶向改进:针对 MAML 的三大缺陷逐一突破,公式层面的 L2 正则解决过拟合,结构层面的卷积层新增解决特征表达不足,外部的 ResNet34 解决输入特征质量问题。
工程可复现性:所有超参数、
、
均通过实验确定,模型结构基于 PyTorch 实现,无复杂定制化组件,便于后续研究者复现与扩展。
该模型的改进思路对小样本细粒度分类任务具有普遍参考价值,尤其适用于数据稀缺、背景复杂的生物识别、遥感图像分类等场景。