摘要
在目标检测任务中,感受野大小直接影响模型对上下文信息的捕获能力。YOLOv5作为主流单阶段检测器,虽然通过多次下采样获得了较大感受野,但连续池化和步长卷积会导致特征图分辨率下降,丢失小目标细节信息。本文提出一种基于空洞卷积的特征优化模块——DilatedC3,将其嵌入YOLOv5的Backbone和Neck网络中,在不大幅增加计算量的前提下有效扩大感受野,提升多尺度特征表达能力。通过在PASCAL VOC、COCO和VisDrone数据集上的实验,改进后的模型在mAP@0.5上分别提升3.2%、2.1%和4.5%。本文提供完整代码实现、训练配置和消融实验结果,供读者参考和实践。
关键词:YOLOv5;空洞卷积;感受野;特征优化;目标检测
一、引言
1.1 背景与动机
YOLO系列模型凭借其端到端的检测框架和实时性能,成为工业界和学术界最受欢迎的检测器之一。YOLOv5在YOLOv4基础上进一步优化了网络结构、数据增强和训练策略,在速度和精度之间取得了良好平衡。然而,YOLOv5仍存在以下局限:
感受野不足:深层特征图虽然语义信息丰富,但由于分辨率过低,对中等尺寸目标的上下文建模不够充分。
小目标检测困难:连续下采样导致小目标特征快速丢失,仅靠FPN结构难以完全恢复。
全局上下文缺失:标准卷积的局部连接特性限制了模型对全局依赖关系的建模能力。
空洞卷积(Dilated Conv