从零开始：用星图AI平台快速上手PETRV2-BEV模型训练-程序员充电站

从零开始：用星图AI平台快速上手PETRV2-BEV模型训练

1. 学习目标与前置准备

1.1 教程定位与学习收获

本教程面向计算机视觉和自动驾驶领域的初学者及中级开发者，旨在通过星图AI算力平台，带领读者从零开始完成PETRv2-BEV 模型的环境搭建、数据准备、模型训练、精度评估到推理部署全流程。学完本教程后，您将能够：

熟练使用 Paddle3D 框架进行多视角 3D 目标检测任务
掌握 PETRv2 模型在 NuScenes 数据集上的完整训练流程
理解 BEV（Bird's Eye View）感知模型的核心训练逻辑
实现模型导出并运行可视化 Demo 进行结果验证

本教程基于预置镜像“训练PETRV2-BEV模型”，已集成 PaddlePaddle、Paddle3D 及相关依赖，极大简化环境配置过程。

1.2 前置知识要求

为确保顺利跟随本教程操作，建议具备以下基础：

熟悉 Linux 命令行基本操作
了解 Python 编程语言
对深度学习框架（如 PyTorch 或 PaddlePaddle）有初步认识
了解自动驾驶中多摄像头 3D 检测的基本概念（如 BEV、NuScenes 数据集）

无需手动安装 CUDA、cuDNN 或框架库，所有依赖已在镜像中预装完毕。

2. 环境准备与依赖下载

2.1 激活 Conda 环境

进入星图AI平台后，首先激活预设的paddle3d_env虚拟环境，该环境已配置好 PaddlePaddle 2.6+ 和 Paddle3D 开发库。

conda activate paddle3d_env

提示：可通过conda env list查看当前可用环境，确认paddle3d_env是否存在。

2.2 下载预训练权重

PETRv2 模型采用 VoVNet 主干网络并结合 GridMask 数据增强策略。我们使用官方提供的预训练权重作为初始化参数，以加速收敛。

wget -O /root/workspace/model.pdparams https://paddle3d.bj.bcebos.com/models/petr/petrv2_vovnet_gridmask_p4_800x320/model.pdparams

该权重文件大小约为 300MB，适用于输入分辨率为 800×320 的四视图输入结构。

2.3 获取 NuScenes Mini 数据集

为便于快速验证流程，我们先使用轻量级的v1.0-mini版本进行测试。

wget -O /root/workspace/v1.0-mini.tgz https://www.nuscenes.org/data/v1.0-mini.tgz mkdir -p /root/workspace/nuscenes tar -xf /root/workspace/v1.0-mini.tgz -C /root/workspace/nuscenes

解压完成后，数据目录结构如下：

/root/workspace/nuscenes/ ├── maps/ ├── samples/ ├── sweeps/ └── v1.0-mini/

此步骤约耗时 2~5 分钟，具体取决于网络带宽。

3. 数据处理与模型训练

3.1 生成 PETR 格式标注信息

原始 NuScenes 数据需转换为 PETR 模型所需的.pkl标注格式。执行以下命令生成训练/验证集信息：

cd /usr/local/Paddle3D rm /root/workspace/nuscenes/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos.py \ --dataset_root /root/workspace/nuscenes/ \ --save_dir /root/workspace/nuscenes/ \ --mode mini_val

该脚本会解析 JSON 注释文件，并生成两个关键文件：

petr_nuscenes_annotation_train.pkl
petr_nuscenes_annotation_val.pkl

注意：若提示缺少nuscenes-devkit，请运行pip install nuscenes-devkit安装依赖。

3.2 验证预训练模型精度

在开始训练前，先加载预训练权重对 mini 数据集进行一次推理评估，验证环境是否正常。

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/

预期输出如下：

mAP: 0.2669 mATE: 0.7448 mASE: 0.4621 mAOE: 1.4553 mAVE: 0.2500 mAAE: 1.0000 NDS: 0.2878 Eval time: 5.8s

各类别 AP 表现表明模型已具备基础检测能力，可作为微调起点。

3.3 启动模型训练任务

使用以下命令启动完整训练流程，共训练 100 轮，每 5 轮保存一次检查点，并开启周期性验证。

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/nuscenes/ \ --epochs 100 \ --batch_size 2 \ --log_interval 10 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

训练参数说明：

参数	含义
`--epochs`	总训练轮数
`--batch_size`	每卡 batch size，受限于显存通常设为 2
`--log_interval`	每 N 步打印一次 loss 日志
`--learning_rate`	初始学习率，AdamW 优化器适用
`--save_interval`	每 N 轮保存一次模型权重
`--do_eval`	每轮训练结束后自动执行验证

训练过程中日志将保存至output/目录下，默认路径为output/petrv2_vovnet.../。

3.4 可视化训练曲线

利用 VisualDL 工具实时监控 Loss 和 mAP 变化趋势：

visualdl --logdir ./output/ --host 0.0.0.0

随后通过 SSH 端口映射将远程服务暴露至本地浏览器：

ssh -p 31264 -L 0.0.0.0:8888:localhost:8040 root@gpu-09rxs0pcu2.ssh.gpu.csdn.net

访问http://localhost:8888即可在网页端查看：

Total Loss 曲线
Classification Loss
Regression Loss
mAP、NDS 等指标变化

建议：观察前 10 轮 Loss 是否稳定下降，若震荡剧烈可适当降低学习率。

4. 模型导出与推理演示

4.1 导出静态图推理模型

训练完成后，选择性能最优的模型（默认保存在output/best_model/）导出为 Paddle Inference 格式，便于后续部署。

rm -rf /root/workspace/nuscenes_release_model mkdir -p /root/workspace/nuscenes_release_model python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/nuscenes_release_model

导出成功后，nuscenes_release_model目录包含：

inference.pdmodel：网络结构
inference.pdiparams：模型权重
inference.pdiparams.info：参数元信息

4.2 运行可视化 Demo

执行内置 Demo 脚本，在真实图像上展示 3D 检测效果：

python tools/demo.py /root/workspace/nuscenes/ /root/workspace/nuscenes_release_model nuscenes

程序将随机选取若干样本，输出融合后的 3D 检测框叠加在原始图像上的可视化结果，包括：

不同颜色标识的车辆、行人、自行车等类别
3D 边界框投影至图像平面的效果
置信度分数显示

提示：如需自定义输入图像，可修改tools/demo.py中的数据读取逻辑。

5. 扩展训练：适配 Xtreme1 数据集（可选）

5.1 准备 Xtreme1 数据

Xtreme1 是一个更具挑战性的多视角数据集，支持极端天气与复杂场景。假设数据已上传至/root/workspace/xtreme1_nuscenes_data/，执行以下命令生成标注：

cd /usr/local/Paddle3D rm /root/workspace/xtreme1_nuscenes_data/petr_nuscenes_annotation_* -f python3 tools/create_petr_nus_infos_from_xtreme1.py /root/workspace/xtreme1_nuscenes_data/

5.2 模型评估与训练

由于初始权重未在 Xtreme1 上训练，直接评估性能较低：

python tools/evaluate.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/

输出显示 mAP 接近 0，需重新训练：

python tools/train.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model /root/workspace/model.pdparams \ --dataset_root /root/workspace/xtreme1_nuscenes_data/ \ --epochs 100 \ --batch_size 2 \ --learning_rate 1e-4 \ --save_interval 5 \ --do_eval

5.3 导出与运行 Xtreme1 Demo

训练完成后导出模型并运行专属 Demo：

rm -rf /root/workspace/xtreme1_release_model mkdir /root/workspace/xtreme1_release_model python tools/export.py \ --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \ --model output/best_model/model.pdparams \ --save_dir /root/workspace/xtreme1_release_model python tools/demo.py /root/workspace/xtreme1_nuscenes_data/ /root/workspace/xtreme1_release_model xtreme1

注意：Xtreme1 的相机内参与 NuScenes 不同，需确保配置文件中camera_intrinsic正确设置。

6. 总结

本文详细介绍了如何在星图AI平台上从零开始训练 PETRv2-BEV 多视角 3D 检测模型。主要内容包括：

环境快速启动：通过预置镜像一键进入paddle3d_env环境，省去繁琐依赖安装。
全流程覆盖：涵盖数据下载、标注生成、模型评估、训练、可视化、导出与推理六大环节。
即用型脚本：提供完整可复制的命令行指令，支持 NuScenes 和 Xtreme1 双数据集。
工程实践指导：强调训练稳定性控制、日志监控与结果验证方法。

通过本教程，开发者可在短时间内掌握 BEV 感知模型的核心训练范式，并为进一步研究 StreamPETR、BEVFormer 等先进架构打下坚实基础。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

从零开始：用星图AI平台快速上手PETRV2-BEV模型训练