CANN学习中心AReaL昇腾实践-程序员充电站

AReaL 昇腾实践手册

【免费下载链接】cann-learning-hubCANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。项目地址: https://gitcode.com/cann/cann-learning-hub

本实践将呈现如何使用AReaL框架在昇腾设备进行强化学习训练.

1. 环境准备

|依赖 |版本要求 |
|--|--| | 硬件 | A2、A3系列硬件(双卡或以上) | |镜像| areal_npu 0.5.0+|

2. 拉取官方 NPU 镜像

docker pull swr.cn-north-9.myhuaweicloud.com/areal/areal_npu:v0.5.0-a3

Atlas A2 设备请替换为对应的a2镜像标签。

3. 启动容器

下面的命令负责挂载 Ascend 设备、驱动和工作目录。执行前请把路径改成自己的真实路径，并按机器实际卡数调整--device。

WORK_DIR=/path/to/your/workspace CONTAINER_WORK_DIR=/workspace CONTAINER_NAME=areal_npu IMAGE=swr.cn-north-9.myhuaweicloud.com/areal/areal_npu:v0.5.0-a3 docker run -itd --cap-add=SYS_PTRACE --net=host \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5 \ --device=/dev/davinci6 \ --device=/dev/davinci7 \ --device=/dev/davinci8 \ --device=/dev/davinci9 \ --device=/dev/davinci10 \ --device=/dev/davinci11 \ --device=/dev/davinci12 \ --device=/dev/davinci13 \ --device=/dev/davinci14 \ --device=/dev/davinci15 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ --shm-size=1200g \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /var/log/npu/:/usr/slog \ -v ${WORK_DIR}:${CONTAINER_WORK_DIR} \ --privileged=true \ --name ${CONTAINER_NAME} \ ${IMAGE} \ /bin/bash

4. 安装 AReaL 昇腾分支

这一步在容器内拉取 AReaL 仓库并安装ascend分支，作用是拿到已经适配昇腾平台的版本。

docker exec -it areal_npu /bin/bash git clone https://github.com/inclusionAI/AReaL cd AReaL git checkout ascend pip install -e .

5. 检查并调整示例配置

训练脚本：

examples/math/gsm8k_rl.py

配置文件：

examples/math/gsm8k_grpo_npu.yaml

修改配置文件gsm8k_grpo_npu.yaml将模型配置为Qwen3-0.6B模型：

修改配置文件gsm8k_grpo_npu.yaml调整训推的卡资源分配以及并行方式，默认为4卡推理+4卡训练，都使用DP并行，下面给出调整为单卡推理+单卡训练的配置调整方式：

6. 启动 RL 训练

训练过程会访问huggingface下载模型和数据集,若因网络原因无法访问huggingface导致模型或数据集下载失败可第七节视频处理.

python -m areal.launcher.local examples/math/gsm8k_rl.py --config examples/math/gsm8k_grpo_npu.yaml

当图中信息循环显示时RL训练便在正常运行了：

训练完成显示如下：

训练结束后新的模型文件默认在/tmp/areal/experiments/下，可通过gsm8k_grpo_npu.yaml配置文件fileroot参数调整文件路径:

7.参考视频

https://www.bilibili.com/video/BV1thc6z7E4U/?spm_id_from=333.337.search-card.all.click

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Python 爬虫高级实战：Playwright 动态渲染爬虫开发

前言现代互联网站点大量采用 Vue、React、Angular 等前端框架前后端分离开发，页面数据通过 Ajax 异步接口动态加载，传统 Requests、Scrapy 静态爬虫只能获取空白骨架 HTML，无法抓取真实渲染后的页面内容。常规 Selenium 虽能实现浏览器渲染，但存在启动慢、资源占用高、自…

李华

基于Next.js与Supabase构建个人财务追踪应用Expense.fyi全栈实践

1. 项目概述与核心价值如果你和我一样，对个人财务的混乱状态感到头疼，总想找个趁手的工具来理清收支、投资和订阅，但又对市面上的应用要么功能臃肿、要么隐私堪忧感到不满，那么今天聊的这个开源项目Expense.fyi，很可能…

李华

量子计算中的谐振控制技术：原理与应用

1. 量子信息处理中的谐振控制技术解析在量子计算和量子存储领域，如何实现对量子态的精确控制一直是核心挑战。传统方法通常工作在色散区（dispersive regime），这种模式下量子比特与谐振腔的耦合较弱，导致操作速度受限且…

李华

HLS设计存在的问题

PE:processing elements处理单元并行处理像素。每个 PE 都由管理输入和输出矩阵的 BRAM 控制器模块，计算每个单元的新值的平均模块以及计算 PE 累积误差的错误模块组成。PE 的基本操作包括在每个时间步中遍历两次输入矩阵。 1.BRAM分割优化 2.HLS精细的流水线控制…

李华

IncreRTL框架：基于LLM的精准增量RTL代码生成技术

1. 项目概述：IncreRTL框架的核心价值在芯片设计领域，寄存器传输级（RTL）设计是连接高层需求与底层电路实现的关键环节。传统RTL设计流程中，工程师需要手动将自然语言描述的功能需求转化为Verilog代码，这个过…

李华

多模态AI如何重塑教育：从理论到实践的课堂革命

1. 项目概述：当AI开始“看”和“听”我们的课堂 “多模态AI”这个词，最近在科技和教育圈里被讨论得越来越热。简单来说，它不再是那个只会处理文字、跟你玩“完形填空”的ChatGPT。它进化了，能同时理解文本、图像、音频、视频&…

李华