news 2026/5/10 1:40:43

CANN学习中心AReaL昇腾实践

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN学习中心AReaL昇腾实践

AReaL 昇腾实践手册

【免费下载链接】cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。项目地址: https://gitcode.com/cann/cann-learning-hub

本实践将呈现如何使用AReaL框架在昇腾设备进行强化学习训练.

1. 环境准备

|依赖 |版本要求 |
|--|--| | 硬件 | A2、A3系列硬件(双卡或以上) | |镜像| areal_npu 0.5.0+|

2. 拉取官方 NPU 镜像

docker pull swr.cn-north-9.myhuaweicloud.com/areal/areal_npu:v0.5.0-a3

Atlas A2 设备请替换为对应的a2镜像标签。

3. 启动容器

下面的命令负责挂载 Ascend 设备、驱动和工作目录。执行前请把路径改成自己的真实路径,并按机器实际卡数调整--device

WORK_DIR=/path/to/your/workspace CONTAINER_WORK_DIR=/workspace CONTAINER_NAME=areal_npu IMAGE=swr.cn-north-9.myhuaweicloud.com/areal/areal_npu:v0.5.0-a3 docker run -itd --cap-add=SYS_PTRACE --net=host \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5 \ --device=/dev/davinci6 \ --device=/dev/davinci7 \ --device=/dev/davinci8 \ --device=/dev/davinci9 \ --device=/dev/davinci10 \ --device=/dev/davinci11 \ --device=/dev/davinci12 \ --device=/dev/davinci13 \ --device=/dev/davinci14 \ --device=/dev/davinci15 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ --shm-size=1200g \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /var/log/npu/:/usr/slog \ -v ${WORK_DIR}:${CONTAINER_WORK_DIR} \ --privileged=true \ --name ${CONTAINER_NAME} \ ${IMAGE} \ /bin/bash

4. 安装 AReaL 昇腾分支

这一步在容器内拉取 AReaL 仓库并安装ascend分支,作用是拿到已经适配昇腾平台的版本。

docker exec -it areal_npu /bin/bash git clone https://github.com/inclusionAI/AReaL cd AReaL git checkout ascend pip install -e .

5. 检查并调整示例配置

训练脚本:

examples/math/gsm8k_rl.py

配置文件:

examples/math/gsm8k_grpo_npu.yaml

修改配置文件gsm8k_grpo_npu.yaml将模型配置为Qwen3-0.6B模型:

修改配置文件gsm8k_grpo_npu.yaml调整训推的卡资源分配以及并行方式,默认为4卡推理+4卡训练,都使用DP并行,下面给出调整为单卡推理+单卡训练的配置调整方式:

6. 启动 RL 训练

训练过程会访问huggingface下载模型和数据集,若因网络原因无法访问huggingface导致模型或数据集下载失败可第七节视频处理.

python -m areal.launcher.local examples/math/gsm8k_rl.py --config examples/math/gsm8k_grpo_npu.yaml

当图中信息循环显示时RL训练便在正常运行了:

训练完成显示如下:

训练结束后新的模型文件默认在/tmp/areal/experiments/下,可通过gsm8k_grpo_npu.yaml配置文件fileroot参数调整文件路径:

7.参考视频

https://www.bilibili.com/video/BV1thc6z7E4U/?spm_id_from=333.337.search-card.all.click

【免费下载链接】cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。项目地址: https://gitcode.com/cann/cann-learning-hub

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 1:37:02

Python 爬虫高级实战:Playwright 动态渲染爬虫开发

前言 现代互联网站点大量采用 Vue、React、Angular 等前端框架前后端分离开发,页面数据通过 Ajax 异步接口动态加载,传统 Requests、Scrapy 静态爬虫只能获取空白骨架 HTML,无法抓取真实渲染后的页面内容。常规 Selenium 虽能实现浏览器渲染,但存在启动慢、资源占用高、自…

作者头像 李华
网站建设 2026/5/10 1:35:45

基于Next.js与Supabase构建个人财务追踪应用Expense.fyi全栈实践

1. 项目概述与核心价值如果你和我一样,对个人财务的混乱状态感到头疼,总想找个趁手的工具来理清收支、投资和订阅,但又对市面上的应用要么功能臃肿、要么隐私堪忧感到不满,那么今天聊的这个开源项目Expense.fyi,很可能…

作者头像 李华
网站建设 2026/5/10 1:35:42

量子计算中的谐振控制技术:原理与应用

1. 量子信息处理中的谐振控制技术解析在量子计算和量子存储领域,如何实现对量子态的精确控制一直是核心挑战。传统方法通常工作在色散区(dispersive regime),这种模式下量子比特与谐振腔的耦合较弱,导致操作速度受限且…

作者头像 李华
网站建设 2026/5/10 1:32:32

HLS设计存在的问题

PE:processing elements处理单元 并行处理像素。 每个 PE 都由管理输入和输出矩阵的 BRAM 控制器模块,计算每个单元的新值的平均模块以及计算 PE 累积误差的错误模块组成。PE 的基本操作包括在每个时间步中遍历两次输入矩阵。 1.BRAM分割优化 2.HLS精细的流水线控制…

作者头像 李华
网站建设 2026/5/10 1:31:29

IncreRTL框架:基于LLM的精准增量RTL代码生成技术

1. 项目概述:IncreRTL框架的核心价值在芯片设计领域,寄存器传输级(RTL)设计是连接高层需求与底层电路实现的关键环节。传统RTL设计流程中,工程师需要手动将自然语言描述的功能需求转化为Verilog代码,这个过…

作者头像 李华
网站建设 2026/5/10 1:31:29

多模态AI如何重塑教育:从理论到实践的课堂革命

1. 项目概述:当AI开始“看”和“听”我们的课堂 “多模态AI”这个词,最近在科技和教育圈里被讨论得越来越热。简单来说,它不再是那个只会处理文字、跟你玩“完形填空”的ChatGPT。它进化了,能同时理解文本、图像、音频、视频&…

作者头像 李华