news 2026/5/9 23:10:06

CANN/catlass带步长批量矩阵乘法TLA示例

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/catlass带步长批量矩阵乘法TLA示例

StridedBatchedMatmulTla Example Readme

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

代码组织

├── 45_strided_batched_matmul_tla │ ├── CMakeLists.txt # CMake编译文件 │ ├── README.md │ └── strided_batched_matmul_tla.cpp # 主文件

使用示例

  • 获取代码之后编译相应的算子可执行文件,可参考quickstart
  • 执行算子
# 编译指定用例 bash scripts/build.sh 45_strided_batched_matmul_tla cd output/bin # 基本用法:可执行文件名 batch轴|m轴|n轴|k轴|Device ID # Device ID 可选,默认为0 ./45_strided_batched_matmul_tla 5 256 512 1024 0 # layout 定制(仅支持 row/col,大小写不敏感;可选,默认 row row) # - layoutA: A(M,K) 的 layout # - layoutB: B(K,N) 的 layout # layout 是一个“可选的尾部分组”,可以追加在任意一种参数组合的末尾; ./45_strided_batched_matmul_tla 5 256 512 1024 row col ./45_strided_batched_matmul_tla 5 256 512 1024 0 row col # stride 定制(单位:elements) # - lda/ldb/ldc:分别为 A(M,K)/B(K,N)/C(M,N) 的 leading dimension # - A: row 时 lda>=K;col 时 lda>=M # - B: row 时 ldb>=N;col 时 ldb>=K # - C: 本示例固定为 row,因此 ldc>=N # - strideA/strideB/strideC:batch 维度上相邻两矩阵的步长 # # 只指定 lda/ldb/ldc(strideBatch 默认连续) ./45_strided_batched_matmul_tla 5 256 512 1024 0 1100 600 600 # # 同时指定 batch stride(支持 batch 间 padding) ./45_strided_batched_matmul_tla 5 256 512 1024 0 1100 600 600 300000 400000 500000 # layout + stride 混用(当传 layoutA/layoutB 时,必须放在命令行最后两个参数位置) ./45_strided_batched_matmul_tla 5 256 512 1024 0 1100 600 600 300000 400000 500000 col row

执行结果如下,说明精度比对成功。

Compare success.

【免费下载链接】catlass本项目是CANN的算子模板库,提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 22:52:59

解码酒业营销价值重构,探讨酒企如何实现数字化动销升级

引言:当“烧钱”成为行业常态白酒行业正经历一场投入产出失衡的深刻困境。据云酒头条《透视 427 亿销售费用,投品牌还是投促销?》显示,2025年,19家白酒上市公司投入销售费用总规模为 427.17 亿元,但这份巨额…

作者头像 李华
网站建设 2026/5/9 22:52:21

AI-XR元宇宙隐私保护:从数据最小化到零知识证明的技术实践

1. 项目概述:当虚拟与现实交织,隐私的边界在哪里?最近几年,AI(人工智能)和XR(扩展现实,包括VR/AR/MR)的融合,正在以前所未有的速度催生所谓的“元宇宙”雏形。…

作者头像 李华
网站建设 2026/5/9 22:51:20

CANN/pyasc块内最小值归约API文档

asc.language.basic.block_reduce_min 【免费下载链接】pyasc 本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。 项目地址: https://gitcode.com/cann/pyasc asc.language.basic.…

作者头像 李华
网站建设 2026/5/9 22:45:02

深度学习赋能城市交通预测:从时空图神经网络到工程实践

1. 项目概述:当深度学习遇见城市脉搏干了这么多年数据分析和算法工程,我越来越觉得,城市交通系统就像一个有生命的有机体,它的脉搏、呼吸和情绪,都藏在那些看似枯燥的交通流数据里。过去,我们预测交通状况&…

作者头像 李华
网站建设 2026/5/9 22:44:43

物理AI在智慧交通系统中的应用 iTSTech 2026-5

研究背景与定位城市化带来拥堵、事故、污染等问题,智慧交通亟需适配物理世界、高实时性的 AI 技术;大模型存在 “物理盲”、延迟高、难实时决策等短板,而物理 AI(具身智能) 因能理解物理规律、实现实时交互&#xff0c…

作者头像 李华