news 2026/5/9 22:51:20

CANN/pyasc块内最小值归约API文档

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/pyasc块内最小值归约API文档

asc.language.basic.block_reduce_min

【免费下载链接】pyasc本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc

asc.language.basic.block_reduce_min(dst: LocalTensor, src: LocalTensor, repeat: int, mask: int, dst_rep_stride: int, src_blk_stride: int, src_rep_stride: int) → None

asc.language.basic.block_reduce_min(dst: LocalTensor, src: LocalTensor, repeat: int, mask: List[int], dst_rep_stride: int, src_blk_stride: int, src_rep_stride: int) → None

对每个datablock内所有元素求最小值。

对应的Ascend C函数原型

  • mask逐比特模式
    template <typename T, bool isSetMask = true> __aicore__ inline void BlockReduceMin(const LocalTensor<T>& dst, const LocalTensor<T>& src, const int32_t repeatTime, const uint64_t mask[], const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)
  • mask连续模式
    template <typename T, bool isSetMask = true> __aicore__ inline void BlockReduceMin(const LocalTensor<T>& dst, const LocalTensor<T>& src,const int32_t repeatTime, const int32_t mask, const int32_t dstRepStride, const int32_t srcBlkStride, const int32_t srcRepStride)

参数说明

  • is_set_mask: 是否在接口内部设置mask。
    • True,表示在接口内部设置mask。
    • False,表示在接口外部设置mask,开发者需要使用set_vector_mask接口设置mask值。这种模式下,本接口入参中的mask值必须设置为占位符MASK_PLACEHOLDER。
  • dst:目的操作数。类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要保证16字节对齐(针对half数据类型),32字节对齐(针对float数据类型)。
  • src: 源操作数。类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。
  • repeat_time:迭代次数。取值范围为[0, 255]。
  • mask: 控制每次迭代内参与计算的元素。
    • 逐bit模式:mask为数组形式。数组长度和数组元素的取值范围和操作数的数据类型有关。可以按位控制哪些元素参与计算,bit位的值为1表示参与计算,0表示不参与。
      • 操作数 16 位:数组长度 2,mask[0], mask[1] ∈ [0, 2⁶⁴-1],且不能同时为 0
      • 操作数 32 位:数组长度 1,mask[0] ∈ (0, 2⁶⁴-1]
      • 操作数 64 位:数组长度 1,mask[0] ∈ (0, 2³²-1]
      • 例如:mask = [8, 0],表示仅第 4 个元素参与计算
    • 连续模式:mask为整数形式。表示前面连续多少个元素参与计算。取值范围和操作数的数据类型有关,数据类型不同,每次迭代内能够处理的元素个数最大值不同。
      • 操作数 16 位:mask ∈ [1, 128]
      • 操作数 32 位:mask ∈ [1, 64]
      • 操作数 64 位:mask ∈ [1, 32]
  • dst_rep_stride:目的操作数相邻迭代间的地址步长。以一个repeat_time归约后的长度为单位。每个repeat_time(8个datablock)归约后,得到8个元素,所以输入类型为half类型时,RepStride单位为16Byte;输入类型为float类型时,RepStride单位为32Byte。
  • src_blk_stride:单次迭代内datablock的地址步长。
  • src_rep_stride:源操作数相邻迭代间的地址步长,即源操作数每次迭代跳过的datablock数目。

约束说明

  • 操作数地址对齐要求请参见 《Ascend C算子开发接口》 中的“通用说明和约束-通用地址对齐约束”。
  • 为了节省地址空间,您可以定义一个Tensor,供源操作数与目的操作数同时使用(即地址重叠),需要注意计算后的目的操作数数据不能覆盖未参与计算的源操作数,需要谨慎使用。
  • 针对不同场景合理使用归约指令可以带来性能提升, 相关介绍请参考选择低延迟指令,优化归约操作性能。

调用示例

  • mask连续模式
    asc.block_reduce_min(z_local, x_local, repeat=1, mask=128, dst_rep_stride=8, src_blk_stride=1, src_rep_stride=8)
  • mask逐bit模式
    uint64_max = 2**64 - 1 mask = [uint64_max, uint64_max] asc.block_reduce_min(z_local, x_local, repeat=1, mask=mask, dst_rep_stride=8, src_blk_stride=1, src_rep_stride=8)

【免费下载链接】pyasc本项目为Python用户提供算子编程接口,支持在昇腾AI处理器上加速计算,接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 22:45:02

深度学习赋能城市交通预测:从时空图神经网络到工程实践

1. 项目概述&#xff1a;当深度学习遇见城市脉搏干了这么多年数据分析和算法工程&#xff0c;我越来越觉得&#xff0c;城市交通系统就像一个有生命的有机体&#xff0c;它的脉搏、呼吸和情绪&#xff0c;都藏在那些看似枯燥的交通流数据里。过去&#xff0c;我们预测交通状况&…

作者头像 李华
网站建设 2026/5/9 22:44:43

物理AI在智慧交通系统中的应用 iTSTech 2026-5

研究背景与定位城市化带来拥堵、事故、污染等问题&#xff0c;智慧交通亟需适配物理世界、高实时性的 AI 技术&#xff1b;大模型存在 “物理盲”、延迟高、难实时决策等短板&#xff0c;而物理 AI&#xff08;具身智能&#xff09; 因能理解物理规律、实现实时交互&#xff0c…

作者头像 李华
网站建设 2026/5/9 22:44:39

3分钟快速上手:PotPlayer字幕翻译插件的终极配置指南

3分钟快速上手&#xff1a;PotPlayer字幕翻译插件的终极配置指南 【免费下载链接】PotPlayer_Subtitle_Translate_Baidu PotPlayer 字幕在线翻译插件 - 百度平台 项目地址: https://gitcode.com/gh_mirrors/po/PotPlayer_Subtitle_Translate_Baidu 还在为外语视频的字幕…

作者头像 李华
网站建设 2026/5/9 22:43:38

数据就绪度:AI项目成功的隐形地基与可视化诊断实践

1. 项目概述&#xff1a;为什么数据就绪度是AI项目的“隐形地基”&#xff1f;在过去的十多年里&#xff0c;我参与和主导过不少AI项目&#xff0c;从最初的兴奋到后来的冷静&#xff0c;一个深刻的体会是&#xff1a;决定一个项目最终是成为“明星案例”还是“烂尾楼”的&…

作者头像 李华
网站建设 2026/5/9 22:42:41

基于Convex与技能系统的云端AI助手clawsync部署与实战指南

1. 项目概述&#xff1a;打造你的专属云端AI助手 最近在折腾个人AI助理工具&#xff0c;发现了一个挺有意思的开源项目——clawsync。简单来说&#xff0c;它让你能轻松在云端部署一个属于你自己的AI助手&#xff0c;自带聊天界面&#xff0c;还能通过技能系统扩展功能&#xf…

作者头像 李华