news 2026/6/10 2:32:33

【Triton 教程】triton_language.dot

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【Triton 教程】triton_language.dot

Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。

更多 Triton 中文文档可访问 →triton.hyper.ai/

triton.language.dot(input, other, acc=None, input_precision=None, allow_tf32=None, max_num_imprecise_acc=None, out_dtype=triton.language.float32)

返回 2 个块的矩阵乘积。

这 2 个块必须都是二维或三维的并且有兼容的内部维度。对于三维的块,tl.dot 执行批量矩阵乘积,其中每个块的第一维度代表批量维度。

参数**:**

  • input(标量类型为 {int8,float8_e5m2,float16,bf``loat16,float32} 中的 2D 或 3D 张量)- 第 1 个要相乘的张量。
  • other**(**标量类型为 {int8,float8_e5m2,float16,bf``loat16,float32} 中的 2D 或 3D 张量)- 第 2 个要相乘的张量。
  • acc(标量类型为 {int8,float8_e5m2,float16,bf``loat16,float32} 中的 2D 或 3D 张量)- 累加器张量。如果不为 None,则将结果添加到该张量中。
  • input_precision(string*。*对于 nvidia 可用选项为:"tf32","tf32x3","ieee"。默认为"tf32"。对于 amd 可用选项为"ieee") - 用于确定如何使用 Tensor Cores 进行 f32 x f32 的计算。如果设备没有 Tensor Cores 或输入不是 dtype f32,则此选项将被忽略。对于具有 Tensor Cores 的设备,默认精度为 tf32。
  • allow_tf32- 已弃用。如果为 true,则 input_precision 设置为「tf32」。只能指定input_precisionallow_tf32中的 1 个(即至少 1 个必须为None)。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 1:52:11

C++11 -- lambda、包装器和可变参数模板

目录 1、lambda表达式 1.1 语法 1.2 捕捉列表 1.3 原理 1.4 捕捉列表 VS 函数参数 1.5 Lambda 在实际开发中的典型应用 2、包装器 2.1 function 2.2 bind 3、可变参数模板 3.1 概念与使用 3.2 包扩展 1、lambda表达式 1.1 语法 # Lambda 表达式本质上是一个匿名函…

作者头像 李华
网站建设 2026/6/10 8:18:59

【vLLM 学习】vLLM TPU 分析

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。 更多 vLLM 中文文档及教程可访问 →vllm.hyper.ai/ *在线运行 vLLM 入门教程:零基础分步指南 源码 examples/offline_inference/p…

作者头像 李华
网站建设 2026/6/9 20:07:43

嵌入式代码优化实战

嵌入式代码优化实战技术文章大纲引言嵌入式系统资源限制(内存、CPU、功耗)代码优化的核心目标:性能提升、资源节省、稳定性增强适用场景:实时系统、低功耗设备、高并发嵌入式应用优化前的分析与评估性能瓶颈定位:使用性…

作者头像 李华
网站建设 2026/6/10 8:18:53

drop delete和truncate的区别?

操作性质差异DELETE 是数据操作语言(DML),逐行删除数据,可触发触发器,支持条件筛选(WHERE子句)。 TRUNCATE 是数据定义语言(DDL),通过释放数据页直接清空表&a…

作者头像 李华
网站建设 2026/6/9 21:53:14

永磁同步电机旋转高频信号注入法零低速无位置控制仿真探秘

永磁同步电机旋转高频信号注入法零低速无位置控制仿真,相比高频方波信号注入法,旋转高频信号注入法噪声更小损耗更低,该模型注入1000Hz旋转高频电压信号到电机中用于产生激励电流,在低速100rpm下无感运行。 带有自己搭建的PMSM模型…

作者头像 李华