news 2026/4/25 10:09:02

Dataflow优化设计(二)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Dataflow优化设计(二)

1.Dataflow只对当前层级的函数有效,对sub_function或者当前层级的Loop中的内容无效。

上述框图中,对top_level进行dataflow优化,就是将func1,func2,func3之间加入管道,使得他们并行执行。

2.如果函数有多个层级,dataflow优化如何让其作用到底层的函数呢

如果相当底层的sub_func也是dataflow,那么可以对func1,fun2,fun3也进行dataflow约束,这个是比较容易想到的办法!但是这个方法不推荐使用,这里推荐的一种方法,是将func1,func2,func3使用inline进行约束,使用inline进行约束后,也就是将层级打开,这样就sub1_func1~sub2_func3全部拉到顶层了,那么这些subx_funcx就全部被dataflow作用了!

3.常用的buffer结构

line buffer
window buffer
pingpang buffer


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:00:21

docker安装oceanbase-ce

按照官方存储库 https://github.com/oceanbase/oceanbase/ 的说明 docker run -p 2881:2881 --name oceanbase-ce -e MODEmini -d quay.io/oceanbase/oceanbase-ce Trying to pull quay.io/oceanbase/oceanbase-ce:latest... Getting image source signatures Copying blob 4f…

作者头像 李华
网站建设 2026/4/18 3:34:39

DiskInfo命令查看GPU节点存储空间使用情况

DiskInfo命令查看GPU节点存储空间使用情况 在现代AI工程实践中,一个看似不起眼的运维细节——磁盘空间管理,往往成为决定训练任务成败的关键因素。我们常把注意力集中在GPU利用率、显存占用这些“高光指标”上,却容易忽略本地存储这个沉默的瓶…

作者头像 李华
网站建设 2026/4/23 16:17:13

Markdown table of contents生成多级导航

Markdown 多级导航的生成机制与工程实践 在开发者的日常工作中,一份清晰的技术文档往往比冗长的会议沟通更高效。尤其是在 AI 模型部署、环境配置这类复杂场景中,用户最怕的不是操作步骤多,而是“找不到该看哪一节”。这时候,一个…

作者头像 李华
网站建设 2026/4/18 6:24:58

Git blame追溯PyTorch某行代码作者

Git Blame追溯PyTorch代码作者与容器化开发环境实践 在深度学习项目开发中,你是否遇到过这样的场景:调试模型时发现某个奇怪的行为,怀疑是框架底层实现的问题,于是点进 torch.nn.Linear 的源码,看到一行看似可疑的初始…

作者头像 李华
网站建设 2026/4/18 6:29:41

模型并行与流水线并行设计:实战操作指南

模型并行与流水线并行:如何让千亿参数模型在有限GPU上跑起来?你有没有遇到过这样的场景?训练一个大模型时,刚加载完模型就爆显存了。PyTorch 报错:“CUDA out of memory”,而你手里只有 8 张 A100 —— 这已…

作者头像 李华
网站建设 2026/4/18 8:53:16

PyTorch张量设备移动:CPU与GPU之间转换

PyTorch张量设备移动:CPU与GPU之间转换 在深度学习项目中,一个看似简单的操作——“把数据放到GPU上”——却常常成为新手踩坑的起点。你是否曾遇到过这样的报错? RuntimeError: Expected all tensors to be on the same device, but found a…

作者头像 李华