news 2026/5/9 18:45:59

CANN/cannbot-skills Flash Attention内核深度分析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CANN/cannbot-skills Flash Attention内核深度分析

Deep Note:agent/example/kernels/a2/flash_attn_full_pj_hif8_commonub.py

【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills

Open this file only after the short catalog entry confirmed the kernel is relevant.

What this kernel is really for

  • comparing againstflash_attn_full_pj_hif8.pyafter the math contract is already understood
  • studying how a shared vec-side slot buffer changes queueing structure without changing the visible formula

Decisions worth copying

  • move vec scratch from two plainTensorviews onto one sharedDBufffamily:ub_score_pv + score_pv_cnt
  • keepstage1_cntandstage2_cntseparate even though the shared scratch family exists
  • treat the gain as a same-side vecubinqueueing improvement, not as a new cross-side ownership model
  • do not expect UB-footprint reduction here; the point is cleaner overlap between the next preload and current vec compute

Prefer another kernel when

  • you are still deriving the math contract and want the simpler readable baseline
  • you are debugging row-max / row-sum correctness and do not want shared vec scratch lineage in the picture yet

【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 18:43:53

不平衡分类中的概率度量核心技术与应用

1. 概率度量在不平衡分类中的核心价值面对类别分布严重不均衡的数据集时,传统准确率指标就像用体温计量血压——完全不对症。我在处理信用卡欺诈检测项目时就踩过这个坑:当欺诈交易仅占0.1%时,即使模型把所有样本都预测为正常,准确…

作者头像 李华
网站建设 2026/5/9 18:40:29

FLUX.1-Krea-Extracted-LoRA效果展示:丝绸面料光泽与褶皱物理模拟

FLUX.1-Krea-Extracted-LoRA效果展示:丝绸面料光泽与褶皱物理模拟 1. 真实感图像生成新标杆 FLUX.1-Krea-Extracted-LoRA v1.0模型代表了当前AI生成图像领域在真实感表现上的重大突破。这个从FLUX.1-Krea-dev基础模型中提取的LoRA风格权重,专门为FLUX.…

作者头像 李华
网站建设 2026/5/9 18:38:18

基于MCP协议与rclone构建AI驱动的跨云文件管理助手

1. 项目概述:当AI助手学会管理你的云端文件如果你和我一样,日常工作中需要同时处理多个云存储服务——Google Drive里存着团队文档,Backblaze B2上放着备份,S3桶里是静态网站资源,本地NAS还有一堆媒体文件——那么你肯…

作者头像 李华
网站建设 2026/5/9 18:38:16

CANN/cann-samples:RmsNormQuant向量算子优化

【cann-samples系列】RmsNormQuant:Ascend950 上的高性能 Vector 算子分阶段优化实践 【免费下载链接】cann-samples 算子领域高性能实战演进样例与体系化调优知识库 项目地址: https://gitcode.com/cann/cann-samples cann-samples 是算子领域高性能实战演进…

作者头像 李华
网站建设 2026/5/9 18:37:01

从73.7到89.5,HALO 智能体用“轨迹分析“实现了递归自我进化

HALO (Hierarchical Agent Loop Optimization) 一个递归自改进的智能体框架,在 AppWorld 测试的成绩将原有智能体的表现,从 73.7 提升至 89.5。而89.5 的成绩意味着接近实用级别。一、核心理念HALO 的核心思想可以用一个闭环来概括:收集 Agen…

作者头像 李华