用ComputeEval 2025.2对AI生成的CUDA代码进行基准测试-程序员充电站

用ComputeEval 2025.2对AI生成的CUDA代码进行基准测试

AI编码助手能否编写高效的CUDA代码？为了衡量和提升它们的能力，我们创建了ComputeEval——一个用于评估AI模型和智能体在CUDA编程任务上表现的、强大且开源的基准测试。

几个月前，我们发布了ComputeEval的第一个版本。今天，我们推出了其首次重大扩展，新增了超过100个CUDA挑战。

通过此次更新，数据集已扩展到总计232个CUDA和CUDA计算核心库（CCCL）问题。我们有意通过增加更困难的挑战来提高标准，这些挑战要求大语言模型使用现代CUDA特性，例如张量核心、高级共享内存模式以及warp级原语。新问题测试了模型正确编排CUDA图、流和事件等特性的能力，所有挑战都基于动态模拟等现实应用场景。

CUDA编程中的大语言模型性能

我们的团队评估了多个领先的大语言模型在ComputeEval上的表现，以建立基准性能指标并了解AI辅助CUDA编程的现状（表1）。

表1. 顶尖大语言模型在ComputeEval 2025.1和2025.2上的Pass@1准确率。最新版本引入了232个新的CUDA编程挑战，为AI辅助编码提供了一个更严苛的基准。

模型	ComputeEval 2025.2 (232个新问题) pass@1	ComputeEval 2025.1 (128个问题) pass@1
GPT-5 (medium)	0.5819	0.61
Claude Sonnet 4.0	0.5517	0.64
gpt-oss-20B (high)	0.5474	N/A
gpt-oss-120b (high)	0.5302	N/A
Claude Opus 4.0	0.5216	N/A
DeepSeek-R1	0.4397	0.55
gpt-oss-120b (medium)	0.4224	N/A
gpt-oss-20b (medium)	0.4224	N/A
gpt-oss-120b (low)	0.4052	N/A
DeepSeek-V3.1	0.3750	0.44
Llama 4 Maverick 17B 128E	0.3448	0.47
Llama 3.1 405B	0.3405	0.4
gpt-oss-20B (low)	0.3319	0.41

我们观察到，所有模型的得分在迁移到ComputeEval 2025.2后都有所下降。这并不表明模型能力在下降，而是反映出基准测试本身变得更具有挑战性。通过每次发布，我们都在为AI设定更高的标准，推动它展现出对加速计算细微之处的更深入理解。

后续计划与参与方式

我们将继续扩展数据集以及评估框架的功能。目前已经在开展将ComputeEval覆盖范围扩展到更多CUDA-X库的工作，包括cuBLAS、CUTLASS、cuDNN、RAPIDS等。我们邀请更广泛的高性能计算和AI社区来贡献和协作。可以在GitHub上探索代码，并在Hugging Face上访问数据集。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

昇腾芯片开发核心技巧（C语言高性能编程实战指南）

第一章：昇腾芯片开发环境搭建与C语言基础昇腾（Ascend）系列芯片是华为推出的高性能AI处理器，广泛应用于深度学习推理与训练场景。为了高效开发基于昇腾芯片的应用程序，搭建正确的开发环境是首要步骤。开发者需依赖CANN&…

李华

自定义数据集上传教程：如何为特定任务准备训练样本？

自定义数据集上传教程：如何为特定任务准备训练样本？ 在医疗问答系统中，一个模型把“青霉素过敏”误判为“可安全使用”，后果可能不堪设想；在工业质检场景里，哪怕图像识别准确率提升0.5%，每年也能…

李华

vLLM加载AWQ模型：高吞吐场景下的性能表现

vLLM加载AWQ模型：高吞吐场景下的性能表现在当前大模型落地加速的背景下，如何在有限硬件资源下实现高并发、低延迟的推理服务，已成为工程部署的核心挑战。一个70亿参数的模型，在FP16精度下需要约14GB显存——这看似尚可接受&…

李华

微调数据构造技巧：合成数据与人工标注结合策略

微调数据构造技巧：合成数据与人工标注结合策略在大模型落地应用日益深入的今天，一个常被忽视却至关重要的问题浮出水面：我们是否有足够高质量的数据来“教”这些聪明的模型？ 训练一个强大的大模型，光有算力和架构远远…

李华

错过将后悔：C语言在边缘AI中实现超长待机的稀缺优化实践

第一章：C语言在边缘AI中的核心价值与续航挑战在资源受限的边缘计算设备上部署人工智能应用，对性能、功耗和内存占用提出了严苛要求。C语言凭借其接近硬件层的操作能力、高效的执行性能以及极低的运行时开销，成为边缘AI系统底层开发的首选语言…

李华

揭秘工业级边缘AI设备的续航秘密：C语言高效编程的7个黄金法则

第一章：工业级边缘AI设备的能耗挑战在工业自动化与智能制造快速发展的背景下，边缘AI设备被广泛部署于工厂、能源站和交通系统中，以实现低延迟、高可靠性的实时决策。然而，这些设备通常运行在资源受限的环境中，其供电方…

李华