news 2026/6/10 3:05:26

11模型括号匹配同题测试:7个满分4个零分

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
11模型括号匹配同题测试:7个满分4个零分

#代码执行 #材料约束 #括号匹配 #调试对比 #工程实现

11个主流模型面对同一道括号匹配调试题,最终结果呈现明显两极:7个模型得分100,4个模型得分0。核心发现是,原代码真正致命的bug在于函数末尾的裸“return”会返回None,而非明确的True或len(stack)==0。

原代码的真实问题

题目提供的代码在匹配成功后使用三个if-continue结构,最后直接return。这种写法在栈为空时会返回None。Python中None在布尔判断中为False,导致调用方收到非预期结果。豆包Pro、Qwen3 Max、文心一言4.5、Grok 4、DeepSeek V4 Pro、Claude Opus 4.7和GPT-5.5均识别了这一问题,并统一改写为return len(stack)==0。

相比之下,Gemini 2.5 Pro、Claude Sonnet 4.6、Gemini 3.1 Pro和GPT-o3四模型未能在输出中体现对该返回值的修复,或直接未完成有效代码,导致0分。

满分模型的共同做法

7个满分模型均采用字典映射方式重构匹配逻辑:

  • 使用mapping = {')':'(', '}':'{', ']':'['}
  • 左括号入栈,右括号弹出并比对
  • 统一返回len(stack)==0

这种写法把原代码三个重复if简化为一次查表,同时补上了原代码缺失的非括号字符处理。GPT-5.5额外增加了else分支,遇到非法字符直接返回False,代码鲁棒性更强。

零分模型暴露的短板

Claude Sonnet 4.6详细论证了原逻辑“实际上正确”,却未输出修正代码。Gemini系列和GPT-o3则在输出片段中未能完整呈现最终可运行版本。零分模型共同特点是:要么停留在分析阶段,要么修复不彻底,未能同时解决返回None和非法字符两个问题。

工程判断的实际意义

本次测试再次证明,代码执行维度不仅考察能否写出正确结果,更考察能否发现隐蔽的返回类型错误。使用continue跳过return False的写法虽然短期有效,但可维护性差,未来添加逻辑极易引入新bug。满分模型通过映射表一次性判断,显著降低了后续维护风险。

当模型能主动把“能跑”升级为“易维护且边界清晰”,才真正跨越了代码执行的及格线。

本次评测中,7个模型跨越了这条线,4个仍停留在表面分析。稳定性维度后续将追踪同一模型多次回答同类调试题时的分数波动,当前结果已显示出明显分化。


数据来源:赢政指数 (YZ Index) | Run #154 | 查看原始数据

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 3:04:29

创业公司的秘密武器:MonkeyCode加速 MVP 开发

大家好,今天给大家带来一篇关于MonkeyCode的深度文章。作为国内最受欢迎的AI编程工具之一,它有很多值得探讨的功能…## 实际使用场景### 场景一:快速生成样板代码以前需要手动编写的重复代码,现在只需要简单的描述:pyt…

作者头像 李华
网站建设 2026/6/10 3:04:28

UniApp:跨平台开发的终极解决方案

引言 在移动互联网快速发展的今天,开发者面临着一个永恒的挑战:如何用最少的资源覆盖最多的平台。随着 iOS、Android、H5、小程序等多种平台的兴起,传统的原生开发方式已经难以满足快速迭代和多端部署的需求。在这样的背景下, Uni…

作者头像 李华
网站建设 2026/6/10 3:02:24

TRAE还能用吗?

什么鬼啊,昨天一整天用下来都没排队,自从发现了升级pro,今天用的时候就开始从差不多10000开始排队

作者头像 李华
网站建设 2026/6/10 3:00:50

掌握工作流自适应排版与 Dagre 功能,实现一键排版工作流

目录 前言 一、为什么需要自动布局 二、什么是 Dagre 三、Dagre 的工作原理 第一步:分析节点关系 第二步:计算层级 第三步:减少边交叉 第四步:计算坐标 四、React Flow Dagre 自动布局架构 五、安装 Dagre 六、构建自…

作者头像 李华
网站建设 2026/6/10 3:00:47

OpenSkill框架:让自进化Agent摆脱监督信号,多基准测试表现SOTA!

【导语:目前自进化Agent持续学习受前提条件限制,难以积累经验并迭代。里海大学孙立超团队提出OpenSkill框架,让Agent不依赖目标任务监督信号获得可执行、可迁移的skills,在多个基准上取得SOTA自动化表现。】OpenSkill:…

作者头像 李华
网站建设 2026/6/10 2:59:48

2026年油管工厂推荐榜单:选对高质供应商的3个关键

在工程机械、工业设备及新能源领域,油管作为流体输送与系统连接的核心部件,其品质直接决定设备的运行效率与使用寿命。进入2026年,随着工业自对化与耐候性需求的持续升级,如何从众多供应商中筛选出高质可靠的油管工厂,…

作者头像 李华