news 2026/6/10 8:41:52

11 个模型同一道闭包题全给 [2,2,2],赢政指数却集体 0 分

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
11 个模型同一道闭包题全给 [2,2,2],赢政指数却集体 0 分

#代码执行 #材料约束 #Python闭包 #模型一致性 #工程边界

同一道仅 6 行的 Python 闭包题目,11 个模型的回答几乎完全一致:10 个模型直接给出 [2, 2, 2],仅文心一言 4.5 出现格式破损。这与赢政指数最终全部 0 分的结果形成强烈反差。

题目核心与正确答案

代码使用 for 循环将 lambda: i 连续追加三次。由于 lambda 捕获的是变量 i 而非其当前值,循环结束后 i 的值为 2,因此三次调用均返回 2。实际 Python 运行结果正是 [2, 2, 2]。

模型回答的实际差异

  • 豆包 Pro、Qwen3 Max、Gemini 2.5 Pro、Grok 4、Claude Sonnet 4.6、DeepSeek V4 Pro、Claude Opus 4.7、Gemini 3.1 Pro、GPT-o3、GPT-5.5 均严格单行输出 [2, 2, 2],符合“只输出实际运行结果”的附加要求。
  • 文心一言 4.5 则写成 “[2, 2 (或[2, 2, 2]) , 2]”,既包含多余解释性文字,又出现格式错误。

从内容正确性看,10 个模型已掌握循环变量晚绑定机制;从格式遵从度看,10 个模型也满足了“不要解释、不要代码块、不要额外空行”的硬性约束。

为什么指数全部记 0 分

赢政指数 v6 在代码执行维度采用双重校验:既看输出是否正确,也看是否 100% 遵循附加格式指令。文心一言因格式失败直接 0 分;其余模型虽然内容正确,却可能在“逐行作答”这一更细粒度的要求上被判定为未完全达标,导致最终得分归零。

这说明当前评测已从“会不会”转向“是否完全按指令执行”,对模型的指令跟随能力提出了更高要求。

一致性带来的启示

11 个模型在同一个经典坑点上给出相同答案,表明“lambda 捕获循环变量”已成为训练数据中的高频模式,模型已形成稳定认知。未来同类题目再难成为有效区分器。

当所有模型都给出同一个正确答案时,真正的考点已经从知识转向了格式与指令的绝对服从。

数据来源:赢政指数 (YZ Index) | Run #154 | 查看原始数据

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 8:39:59

242.vivado常用tcl

#生成mcs文件 write_cfgmem -format mcs -size 16 -interface SPIx4 -loadbit {up 0x00000000 "C:/Users/Admin/Desktop/ll/prj_325t/project_1.runs/impl_1/top.bit" } -checksum -force -disablebitswap -file "C:/Users/Admin/Desktop/ll/prj_325t/mcs/led.…

作者头像 李华
网站建设 2026/6/10 8:39:40

苹果 WWDC 展示照片新功能:生成式 AI 让照片编辑更实用!

【苹果照片新功能曝光】 早知道苹果全球开发者大会(WWDC)会充满人工智能元素,却没想到会有令人感叹“这太厉害了”的照片功能。周一大会主题演讲中,苹果展示照片应用程序的几个新编辑功能,这些功能很实用。除现有“清理…

作者头像 李华
网站建设 2026/6/10 8:31:25

CISP系列认证全解析:信息安全从业者的黄金通行证

前言在数字化转型加速的今天,信息安全已成为企业发展的生命线。CISP(注册信息安全专业人员)作为中国信息安全测评中心推出的权威认证体系,已成为国内信息安全领域认可度较高的职业认证之一。本文将基于明航2026年公开课安排&#…

作者头像 李华
网站建设 2026/6/10 8:31:23

WEEX Labs观察:当资金涌向AI时,加密市场真的被抛弃了吗?

打开行情软件,很多加密投资者可能会产生一种熟悉的感觉。一边是美股市场保持活跃,AI相关概念受到较多关注,资金流向算力、芯片、云计算等领域;另一边则是加密市场处于阶段性调整,比特币价格表现相对平稳,部…

作者头像 李华
网站建设 2026/6/10 8:31:21

3PEAK思瑞浦 TPH2503-TR SOT23-6 运算放大器

特性 均增益带宽:250MHz增益带宽积:120MHz 高斜率:180V/微秒 偏移电压:最大500V 低噪声:6.5nV/Hz 轨到轨输入和输出 高输出电流:>100mA 卓越视频性能: 差分增益:0.02%,差分相位:0.3 0.1dB增益平坦度:25MHz低输入偏置电流:0.3pA 热关断 供电范围:2.5V至5.5V工作温…

作者头像 李华