news 2026/5/15 22:46:08

美团发布 General 365 评测基准,26 款大模型通用推理能力大揭秘!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
美团发布 General 365 评测基准,26 款大模型通用推理能力大揭秘!

大模型推理评测:从学科到通用的挑战

大模型在 AIME、IMO 等高难度竞赛中表现出色,仿佛拥有“人类最强大脑”。然而,面对“离洗车店只有 50 米,开车去还是走路去”这样的简单问题,号称满分推理的模型却会一本正经地规划导航路线。这种看似知识丰富却缺乏常识的现象,正是当前大模型评测的死穴。大模型擅长记忆复杂公式,但常连简单逻辑题都答不对。

美团发布 General 365 评测基准

基于此,美团 LongCat 团队正式发布 General 365。在对 26 款主流模型的实测中,目前地表最强的 Gemini 3 Pro 准确率仅为 62.8%,绝大多数模型未达 60 分及格线。该基准将焦点从“学科推理”拓展到“通用推理”,勾勒出大模型在通用逻辑推理上的真实能力边界。

研究背景:大模型真的会“思考”吗?

过去两年,大模型推理评测集中在数学、物理、编程等专业知识任务上,头部模型在各大题库逼近满分。但学科推理得分高并不等于通用推理强,高分可能源于对训练语料的暴力记忆与模式匹配,而非可泛化的逻辑推演能力。现有通用推理基准(如 BBH、BBEH)存在任务模板化、逻辑同质严重,性能饱和、区分度下降的问题。General 365 的设计目标是将背景知识限定在 K - 12 水平,解耦推理能力与专业知识,评估模型在日常场景下的通用推理水平。它具有高多样性、高挑战性、聚焦推理、严格人工质检、精准评分五项核心特征。

设计理念:通用推理能力如何被量化?

八大维度,圈定通用推理的“考纲”

要衡量通用推理,需明确其核心挑战。General 365 将其拆解为八个维度,每道题至少对应其一,包括复杂约束、分支与枚举、时空推理、递归与回溯、语义干扰、隐式信息、最优策略、概率与不确定性。“复杂约束类”题目占比最大,“概率与不确定性类”超 20 道题目,近 70% 的题目有两个或以上类别标签,更贴近真实世界逻辑复杂度。

告别模板化,经得起检验的多样性

题目质量是评测基准可靠性的根基。General 365 的种子题目全部人工原创,经多道工序最终形成 1460 道高质量题目。团队从语义分布和逻辑独立性两个维度验证其多样性。在语义分布上,General 365 的题目嵌入分布均匀分散,而 BBH 和 BBEH 有明显聚集现象;在逻辑独立性方面,Gemini 3 Pro 对语义相近题目对的推理路径相似度评分显示,General 365 平均仅 2.16 分,远低于 BBH 和 BBEH,模型无法靠“背模板”蒙混过关。

实验发现:26 款模型的能力边界与效率分化

整体表现:Gemini 3 Pro 领跑,仅 2 款模型“及格”

LongCat 团队用 General 365 对 26 款主流大模型进行评测。实测结果显示,Gemini 3 Pro 以 62.8% 的成绩夺冠,绝大多数模型在 50% - 60% 之间未达及格线。非推理模型整体略逊,但 Qwen 3 Max Instruct 等个别模型表现亮眼。

寻根溯源:到底错在哪里?

将成绩按八大维度分解后发现,“语义干扰”与“最优策略”是主要性能洼地,模型在这两项上的得分比整体准确率低约 10 个百分点,暴露出大模型易被干扰信息带偏,多步全局规划能力匮乏。不同系列的模型在“隐式信息”等任务上能力分化明显。

谁是真正的“效率之王”

除了关注答题准确率,“花了多少算力答对”也很重要。Gemini 3 Pro 仅用约 14k tokens 就取得最高分,而相近准确率的其他模型输出长度普遍达 25k - 30k tokens。

跨基准对比:General 365 的难度含金量

各大模型在 General 365 上的准确率较 BBH/BBEH 普遍大幅下降,如 GPT - 5 - Thinking 在 BBH 上准确率为 92.0%,在 General 365 上仅为 58.6%。模型在 General 365 上准确率低但平均输出长度显著增加,证实其难度来自更深的逻辑链条,而非字数堆砌。

结语:通用推理的“深水区”,才刚刚被照亮

General 365 将推理评测从专业知识依赖中剥离,让我们看到大模型在真实世界通用推理任务上的短板。其初衷不是追求高分,而是寻找模型从“做题机器”走向“人类智慧”的必经之路。毕竟,能解 IMO 难题却答不出“走路洗车”问题的模型,不能称为真正的智能。那么,大模型逻辑进化的下一个奇点究竟在哪里呢?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/15 22:45:13

2026届必备的五大AI辅助论文平台横评

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 人工智能技术兴起,正深度变革学术研究跟写作的传统模式。在学术论文撰写范畴&am…

作者头像 李华
网站建设 2026/5/15 22:44:54

毕业季告别熬夜改稿!okbiye AI 毕业论文写作,从开题到终稿一键闭环

okbiye-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPT毕业论文 - Okbiye智能写作https://www.okbiye.com/ai/bylw 每到毕业季,总有无数大学生在论文的 “死亡循环” 里挣扎:开题报告被导师打回 N 次、文献综述写得像流水账、正文逻辑…

作者头像 李华
网站建设 2026/5/15 22:42:11

3步掌握:如何用HTML转Figma工具实现网页设计稿快速转换

3步掌握:如何用HTML转Figma工具实现网页设计稿快速转换 【免费下载链接】figma-html Convert any website to editable Figma designs 项目地址: https://gitcode.com/gh_mirrors/fi/figma-html 你是否曾羡慕某个网站的布局设计,却苦于无法快速将…

作者头像 李华
网站建设 2026/5/15 22:33:15

3分钟快速搭建QQ机器人:LuckyLilliaBot OneBot 11终极指南

3分钟快速搭建QQ机器人:LuckyLilliaBot OneBot 11终极指南 【免费下载链接】LuckyLilliaBot 支持 OneBot 11、Satori 和 Milky 协议 项目地址: https://gitcode.com/gh_mirrors/li/LuckyLilliaBot 还在为QQ机器人开发的技术门槛而烦恼吗?复杂的协…

作者头像 李华
网站建设 2026/5/15 22:32:03

Greykite预测结果后处理:层次化预测的协调与整合终极指南

Greykite预测结果后处理:层次化预测的协调与整合终极指南 【免费下载链接】greykite A flexible, intuitive and fast forecasting library 项目地址: https://gitcode.com/gh_mirrors/gr/greykite Greykite作为一个灵活、直观且快速的预测库,提供…

作者头像 李华