news 2026/4/17 20:14:12

大模型榜单周报(2025/12/27)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型榜单周报(2025/12/27)

1. 本周概览

本周大模型领域持续涌现创新成果,数学、编程和多模态能力均出现显著进展。字节推出数学模型Seed Prover 1.5,在国际数学奥林匹克竞赛中取得金牌线成绩,而智谱AI开源GLM-4.7在多项评测中超越GPT-5.1。MiniMax的M2.1编码模型以10B激活参数创下多语言软件工程能力新高,北航提出的代码模型Scaling Laws为最优数据配比提供理论基础。

2. 重点关注事件

  • 字节发布数学模型Seed Prover 1.5,在16.5小时内解决IMO 2025前5道题目,失一题获得35分达到金牌线;在北美本科级别数学竞赛Putnam上大幅刷新SOTA成绩
  • 智谱AI开源GLM-4.7,在AIME 25和人类最后考试(HLE)等基准中分数超GPT-5.1;SWE-Bench分数达73.8%(+5.8%),创开源新高
  • MiniMax发布旗舰级Coding & Agent模型M2.1,在Multi-SWE-bench榜单中以仅10B激活参数拿下49.4%成绩,超越Claude Sonnet 4.5等顶尖竞品,拿下全球SOTA
  • 北航提出代码大模型的Scaling Laws,建立区分语言特性的Scaling Laws,并提出数学可解的最优数据配比方案,覆盖0.2B到14B参数规模及高达1T训练数据量,对七种主流语言进行系统性解构

3. 榜单变化

  • OpenRouter模型调用量:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash位列前三;小米MiMo-V2-Flash (free)新晋第4名;Gemini 3 Flash Preview新晋第6名;编程调用量方面,Grok Code Fast 1保持第1,KAT-Coder-Pro V1 (free)上升3名至第3,GPT-5.2下降5名至第7位
  • OpenRouter公司市占率:Google保持第1;xAI、Anthropic紧随其后;OpenAI市占率下降7.2%(17.7% → 10.5%)至第4位;DeepSeek份额上升1.8%(7.8% → 9.6%)保持第5名;小米份额占比7.0%,位列第7
  • 大语言模型(Text Arena):gemini-3-flash刷新成绩,超过Grok 4.1 thinking位列第2;ernie-5.0-preview-1203新晋第13名,超过gpt-5.2(评分基于预发布测试)
  • 编程能力榜单(WebDev Arena):glm-4.7新晋第6名,紧跟gemini-3-flash之后(评分基于预发布测试)
  • 编程能力榜单(LiveCodeBench GSO Leaderboard):Gemini-3-Flash新晋第8名,排名在O4-mini之后
  • 图像编辑能力(Artificial Analysis Image Editing Leaderboard):Reve V1新晋第8名,排名在Flux 2 Pro之后
  • 文生图榜单(Artificial Analysis Text to Image Leaderboard):ImagineArt 1.5 Preview超过Imagen 4 Preview位列第10名
  • 前沿数学能力(EPOCH AI FrontierMath):DeepSeek-V3.2以22.1%得分超过Kimi K2 Thinking位列第14名
  • GAIA榜单:SU Zero-Shuqian Series Pro MAX新晋榜首

4. OpenRouter排行榜

测评类型第一名第二名第三名
模型调用量Grok Code Fast 1Claude Sonnet 4.5Gemini 2.5 Flash
公司市占率GooglexAIAnthropic
编程模型调用量Grok Code Fast 1GPT-5.2Claude Sonnet 4.5

各公司按不同能力领域排名汇总

测评类型领先公司
大语言模型 Text ArenaGoogle、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱
编程能力 LMArenaAnthropic、OpenAI、Google
编程能力 LiveCodeBenchOpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、Reve
文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯、字节
图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、Black Forest Labs、字节、Pruna AI
文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节
GPQAOpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMathOpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last ExamGoogle、OpenAI、Anthropic
GAIAMicrosoft AI Asia -Ads、Suzhou AI Lab&Shuqian Tech、LR AILab of Lenovo CTO Org、NVIDIA、ZTE-AICloud、JoinAI、ShawnAgent、AIP agent等

关注我,第一时间掌握更多AI前沿资讯!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 22:36:59

材料科学新发现:TensorFlow预测新型合金性能

材料科学新发现:TensorFlow预测新型合金性能 在航空航天发动机叶片的设计实验室里,工程师正面临一个老问题:如何在不进行上千次高温实验的前提下,准确预判一种新型镍基合金是否能在1200C下稳定工作?传统试错法耗时动辄…

作者头像 李华
网站建设 2026/4/18 8:36:34

终极指南:Kaggle 过往解决方案大全 - 数据科学家的秘密武器 [特殊字符]

Kaggle 过往解决方案大全是一个精心整理的Kaggle竞赛解决方案数据库,为数据科学和机器学习爱好者提供一站式的学习资源。无论你是初学者还是资深从业者,这个项目都能帮助你快速找到灵感,学习顶尖选手的解题思路和技巧。项目持续更新&#xff…

作者头像 李华
网站建设 2026/4/18 6:37:24

网工毕业设计最全项目选题答疑

文章目录🚩 1 前言1.1 选题注意事项1.1.1 难度怎么把控?1.1.2 题目名称怎么取?1.2 选题推荐1.2.1 起因1.2.2 核心- 如何避坑(重中之重)1.2.3 怎么办呢?🚩2 选题概览🚩 3 项目概览题目1 : 图像隐写算法研究与…

作者头像 李华
网站建设 2026/4/18 6:36:49

Admin.NET权限框架完整使用指南:从零到精通的快速上手教程

Admin.NET权限框架完整使用指南:从零到精通的快速上手教程 【免费下载链接】Admin.NET 🔥基于 .NET 6/8 (Furion/SqlSugar) 实现的通用权限开发框架,前端采用 Vue3/Element-plus,代码简洁、易扩展。整合最新技术,模块插…

作者头像 李华
网站建设 2026/4/18 7:53:49

7个第三方登录异常处理技巧:从超时到授权的完整解决方案

7个第三方登录异常处理技巧:从超时到授权的完整解决方案 【免费下载链接】JustAuth 🏆Gitee 最有价值开源项目 🚀:100: 小而全而美的第三方登录开源组件。目前已支持Github、Gitee、微博、钉钉、百度、Coding、腾讯云开发者平台、OSChina、支…

作者头像 李华
网站建设 2026/4/17 20:10:23

洪水预警系统:基于TensorFlow的水文建模

洪水预警系统:基于TensorFlow的水文建模 在长江流域的一个汛期监测站,传感器数据显示过去24小时累计降雨量已突破历史同期极值。传统模型仍在等待人工输入经验参数进行校正时,一套部署在边缘网关上的AI系统已经完成推理——未来6小时内水位将…

作者头像 李华