news 2026/4/18 10:14:20

大模型榜单周报(2026/01/10)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型榜单周报(2026/01/10)

1. 本周概览

本周大模型领域多项技术突破引人注目,包括NVIDIA发布Rubin平台大幅降低成本、OpenAI推出健康垂直领域功能,以及上海AI Lab开源Yume1.5世界模型实现效率飞跃。同时,OpenRouter模型调用量排名出现显著变化,Claude Sonnet 4.5超越Grok Code Fast 1成为整体调用量冠军,行业格局正在发生微妙调整。

2. 重点关注事件

  • NVIDIA于1月5日发布Rubin平台,对六款全新芯片采用软硬件极致协同设计,将推理token成本最多降低至NVIDIA Blackwell平台的十分之一,在MoE模型训练中使用的GPU数量仅为Blackwell平台的四分之一,大幅提升了AI计算经济性。
  • OpenAI于1月7日发布ChatGPT健康功能,在ChatGPT中拥有独立空间,对话、已连接的应用和文件均与其他聊天内容隔离存储,标志着AI在垂直领域应用的进一步深化。
  • DeepSeek R1论文于1月8日更新,增加64页内容,v2版本论文披露了R1训练全路径、「Aha Moment」的数据化验证、自适应算力分配、失败总结等核心技术细节。
  • 上海AI Lab于1月9日联合多家机构开源Yume1.5世界模型,在长视频生成中实现了近似恒定计算成本的全局记忆访问,模型推理效率提升70倍,推动了世界模型技术发展。

3. 榜单变化

  • OpenRouter模型调用量排名:整体调用量方面,Claude Sonnet 4.5超越Grok Code Fast 1排名第一;Gemini 3 Flash Preview由第6名上升2名到第4名;MiMo-V2-Flash(free)下降两名,排名第5。编程调用量方面,Grok Code Fast 1保持第1;Claude Opus 4.5排名第2,上升2名;MiniMax M2.1新上榜排名第3。
  • OpenRouter公司市占率排名:Google继续保持第1;Anthropic市占率上升4.3%(12.9% → 17.2%),排名升至第2;xAI、OpenAI分别位列第3、4名,OpenAI市占率上升3.1%(8.0% → 11.1%);DeepSeek份额下降4.5%(13.3% → 8.8%),排名相应下降3名位列第5;小米、MistralAI、z-AI保持第6、7、9名;MiniMax上升到第8名,替代上周Qwen的位置。
  • 图像编辑能力榜单:在Image Edit Arena中,qwen-image-edit-2511新上榜排名第9;在Artificial Analysis Image Editing Leaderboard中,Wan 2.6超过Nano Banana到榜单第5位。
  • GPQA榜单:GPT-5.1 High、GPT-5 Medium新上榜,并列第6位。
  • GAIA榜单:Nvidia的Nemotron-ToolOrchestra-0106和Nemotron-ToolOrchestra-0107新上榜,排名前两位。

4. OpenRouter排行榜

测评类型第一名第二名第三名
模型调用量Claude Sonnet 4.5Grok Code Fast 1Gemini 2.5 Flash
公司市占率GoogleAnthropicxAI
编程模型调用量Grok Code Fast 1Claude Opus 4.5MiniMax M2.1

各公司按不同能力领域排名汇总

测评类型领先公司
大语言模型 Text ArenaGoogle、xAI、Anthropic、OpenAI、百度、智谱、阿里巴巴、月之暗面
编程能力 LMArenaAnthropic、OpenAI、Google
编程能力 LiveCodeBenchOpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、Reve
文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯、字节
图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve
文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节、ImagineArt
GPQAOpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMathOpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last ExamGoogle、OpenAI、Anthropic
GAIANvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org等

关注我,第一时间掌握更多AI前沿资讯!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 0:46:06

AutoGLM-Phone-9B部署详解:微服务架构设计方案

AutoGLM-Phone-9B部署详解:微服务架构设计方案 随着大模型在移动端的广泛应用,如何在资源受限设备上实现高效、低延迟的多模态推理成为关键挑战。AutoGLM-Phone-9B 的出现为这一问题提供了极具潜力的解决方案。本文将深入解析其部署过程中的微服务架构设…

作者头像 李华
网站建设 2026/4/18 6:26:36

AutoGLM-Phone-9B技术解析:GLM架构的移动端优化策略

AutoGLM-Phone-9B技术解析:GLM架构的移动端优化策略 随着大语言模型在消费级设备上的部署需求日益增长,如何在资源受限的移动终端实现高效、低延迟的多模态推理成为关键挑战。AutoGLM-Phone-9B应运而生,作为一款专为移动端深度优化的多模态大…

作者头像 李华
网站建设 2026/4/18 6:28:18

Qwen3-VL图片标记完整教程:云端GPU手把手教学

Qwen3-VL图片标记完整教程:云端GPU手把手教学 引言 作为一名数据标注员,你是否经常遇到这样的困扰:面对海量图片需要标注,手动操作效率低下,公司又不给配专业GPU设备,用自己的电脑跑AI模型直接卡死&#…

作者头像 李华
网站建设 2026/4/18 6:28:51

挂证被查别慌!这5招教你妥善处理

一、立即停止所有挂证行为当收到住建部门核查通知或系统弹窗时,前48小时是关键期。2024年浙江某项目经理因三天内完成整改免于处罚。此时应:切断关联:停止使用挂证单位的工作证明、删除与中介的聊天记录。保存证据:拍摄注册单位办…

作者头像 李华
网站建设 2026/4/15 10:56:00

Qwen3-VL视频理解入门:1小时1块云端GPU,小白也能玩

Qwen3-VL视频理解入门:1小时1块云端GPU,小白也能玩 引言:当短视频遇上AI视觉理解 每天上传到抖音、快手的短视频超过8000万条,创作者们最头疼的问题之一就是:如何给海量视频打标签?传统方法要么依赖人工标…

作者头像 李华
网站建设 2026/4/18 6:29:03

AutoGLM-Phone-9B实战教程:智能健康咨询系统

AutoGLM-Phone-9B实战教程:智能健康咨询系统 随着移动智能设备在医疗健康领域的深入应用,轻量级、高效能的多模态大模型成为推动“AI健康管理”落地的关键技术。传统大模型受限于计算资源和能耗,在移动端部署面临诸多挑战。AutoGLM-Phone-9B…

作者头像 李华