Gemini 3 Pro Preview以73分高居智能榜首,而每百万token仅需0.03美元的Gemma 3n E4B则创造了价格新低。当AI模型如雨后春笋般涌现,这个排行榜正成为衡量它们实力的“技术标尺”。
在Artificial Analysis AI最新发布的模型排行榜中,超过100个大型语言模型按智能分数、价格、输出速度和延迟等关键指标进行了全面评估。
这份榜单如同AI领域的“奥运会成绩单”,展示了各家公司在不同技术赛道上的优势与取舍。
主流大语言模型核心指标对比表
| 模型名称 | 上下文窗口 | 提供商 | 智能指数 | 性能偏移值 | 价格(每百万tokens/美元) | 输出速度(tokens/秒) | 延迟(秒) |
|---|---|---|---|---|---|---|---|
| Gemini 3 Pro Preview (high) | 1m | 73 | 13 | 4.50 | 132 | 31.31 | |
| GPT-5.2 (xhigh) | 400k | OpenAI | 73 | -4 | 4.81 | 113 | 28.50 |
| Gemini 3 Flash | 1m | 71 | 10 | 1.13 | 230 | 11.58 | |
| Claude Opus 4.5 | 200k | Anthropic | 70 | 10 | 10.00 | 64 | 1.69 |
| GPT-5.1 (high) | 400k | OpenAI | 70 | 2 | 3.44 | 189 | 28.50 |
| Z AI | 200k | Z AI | 68 | -36 | 0.88 | 83 | 0.71 |
| GPT-5.2 (medium) | 400k | OpenAI | 67 | -3 | 4.81 | 0 | 0.00 |
| Kimi K2 Thinking | 256k | Kimi | 67 | -23 | 1.07 | 101 | 0.65 |
| GPT-5.1 Codex (high) | 400k | OpenAI | 67 | -7 | 3.44 | 245 | 11.00 |
| MiMo-V2-Flash | 256k | Xiaomi | 66 | -42 | 0.15 | 142 | 1.58 |
| DeepSeek V3.2 | 128k | DeepSeek | 66 | -23 | 0.32 | 30 | 1.30 |
| o3 | 200k | OpenAI | 65 | -17 | 3.50 | 351 | 9.25 |
| Grok 4 | 256k | xAI | 65 | 1 | 6.00 | 50 | 10.08 |
| Gemini 3 Pro Preview (low) | 1m | 65 | -1 | 4.50 | 136 | 4.11 | |
| GPT-5 mini (high) | 400k | OpenAI | 64 | -20 | 0.69 | 68 | 119.02 |
| Grok 4.1 Fast | 2m | xAI | 64 | -31 | 0.28 | 163 | 6.23 |
| MiniMax-M2.1 | 205k | MiniMax | 64 | -30 | 0.53 | 67 | 1.42 |
| KAT-Coder-Pro V1 | 256k | KwaiKAT | 64 | -36 | 0.00 | 62 | 1.01 |
| Claude 4.5 Sonnet | 1m | Anthropic | 63 | -2 | 6.00 | 64 | 1.94 |
| Nova 2.0 Pro Preview (medium) | 256k | Amazon | 62 | -50 | 3.44 | 137 | 21.60 |
| GPT-5.1 Codex mini (high) | 400k | OpenAI | 62 | -18 | 0.69 | 189 | 9.05 |
| Doubao-Seed-1.8 | 256k | ByteDance Seed | 61 | -42 | 0.15 | 0 | 0.00 |
| MiniMax-M2 | 205k | MiniMax | 61 | -50 | 0.53 | 64 | 1.62 |
| gpt-oss-120B (high) | 131k | OpenAI | 61 | -52 | 0.26 | 372 | 0.45 |
| Grok 4 Fast | 2m | xAI | 60 | -31 | 0.28 | 157 | 4.86 |
| Claude Opus 4.5 | 200k | Anthropic | 60 | -6 | 10.00 | 80 | 1.98 |
| Gemini 2.5 Pro | 1m | 60 | -18 | 3.44 | 160 | 34.18 | |
| DeepSeek V3.2 Speciale | 128k | DeepSeek | 59 | -19 | 0.32 | 0 | 0.00 |
| Nova 2.0 Lite (medium) | 1m | Amazon | 58 | -58 | 0.85 | 242 | 14.58 |
| DeepSeek V3.1 Terminus | 128k | DeepSeek | 58 | -27 | 0.80 | 0 | 0.00 |
| Nova 2.0 Pro Preview (low) | 256k | Amazon | 58 | -48 | 3.44 | 136 | 11.74 |
| Qwen3 235B A22B 2507 | 256k | Alibaba | 57 | -48 | 2.63 | 68 | 1.06 |
| Doubao Seed Code | 256k | ByteDance Seed | 57 | -36 | 0.41 | 0 | 0.00 |
| Grok 3 mini Reasoning (high) | 1m | xAI | 57 | -7 | 0.35 | 195 | 0.72 |
| Apriel-v1.6-15B-Thinker | 128k | ServiceNow | 57 | -60 | 0.00 | 148 | 0.25 |
| Nova 2.0 Omni (medium) | 1m | Amazon | 56 | -60 | 0.85 | 0 | 0.00 |
| Qwen3 Max Thinking | 262k | Alibaba | 56 | -40 | 2.40 | 34 | 1.69 |
| Qwen3 Max | 262k | Alibaba | 55 | -45 | 2.40 | 29 | 1.69 |
| Claude 4.5 Haiku | 200k | Anthropic | 55 | -6 | 2.00 | 90 | 0.41 |
| Gemini 3 Flash | 1m | 55 | -1 | 1.13 | 199 | 0.68 | |
| Qwen3 VL 235B A22B | 262k | Alibaba | 54 | -47 | 2.63 | 42 | 1.02 |
| Qwen3 Next 80B A3B | 262k | Alibaba | 54 | -53 | 1.88 | 182 | 0.96 |
| ERNIE 5.0 Thinking Preview | 128k | Baidu | 53 | -42 | 1.47 | 0 | 0.00 |
| DeepSeek V3.2 | 128k | DeepSeek | 52 | -49 | 0.32 | 29 | 1.33 |
| gpt-oss-20B (high) | 131k | OpenAI | 52 | -65 | 0.10 | 300 | 0.51 |
| Magistral Medium 1.2 | 128k | Mistral | 52 | -28 | 2.75 | 38 | 0.50 |
| DeepSeek R1 0528 | 128k | DeepSeek | 52 | -30 | 2.36 | 0 | 0.00 |
| Qwen3 VL 32B | 256k | Alibaba | 52 | -53 | 2.63 | 52 | 1.02 |
| NVIDIA Nemotron 3 Nano | 1m | NVIDIA | 52 | -52 | 0.10 | 333 | 0.19 |
| GPT-5 nano (high) | 400k | OpenAI | 51 | -30 | 0.14 | 136 | 102.57 |
| GLM-4.7 | 200k | Z AI | 51 | -48 | 0.87 | 73 | 0.76 |
| Kimi K2 0905 | 256k | Kimi | 50 | -28 | 1.20 | 96 | 0.55 |
| Claude 4.5 Sonnet | 1m | Anthropic | 50 | -11 | 6.00 | 72 | 1.99 |
| GLM-4.5-Air | 128k | Z AI | 49 | -63 | 0.42 | 103 | 0.61 |
| Nova 2.0 Omni (low) | 1m | Amazon | 49 | -51 | 0.85 | 0 | 0.00 |
| Grok Code Fast 1 | 256k | xAI | 49 | -38 | 0.53 | 251 | 4.99 |
| Mi:dm K 2.5 Pro | 128k | Korea Telecom | 48 | – | 0.00 | 0 | 0.00 |
| GPT-5.2 | 400k | OpenAI | 48 | -15 | 4.81 | 80 | 0.63 |
| Gemini 2.5 Flash-Lite (Sep) | 1m | 48 | -55 | 0.17 | 538 | 5.53 | |
| gpt-oss-120B (low) | 131k | OpenAI | 48 | -56 | 0.26 | 322 | 0.45 |
| Nova 2.0 Lite (low) | 1m | Amazon | 47 | -55 | 0.85 | 225 | 4.78 |
| Qwen3 30B A3B 2507 | 262k | Alibaba | 46 | -57 | 0.75 | 176 | 0.88 |
| K2-V2 (high) | 512k | MBZUAI Institute of Foundation Models | 46 | -57 | 0.00 | 0 | 0.00 |
| MiMo-V2-Flash | 256k | Xiaomi | 46 | -45 | 0.15 | 113 | 1.59 |
| DeepSeek V3.1 Terminus | 128k | DeepSeek | 46 | -45 | 0.80 | 0 | 0.00 |
| Qwen3 235B 2507 | 256k | Alibaba | 45 | -45 | 1.23 | 46 | 0.95 |
| Qwen3 VL 30B A3B | 256k | Alibaba | 45 | -59 | 0.75 | 106 | 1.06 |
| Llama Nemotron Super 49B v1.5 | 128k | NVIDIA | 45 | -47 | 0.17 | 74 | 0.23 |
| Motif-2-12.7B | 128k | Motif Technologies | 45 | -62 | 0.00 | 0 | 0.00 |
| Qwen3 Next 80B A3B | 262k | Alibaba | 45 | -60 | 0.88 | 181 | 1.09 |
| Ling-1T | 128k | InclusionAI | 45 | -57 | 0.00 | 0 | 0.00 |
| HyperCLOVA X SEED Think (32B) | 128k | Naver | 44 | -52 | 0.00 | 0 | 0.00 |
| gpt-oss-20B (low) | 131k | OpenAI | 44 | -61 | 0.10 | 255 | 0.59 |
| Qwen3 VL 235B A22B | 262k | Alibaba | 44 | -54 | 1.23 | 37 | 1.11 |
| Mi:dm K 2.5 Pro Preview | 128k | Korea Telecom | 44 | -56 | 0.00 | 0 | 0.00 |
| Qwen3 4B 2507 | 262k | Alibaba | 43 | -55 | 0.00 | 0 | 0.00 |
| Magistral Small 1.2 | 128k | Mistral | 43 | -66 | 0.75 | 214 | 0.32 |
| EXAONE 4.0 32B | 131k | LG AI Research | 43 | -61 | 0.70 | 94 | 0.29 |
| Qwen3 Coder 480B | 262k | Alibaba | 42 | -24 | 3.00 | 51 | 1.50 |
| Nova 2.0 Pro Preview | 256k | Amazon | 42 | -50 | 3.44 | 159 | 0.47 |
| Ring-1T | 128k | InclusionAI | 42 | 0 | 0.98 | 0 | 0.00 |
| Claude 4.5 Haiku | 200k | Anthropic | 42 | -8 | 2.00 | 104 | 0.43 |
| Gemini 2.5 Flash-Lite (Sep) | 1m | 42 | -44 | 0.17 | 462 | 0.29 | |
| Hermes 4 405B | 128k | Nous Research | 42 | -37 | 1.50 | 35 | 0.78 |
| Qwen3 VL 32B | 256k | Alibaba | 41 | -64 | 1.23 | 45 | 0.92 |
| GLM-4.6V | 128k | Z AI | 41 | -26 | 0.45 | 69 | 0.70 |
| NVIDIA Nemotron Nano 12B v2 VL | 128k | NVIDIA | 41 | -66 | 0.30 | 128 | 0.17 |
| K2-V2 (medium) | 512k | MBZUAI Institute of Foundation Models | 40 | -51 | 0.00 | 0 | 0.00 |
| Qwen3 Omni 30B A3B | 66k | Alibaba | 40 | -62 | 0.43 | 97 | 0.84 |
| Ring-flash-2.0 | 128k | InclusionAI | 40 | -60 | 0.25 | 88 | 1.39 |
| Hermes 4 70B | 128k | Nous Research | 39 | -51 | 0.20 | 79 | 0.62 |
| Grok 4 Fast | 2m | xAI | 39 | -56 | 0.28 | 145 | 0.63 |
| Llama Nemotron Ultra | 128k | NVIDIA | 38 | -46 | 0.90 | 37 | 0.76 |
| Qwen3 VL 30B A3B | 256k | Alibaba | 38 | -64 | 0.35 | 97 | 0.95 |
| Mistral Large 3 | 256k | Mistral | 38 | -41 | 0.75 | 48 | 0.54 |
| Olmo 3.1 32B Think | 66k | Allen Institute for AI | 38 | -39 | 0.00 | 37 | 0.47 |
| Ling-flash-2.0 | 128k | InclusionAI | 38 | -67 | 0.25 | 54 | 1.49 |
| Grok 4.1 Fast | 2m | xAI | 38 | -52 | 0.28 | 146 | 0.76 |
| Solar Pro 2 | 66k | Upstage | 38 | -58 | 0.50 | 112 | 0.99 |
| NVIDIA Nemotron Nano 9B V2 | 131k | NVIDIA | 37 | -43 | 0.07 | 43 | 0.28 |
| Qwen3 30B A3B 2507 | 262k | Alibaba | 37 | -67 | 0.35 | 59 | 0.99 |
| Devstral 2 | 256k | Mistral | 36 | -48 | 0.00 | 58 | 0.43 |
| NVIDIA Nemotron Nano 9B V2 | 131k | NVIDIA | 36 | -58 | 0.10 | 76 | 0.47 |
| Llama 4 Maverick | 1m | Meta | 36 | -43 | 0.42 | 133 | 0.41 |
| Nova 2.0 Lite | 1m | Amazon | 36 | -60 | 0.85 | 222 | 0.52 |
| Llama 3.3 Nemotron Super 49B | 128k | NVIDIA | 35 | – | 0.00 | 0 | 0.00 |
| Mistral Medium 3.1 | 128k | Mistral | 35 | -48 | 0.80 | 85 | 0.46 |
| Nova 2.0 Omni | 1m | Amazon | 34 | -65 | 0.85 | 230 | 0.72 |
| Qwen3 Coder 30B A3B | 262k | Alibaba | 33 | -52 | 0.90 | 102 | 1.48 |
| ERNIE 4.5 300B A47B | 131k | Baidu | 33 | -37 | 0.00 | 30 | 2.03 |
| Hermes 4 405B | 128k | Nous Research | 33 | -35 | 1.50 | 33 | 0.79 |
| Nova Premier | 1m | Amazon | 32 | -38 | 5.00 | 80 | 0.82 |
| Qwen3 VL 8B | 256k | Alibaba | 32 | -54 | 0.66 | 64 | 0.91 |
| OLMo 3 7B Think | 66k | Allen Institute for AI | 32 | -74 | 0.14 | 113 | 0.53 |
| Devstral Small 2 | 256k | Mistral | 32 | -59 | 0.00 | 204 | 0.35 |
| K2-V2 (low) | 512k | MBZUAI Institute of Foundation Models | 31 | -49 | 0.00 | 0 | 0.00 |
| DeepSeek R1 0528 Qwen3 8B | 33k | DeepSeek | 31 | -65 | 0.07 | 40 | 1.22 |
| Ministral 14B (Dec '25) | 256k | Mistral | 31 | -67 | 0.20 | 132 | 0.32 |
| GLM-4.6V | 128k | Z AI | 30 | -39 | 0.45 | 57 | 0.81 |
| Qwen3 4B 2507 | 262k | Alibaba | 30 | -54 | 0.00 | 0 | 0.00 |
| EXAONE 4.0 32B | 131k | LG AI Research | 30 | -64 | 0.70 | 87 | 0.31 |
| Solar Pro 2 | 66k | Upstage | 30 | -63 | 0.50 | 110 | 1.02 |
| Qwen3 Omni 30B A3B | 66k | Alibaba | 30 | -70 | 0.43 | 89 | 0.88 |
| DeepSeek R1 Distill Llama 70B | 128k | DeepSeek | 30 | -47 | 0.88 | 87 | 0.88 |
| Mistral Small 3.2 | 128k | Mistral | 29 | -51 | 0.15 | 105 | 0.33 |
| Ministral 8B (Dec '25) | 256k | Mistral | 28 | -70 | 0.15 | 194 | 0.27 |
| Llama 4 Scout | 10m | Meta | 28 | -53 | 0.24 | 114 | 0.44 |
| Llama 3.1 405B | 128k | Meta | 28 | -18 | 4.19 | 25 | 0.80 |
| Llama 3.3 70B | 128k | Meta | 28 | -55 | 0.64 | 119 | 0.46 |
| Devstral Medium | 256k | Mistral | 28 | -33 | 0.80 | 112 | 0.43 |
| Ling-mini-2.0 | 131k | InclusionAI | 28 | 0 | 0.12 | 181 | 1.39 |
| Qwen3 VL 4B | 256k | Alibaba | 27 | – | 0.00 | 0 | 0.00 |
| Devstral Small | 256k | Mistral | 27 | -52 | 0.15 | 238 | 0.36 |
| Qwen3 VL 8B | 256k | Alibaba | 27 | -54 | 0.31 | 107 | 0.85 |
| Command A | 256k | Cohere | 27 | -50 | 4.38 | 116 | 0.20 |
| Exaone 4.0 1.2B | 64k | LG AI Research | 27 | -82 | 0.00 | 0 | 0.00 |
| Llama Nemotron Super 49B v1.5 | 128k | NVIDIA | 27 | -47 | 0.17 | 72 | 0.22 |
| Llama 3.1 Nemotron Nano 4B v1.1 | 128k | NVIDIA | 26 | – | 0.00 | 0 | 0.00 |
| Kimi Linear 48B A3B Instruct | 1m | Kimi | 26 | – | 0.00 | 0 | 0.00 |
| Reka Flash 3 | 128k | Reka AI | 26 | -65 | 0.35 | 49 | 1.34 |
| Llama 3.3 Nemotron Super 49B | 128k | NVIDIA | 26 | -51 | 0.00 | 0 | 0.00 |
| NVIDIA Nemotron 3 Nano | 1m | NVIDIA | 26 | -65 | 0.10 | 311 | 0.21 |
| NVIDIA Nemotron Nano 12B v2 VL | 128k | NVIDIA | 25 | -73 | 0.30 | 127 | 0.60 |
| Qwen3 VL 4B | 256k | Alibaba | 25 | – | 0.00 | 0 | 0.00 |
| Hermes 4 70B | 128k | Nous Research | 24 | -50 | 0.20 | 72 | 0.69 |
| Llama 3.1 Nemotron 70B | 128k | NVIDIA | 24 | -41 | 1.20 | 41 | 0.40 |
| Granite 4.0 H Small | 128k | IBM | 23 | -62 | 0.11 | 196 | 8.80 |
| Phi-4 | 16k | Microsoft Azure | 23 | -56 | 0.22 | 14 | 0.49 |
| Qwen3 1.7B | 32k | Alibaba | 22 | -78 | 0.40 | 125 | 0.87 |
| OLMo 3 7B | 66k | Allen Institute for AI | 22 | -78 | 0.13 | 35 | 0.61 |
| Gemma 3 27B | 128k | 22 | -68 | 0.00 | 47 | 4.39 | |
| Ministral 3B (Dec '25) | 256k | Mistral | 22 | -64 | 0.10 | 276 | 0.28 |
| Jamba Reasoning 3B | 262k | AI21 Labs | 21 | -63 | 0.00 | 0 | 0.00 |
| Jamba 1.7 Large | 256k | AI21 Labs | 21 | 0 | 3.50 | 51 | 0.81 |
| Exaone 4.0 1.2B | 64k | LG AI Research | 20 | -83 | 0.00 | 0 | 0.00 |
| Gemma 3 12B | 128k | 20 | -77 | 0.00 | 45 | 5.59 | |
| R1 1776 | 128k | Perplexity | 19 | – | 0.00 | 0 | 0.00 |
| Llama 3.2 90B (Vision) | 128k | Meta | 19 | – | 0.72 | 42 | 0.33 |
| Nova Micro | 130k | Amazon | 18 | -49 | 0.06 | 470 | 0.35 |
| LFM2 8B A1B | 33k | Liquid AI | 17 | – | 0.00 | 0 | 0.00 |
| Granite 4.0 Micro | 128k | IBM | 16 | -78 | 0.00 | 0 | 0.00 |
| Phi-4 Mini | 128k | Microsoft Azure | 16 | -63 | 0.00 | 45 | 0.30 |
| DeepHermes 3 - Mistral 24B | 32k | Nous Research | 16 | – | 0.00 | 0 | 0.00 |
| Llama 3.2 11B (Vision) | 128k | Meta | 16 | -63 | 0.16 | 70 | 0.41 |
| Gemma 3n E4B | 32k | 15 | -82 | 0.03 | 56 | 0.37 | |
| Jamba 1.7 Mini | 258k | AI21 Labs | 15 | -1 | 0.25 | 127 | 0.68 |
| Gemma 3 4B | 128k | 15 | -84 | 0.00 | 44 | 0.98 | |
| Qwen3 1.7B | 32k | Alibaba | 14 | -82 | 0.19 | 117 | 0.88 |
| Qwen3 0.6B | 32k | Alibaba | 14 | -82 | 0.40 | 201 | 0.78 |
| Granite 4.0 H 1B | 128k | IBM | 14 | – | 0.00 | 0 | 0.00 |
| Granite 4.0 1B | 128k | IBM | 13 | -83 | 0.00 | 0 | 0.00 |
| Phi-4 Multimodal | 128k | Microsoft Azure | 12 | – | 0.00 | 17 | 0.33 |
| LFM2 2.6B | 33k | Liquid AI | 12 | – | 0.00 | 0 | 0.00 |
| Gemma 3n E2B | 32k | 11 | -81 | 0.00 | 45 | 0.37 | |
| Qwen3 0.6B | 32k | Alibaba | 11 | -87 | 0.19 | 191 | 0.79 |
| LFM2 1.2B | 33k | Liquid AI | 10 | -71 | 0.00 | 0 | 0.00 |
| Molmo 7B-D | 4k | Allen Institute for AI | 9 | – | 0.00 | 0 | 0.00 |
| Granite 4.0 H 350M | 33k | IBM | 8 | -89 | 0.00 | 0 | 0.00 |
| Granite 4.0 350M | 33k | IBM | 8 | -64 | 0.00 | 0 | 0.00 |
| Gemma 3 1B | 32k | 7 | -80 | 0.00 | 40 | 0.53 | |
| Gemma 3 270M | 32k | 6 | – | 0.00 | 0 | 0.00 | |
| DeepHermes 3 - Llama-3.1 8B | 128k | Nous Research | 2 | – | 0.00 | 0 | 0.00 |
| DeepSeek-OCR | 8k | DeepSeek | – | – | 0.05 | 323 | 0.23 |
| Grok Voice Agent | 32k | xAI | – | – | 0.00 | 0 | 0.00 |
| Cogito v2.1 | 128k | Deep Cogito | – | -27 | 1.25 | 73 | 0.36 |
表格说明
- 上下文窗口单位为 tokens,
1m代表 100 万,k代表 1000; - 性能偏移值为模型相对基准版本的性能波动幅度,负值代表性能低于基准,正值代表高于基准;
- 延迟为从发送请求到接收首块 tokens 的时间,输出速度为生成 tokens 的速率;
--代表该指标无公开数据。
01 智能表现:前沿模型的巅峰对决
榜单顶端的智能分数竞争激烈,各大科技公司的顶尖模型展开了毫厘之间的较量。
Gemini 3 Pro Preview以73分的高智能分数位居榜首,紧随其后的是OpenAI的GPT-5.2,同样获得73分,仅因细微差别略逊一筹。
Gemini 3 Flash和Claude Opus 4.5分别以71分和70分位列第三和第四。这些分数代表了模型在理解、推理、创造等多维度能力的综合评估。
DeepSeek旗下模型表现稳健,其中DeepSeek V3.2和DeepSeek V3.2 Speciale分别获得66分和59分的智能分数。虽然与顶尖模型尚有差距,但在性价比方面展现出独特优势。
值得一提的是,OpenAI的o3模型虽然只有65分的智能分数,但其高达351 tokens/s的输出速度使其在实际应用中具备独特的竞争力。
02 价格格局:成本战的全面打响
价格成为模型竞争的第二战场,一些小型模型通过极致的成本控制找到了市场定位。
Gemma 3n E4B和DeepSeek-OCR创造了价格新低,分别仅为每百万token 0.03美元和0.05美元。
Llama 3.2系列同样表现出色,1B和3B版本价格极为亲民,使更多开发者和企业能够负担得起AI能力集成。
在中国厂商中,DeepSeek V3.2以0.32美元的价格提供了66分的智能表现,性价比突出。相比之下,小米的MiMo-V2-Flash虽然智能分数为66分,价格仅为0.15美元,展现出更强的成本控制能力。
Claude Opus 4.5以10美元每百万token的价格位居高端,反映了其在专业领域的价值定位。
下表展示了代表性模型的价格与智能平衡:
| 模型 | 价格(美元/百万token) | 智能分数 | 性价比指数(智能/价格) |
|---|---|---|---|
| Gemma 3n E4B | 0.03 | 未显示 | - |
| DeepSeek-OCR | 0.05 | 未显示 | - |
| Llama 3.2 1B | 未显示 | 未显示 | - |
| DeepSeek V3.2 | 0.32 | 66 | 206.25 |
| MiMo-V2-Flash | 0.15 | 66 | 440.00 |
| Claude Opus 4.5 | 10.00 | 70 | 7.00 |
| Gemini 3 Pro Preview | 4.50 | 73 | 16.22 |
03 输出速度:实时响应能力的竞争
在需要快速响应的应用场景中,输出速度成为关键指标,部分模型在此方面表现突出。
Granite 3.3 8B以惊人的686 tokens/s位居速度榜首,显示出小型模型在优化后可以达到极致的处理速度。
Gemini 2.5 Flash-Lite (Sep)以538 tokens/s紧随其后,而Nova Micro等模型也在高速输出领域占有一席之地。
OpenAI的o3模型虽然智能分数仅为65分,但输出速度高达351 tokens/s,在需要快速生成内容的场景中优势明显。
相比之下,一些高分智能模型如Claude Opus 4.5(64 tokens/s)和Gemini 3 Pro Preview(132 tokens/s)在速度上做出了妥协,以换取更强的智能表现。
04 延迟表现:即时交互的关键指标
对于需要即时反馈的交互式应用,首次令牌延迟时间(TTFT)是至关重要的性能参数。
Apriel-v1.5-15B-Thinker以0.18秒的极低延迟位居榜首,创造了近乎实时的交互体验。
NVIDIA Nemotron 3 Nano以0.19秒紧随其后,显示出专业硬件公司在优化推理延迟方面的技术积累。
Command A和NVIDIA Nemotron Nano 12B v2 VL等模型也在低延迟领域表现出色,为实时对话、代码补全等应用场景提供了技术支持。
值得注意的是,延迟与模型大小和架构密切相关,一些小型专用模型通过精简设计实现了极低的响应时间,满足了特定应用场景的需求。
05 上下文窗口:处理长文本的能力比拼
随着应用场景的复杂化,模型能够处理的上下文长度成为衡量其能力的重要维度。
Llama 4 Scout以惊人的10M(1000万)tokens上下文窗口位居榜首,能够处理极其庞大的文档和对话历史。
Grok 4 Fast以2M tokens的容量紧随其后,显示出在处理长上下文方面的强大能力。
其他模型如Gemini 3 Pro Preview(1M)、GPT-5.2(400k)等,虽然上下文窗口相对较小,但在各自适用场景中仍表现出色。
长上下文能力使模型能够处理复杂文档、进行长对话管理和跨文档分析,为法律、研究、编程等专业领域提供了更多可能性。
06 中国模型军团:多元发展的技术路线
中国AI公司在排行榜中呈现出多元化发展的态势,不同厂商选择了各具特色的技术路线。
DeepSeek通过平衡智能与价格找到了市场定位,其V3.2版本以66分的智能和0.32美元的价格提供了良好的性价比。
阿里巴巴的Qwen3系列模型覆盖了从4B到235B的多种规模,其中Qwen3 235B A22B 2507以57分智能和2.63美元的价格面向高端市场。
百度ERNIE 5.0 Thinking Preview、智谱GLM-4.7、小米MiMo-V2-Flash等模型也在榜单中占有一席之地,显示出中国AI生态的繁荣发展。
特别值得一提的是,字节跳动的Doubao-Seed-1.8以0.15美元的价格提供了61分的智能表现,在性价比方面具有竞争力。
07 专业细分领域:针对性优化的模型涌现
随着AI应用场景的细化,针对特定领域优化的模型开始崭露头角,形成了多样化的技术生态。
KAT-Coder-Pro V1以完全免费的方式提供了64分的智能表现,专注于代码生成领域,为开发者社区提供了可访问的高质量工具。
NVIDIA的Nemotron系列在低延迟推理方面表现突出,结合硬件优势为实时应用提供了解决方案。
专注于推理的DeepSeek R1 0528虽然价格较高(2.36美元),但在需要复杂逻辑推理的场景中可能提供更高价值。
一些模型如Apriel-v1.6-15B-Thinker完全免费,虽然智能分数不高(57分),但在特定应用场景中仍具有实用价值。
模型竞技场呈现出清晰的三层格局:顶端是Gemini、GPT争夺智能王座,中间层是DeepSeek等模型平衡性能与价格,底层则是Gemma、Llama构建普惠AI生态。
价格战已全面打响,每百万token的成本从10美元骤降至0.03美元。当Gemini 2.5 Flash-Lite以每秒538个token的速度狂奔时,延迟低于0.2秒的模型正在重新定义人机交互的即时性边界。
这场竞赛没有单一赢家,只有在特定维度上的领先者。