AI模型竞技场全景：智能、速度与成本的综合较量-程序员充电站

Gemini 3 Pro Preview以73分高居智能榜首，而每百万token仅需0.03美元的Gemma 3n E4B则创造了价格新低。当AI模型如雨后春笋般涌现，这个排行榜正成为衡量它们实力的“技术标尺”。

在Artificial Analysis AI最新发布的模型排行榜中，超过100个大型语言模型按智能分数、价格、输出速度和延迟等关键指标进行了全面评估。

这份榜单如同AI领域的“奥运会成绩单”，展示了各家公司在不同技术赛道上的优势与取舍。

主流大语言模型核心指标对比表

模型名称	上下文窗口	提供商	智能指数	性能偏移值	价格（每百万tokens/美元）	输出速度（tokens/秒）	延迟（秒）
Gemini 3 Pro Preview (high)	1m	Google	73	13	4.50	132	31.31
GPT-5.2 (xhigh)	400k	OpenAI	73	-4	4.81	113	28.50
Gemini 3 Flash	1m	Google	71	10	1.13	230	11.58
Claude Opus 4.5	200k	Anthropic	70	10	10.00	64	1.69
GPT-5.1 (high)	400k	OpenAI	70	2	3.44	189	28.50
Z AI	200k	Z AI	68	-36	0.88	83	0.71
GPT-5.2 (medium)	400k	OpenAI	67	-3	4.81	0	0.00
Kimi K2 Thinking	256k	Kimi	67	-23	1.07	101	0.65
GPT-5.1 Codex (high)	400k	OpenAI	67	-7	3.44	245	11.00
MiMo-V2-Flash	256k	Xiaomi	66	-42	0.15	142	1.58
DeepSeek V3.2	128k	DeepSeek	66	-23	0.32	30	1.30
o3	200k	OpenAI	65	-17	3.50	351	9.25
Grok 4	256k	xAI	65	1	6.00	50	10.08
Gemini 3 Pro Preview (low)	1m	Google	65	-1	4.50	136	4.11
GPT-5 mini (high)	400k	OpenAI	64	-20	0.69	68	119.02
Grok 4.1 Fast	2m	xAI	64	-31	0.28	163	6.23
MiniMax-M2.1	205k	MiniMax	64	-30	0.53	67	1.42
KAT-Coder-Pro V1	256k	KwaiKAT	64	-36	0.00	62	1.01
Claude 4.5 Sonnet	1m	Anthropic	63	-2	6.00	64	1.94
Nova 2.0 Pro Preview (medium)	256k	Amazon	62	-50	3.44	137	21.60
GPT-5.1 Codex mini (high)	400k	OpenAI	62	-18	0.69	189	9.05
Doubao-Seed-1.8	256k	ByteDance Seed	61	-42	0.15	0	0.00
MiniMax-M2	205k	MiniMax	61	-50	0.53	64	1.62
gpt-oss-120B (high)	131k	OpenAI	61	-52	0.26	372	0.45
Grok 4 Fast	2m	xAI	60	-31	0.28	157	4.86
Claude Opus 4.5	200k	Anthropic	60	-6	10.00	80	1.98
Gemini 2.5 Pro	1m	Google	60	-18	3.44	160	34.18
DeepSeek V3.2 Speciale	128k	DeepSeek	59	-19	0.32	0	0.00
Nova 2.0 Lite (medium)	1m	Amazon	58	-58	0.85	242	14.58
DeepSeek V3.1 Terminus	128k	DeepSeek	58	-27	0.80	0	0.00
Nova 2.0 Pro Preview (low)	256k	Amazon	58	-48	3.44	136	11.74
Qwen3 235B A22B 2507	256k	Alibaba	57	-48	2.63	68	1.06
Doubao Seed Code	256k	ByteDance Seed	57	-36	0.41	0	0.00
Grok 3 mini Reasoning (high)	1m	xAI	57	-7	0.35	195	0.72
Apriel-v1.6-15B-Thinker	128k	ServiceNow	57	-60	0.00	148	0.25
Nova 2.0 Omni (medium)	1m	Amazon	56	-60	0.85	0	0.00
Qwen3 Max Thinking	262k	Alibaba	56	-40	2.40	34	1.69
Qwen3 Max	262k	Alibaba	55	-45	2.40	29	1.69
Claude 4.5 Haiku	200k	Anthropic	55	-6	2.00	90	0.41
Gemini 3 Flash	1m	Google	55	-1	1.13	199	0.68
Qwen3 VL 235B A22B	262k	Alibaba	54	-47	2.63	42	1.02
Qwen3 Next 80B A3B	262k	Alibaba	54	-53	1.88	182	0.96
ERNIE 5.0 Thinking Preview	128k	Baidu	53	-42	1.47	0	0.00
DeepSeek V3.2	128k	DeepSeek	52	-49	0.32	29	1.33
gpt-oss-20B (high)	131k	OpenAI	52	-65	0.10	300	0.51
Magistral Medium 1.2	128k	Mistral	52	-28	2.75	38	0.50
DeepSeek R1 0528	128k	DeepSeek	52	-30	2.36	0	0.00
Qwen3 VL 32B	256k	Alibaba	52	-53	2.63	52	1.02
NVIDIA Nemotron 3 Nano	1m	NVIDIA	52	-52	0.10	333	0.19
GPT-5 nano (high)	400k	OpenAI	51	-30	0.14	136	102.57
GLM-4.7	200k	Z AI	51	-48	0.87	73	0.76
Kimi K2 0905	256k	Kimi	50	-28	1.20	96	0.55
Claude 4.5 Sonnet	1m	Anthropic	50	-11	6.00	72	1.99
GLM-4.5-Air	128k	Z AI	49	-63	0.42	103	0.61
Nova 2.0 Omni (low)	1m	Amazon	49	-51	0.85	0	0.00
Grok Code Fast 1	256k	xAI	49	-38	0.53	251	4.99
Mi:dm K 2.5 Pro	128k	Korea Telecom	48	–	0.00	0	0.00
GPT-5.2	400k	OpenAI	48	-15	4.81	80	0.63
Gemini 2.5 Flash-Lite (Sep)	1m	Google	48	-55	0.17	538	5.53
gpt-oss-120B (low)	131k	OpenAI	48	-56	0.26	322	0.45
Nova 2.0 Lite (low)	1m	Amazon	47	-55	0.85	225	4.78
Qwen3 30B A3B 2507	262k	Alibaba	46	-57	0.75	176	0.88
K2-V2 (high)	512k	MBZUAI Institute of Foundation Models	46	-57	0.00	0	0.00
MiMo-V2-Flash	256k	Xiaomi	46	-45	0.15	113	1.59
DeepSeek V3.1 Terminus	128k	DeepSeek	46	-45	0.80	0	0.00
Qwen3 235B 2507	256k	Alibaba	45	-45	1.23	46	0.95
Qwen3 VL 30B A3B	256k	Alibaba	45	-59	0.75	106	1.06
Llama Nemotron Super 49B v1.5	128k	NVIDIA	45	-47	0.17	74	0.23
Motif-2-12.7B	128k	Motif Technologies	45	-62	0.00	0	0.00
Qwen3 Next 80B A3B	262k	Alibaba	45	-60	0.88	181	1.09
Ling-1T	128k	InclusionAI	45	-57	0.00	0	0.00
HyperCLOVA X SEED Think (32B)	128k	Naver	44	-52	0.00	0	0.00
gpt-oss-20B (low)	131k	OpenAI	44	-61	0.10	255	0.59
Qwen3 VL 235B A22B	262k	Alibaba	44	-54	1.23	37	1.11
Mi:dm K 2.5 Pro Preview	128k	Korea Telecom	44	-56	0.00	0	0.00
Qwen3 4B 2507	262k	Alibaba	43	-55	0.00	0	0.00
Magistral Small 1.2	128k	Mistral	43	-66	0.75	214	0.32
EXAONE 4.0 32B	131k	LG AI Research	43	-61	0.70	94	0.29
Qwen3 Coder 480B	262k	Alibaba	42	-24	3.00	51	1.50
Nova 2.0 Pro Preview	256k	Amazon	42	-50	3.44	159	0.47
Ring-1T	128k	InclusionAI	42	0	0.98	0	0.00
Claude 4.5 Haiku	200k	Anthropic	42	-8	2.00	104	0.43
Gemini 2.5 Flash-Lite (Sep)	1m	Google	42	-44	0.17	462	0.29
Hermes 4 405B	128k	Nous Research	42	-37	1.50	35	0.78
Qwen3 VL 32B	256k	Alibaba	41	-64	1.23	45	0.92
GLM-4.6V	128k	Z AI	41	-26	0.45	69	0.70
NVIDIA Nemotron Nano 12B v2 VL	128k	NVIDIA	41	-66	0.30	128	0.17
K2-V2 (medium)	512k	MBZUAI Institute of Foundation Models	40	-51	0.00	0	0.00
Qwen3 Omni 30B A3B	66k	Alibaba	40	-62	0.43	97	0.84
Ring-flash-2.0	128k	InclusionAI	40	-60	0.25	88	1.39
Hermes 4 70B	128k	Nous Research	39	-51	0.20	79	0.62
Grok 4 Fast	2m	xAI	39	-56	0.28	145	0.63
Llama Nemotron Ultra	128k	NVIDIA	38	-46	0.90	37	0.76
Qwen3 VL 30B A3B	256k	Alibaba	38	-64	0.35	97	0.95
Mistral Large 3	256k	Mistral	38	-41	0.75	48	0.54
Olmo 3.1 32B Think	66k	Allen Institute for AI	38	-39	0.00	37	0.47
Ling-flash-2.0	128k	InclusionAI	38	-67	0.25	54	1.49
Grok 4.1 Fast	2m	xAI	38	-52	0.28	146	0.76
Solar Pro 2	66k	Upstage	38	-58	0.50	112	0.99
NVIDIA Nemotron Nano 9B V2	131k	NVIDIA	37	-43	0.07	43	0.28
Qwen3 30B A3B 2507	262k	Alibaba	37	-67	0.35	59	0.99
Devstral 2	256k	Mistral	36	-48	0.00	58	0.43
NVIDIA Nemotron Nano 9B V2	131k	NVIDIA	36	-58	0.10	76	0.47
Llama 4 Maverick	1m	Meta	36	-43	0.42	133	0.41
Nova 2.0 Lite	1m	Amazon	36	-60	0.85	222	0.52
Llama 3.3 Nemotron Super 49B	128k	NVIDIA	35	–	0.00	0	0.00
Mistral Medium 3.1	128k	Mistral	35	-48	0.80	85	0.46
Nova 2.0 Omni	1m	Amazon	34	-65	0.85	230	0.72
Qwen3 Coder 30B A3B	262k	Alibaba	33	-52	0.90	102	1.48
ERNIE 4.5 300B A47B	131k	Baidu	33	-37	0.00	30	2.03
Hermes 4 405B	128k	Nous Research	33	-35	1.50	33	0.79
Nova Premier	1m	Amazon	32	-38	5.00	80	0.82
Qwen3 VL 8B	256k	Alibaba	32	-54	0.66	64	0.91
OLMo 3 7B Think	66k	Allen Institute for AI	32	-74	0.14	113	0.53
Devstral Small 2	256k	Mistral	32	-59	0.00	204	0.35
K2-V2 (low)	512k	MBZUAI Institute of Foundation Models	31	-49	0.00	0	0.00
DeepSeek R1 0528 Qwen3 8B	33k	DeepSeek	31	-65	0.07	40	1.22
Ministral 14B (Dec '25)	256k	Mistral	31	-67	0.20	132	0.32
GLM-4.6V	128k	Z AI	30	-39	0.45	57	0.81
Qwen3 4B 2507	262k	Alibaba	30	-54	0.00	0	0.00
EXAONE 4.0 32B	131k	LG AI Research	30	-64	0.70	87	0.31
Solar Pro 2	66k	Upstage	30	-63	0.50	110	1.02
Qwen3 Omni 30B A3B	66k	Alibaba	30	-70	0.43	89	0.88
DeepSeek R1 Distill Llama 70B	128k	DeepSeek	30	-47	0.88	87	0.88
Mistral Small 3.2	128k	Mistral	29	-51	0.15	105	0.33
Ministral 8B (Dec '25)	256k	Mistral	28	-70	0.15	194	0.27
Llama 4 Scout	10m	Meta	28	-53	0.24	114	0.44
Llama 3.1 405B	128k	Meta	28	-18	4.19	25	0.80
Llama 3.3 70B	128k	Meta	28	-55	0.64	119	0.46
Devstral Medium	256k	Mistral	28	-33	0.80	112	0.43
Ling-mini-2.0	131k	InclusionAI	28	0	0.12	181	1.39
Qwen3 VL 4B	256k	Alibaba	27	–	0.00	0	0.00
Devstral Small	256k	Mistral	27	-52	0.15	238	0.36
Qwen3 VL 8B	256k	Alibaba	27	-54	0.31	107	0.85
Command A	256k	Cohere	27	-50	4.38	116	0.20
Exaone 4.0 1.2B	64k	LG AI Research	27	-82	0.00	0	0.00
Llama Nemotron Super 49B v1.5	128k	NVIDIA	27	-47	0.17	72	0.22
Llama 3.1 Nemotron Nano 4B v1.1	128k	NVIDIA	26	–	0.00	0	0.00
Kimi Linear 48B A3B Instruct	1m	Kimi	26	–	0.00	0	0.00
Reka Flash 3	128k	Reka AI	26	-65	0.35	49	1.34
Llama 3.3 Nemotron Super 49B	128k	NVIDIA	26	-51	0.00	0	0.00
NVIDIA Nemotron 3 Nano	1m	NVIDIA	26	-65	0.10	311	0.21
NVIDIA Nemotron Nano 12B v2 VL	128k	NVIDIA	25	-73	0.30	127	0.60
Qwen3 VL 4B	256k	Alibaba	25	–	0.00	0	0.00
Hermes 4 70B	128k	Nous Research	24	-50	0.20	72	0.69
Llama 3.1 Nemotron 70B	128k	NVIDIA	24	-41	1.20	41	0.40
Granite 4.0 H Small	128k	IBM	23	-62	0.11	196	8.80
Phi-4	16k	Microsoft Azure	23	-56	0.22	14	0.49
Qwen3 1.7B	32k	Alibaba	22	-78	0.40	125	0.87
OLMo 3 7B	66k	Allen Institute for AI	22	-78	0.13	35	0.61
Gemma 3 27B	128k	Google	22	-68	0.00	47	4.39
Ministral 3B (Dec '25)	256k	Mistral	22	-64	0.10	276	0.28
Jamba Reasoning 3B	262k	AI21 Labs	21	-63	0.00	0	0.00
Jamba 1.7 Large	256k	AI21 Labs	21	0	3.50	51	0.81
Exaone 4.0 1.2B	64k	LG AI Research	20	-83	0.00	0	0.00
Gemma 3 12B	128k	Google	20	-77	0.00	45	5.59
R1 1776	128k	Perplexity	19	–	0.00	0	0.00
Llama 3.2 90B (Vision)	128k	Meta	19	–	0.72	42	0.33
Nova Micro	130k	Amazon	18	-49	0.06	470	0.35
LFM2 8B A1B	33k	Liquid AI	17	–	0.00	0	0.00
Granite 4.0 Micro	128k	IBM	16	-78	0.00	0	0.00
Phi-4 Mini	128k	Microsoft Azure	16	-63	0.00	45	0.30
DeepHermes 3 - Mistral 24B	32k	Nous Research	16	–	0.00	0	0.00
Llama 3.2 11B (Vision)	128k	Meta	16	-63	0.16	70	0.41
Gemma 3n E4B	32k	Google	15	-82	0.03	56	0.37
Jamba 1.7 Mini	258k	AI21 Labs	15	-1	0.25	127	0.68
Gemma 3 4B	128k	Google	15	-84	0.00	44	0.98
Qwen3 1.7B	32k	Alibaba	14	-82	0.19	117	0.88
Qwen3 0.6B	32k	Alibaba	14	-82	0.40	201	0.78
Granite 4.0 H 1B	128k	IBM	14	–	0.00	0	0.00
Granite 4.0 1B	128k	IBM	13	-83	0.00	0	0.00
Phi-4 Multimodal	128k	Microsoft Azure	12	–	0.00	17	0.33
LFM2 2.6B	33k	Liquid AI	12	–	0.00	0	0.00
Gemma 3n E2B	32k	Google	11	-81	0.00	45	0.37
Qwen3 0.6B	32k	Alibaba	11	-87	0.19	191	0.79
LFM2 1.2B	33k	Liquid AI	10	-71	0.00	0	0.00
Molmo 7B-D	4k	Allen Institute for AI	9	–	0.00	0	0.00
Granite 4.0 H 350M	33k	IBM	8	-89	0.00	0	0.00
Granite 4.0 350M	33k	IBM	8	-64	0.00	0	0.00
Gemma 3 1B	32k	Google	7	-80	0.00	40	0.53
Gemma 3 270M	32k	Google	6	–	0.00	0	0.00
DeepHermes 3 - Llama-3.1 8B	128k	Nous Research	2	–	0.00	0	0.00
DeepSeek-OCR	8k	DeepSeek	–	–	0.05	323	0.23
Grok Voice Agent	32k	xAI	–	–	0.00	0	0.00
Cogito v2.1	128k	Deep Cogito	–	-27	1.25	73	0.36

表格说明

上下文窗口单位为 tokens，1m代表 100 万，k代表 1000；
性能偏移值为模型相对基准版本的性能波动幅度，负值代表性能低于基准，正值代表高于基准；
延迟为从发送请求到接收首块 tokens 的时间，输出速度为生成 tokens 的速率；
--代表该指标无公开数据。

01 智能表现：前沿模型的巅峰对决

榜单顶端的智能分数竞争激烈，各大科技公司的顶尖模型展开了毫厘之间的较量。

Gemini 3 Pro Preview以73分的高智能分数位居榜首，紧随其后的是OpenAI的GPT-5.2，同样获得73分，仅因细微差别略逊一筹。

Gemini 3 Flash和Claude Opus 4.5分别以71分和70分位列第三和第四。这些分数代表了模型在理解、推理、创造等多维度能力的综合评估。

DeepSeek旗下模型表现稳健，其中DeepSeek V3.2和DeepSeek V3.2 Speciale分别获得66分和59分的智能分数。虽然与顶尖模型尚有差距，但在性价比方面展现出独特优势。

值得一提的是，OpenAI的o3模型虽然只有65分的智能分数，但其高达351 tokens/s的输出速度使其在实际应用中具备独特的竞争力。

02 价格格局：成本战的全面打响

价格成为模型竞争的第二战场，一些小型模型通过极致的成本控制找到了市场定位。

Gemma 3n E4B和DeepSeek-OCR创造了价格新低，分别仅为每百万token 0.03美元和0.05美元。

Llama 3.2系列同样表现出色，1B和3B版本价格极为亲民，使更多开发者和企业能够负担得起AI能力集成。

在中国厂商中，DeepSeek V3.2以0.32美元的价格提供了66分的智能表现，性价比突出。相比之下，小米的MiMo-V2-Flash虽然智能分数为66分，价格仅为0.15美元，展现出更强的成本控制能力。

Claude Opus 4.5以10美元每百万token的价格位居高端，反映了其在专业领域的价值定位。

下表展示了代表性模型的价格与智能平衡：

模型	价格(美元/百万token)	智能分数	性价比指数(智能/价格)
Gemma 3n E4B	0.03	未显示	-
DeepSeek-OCR	0.05	未显示	-
Llama 3.2 1B	未显示	未显示	-
DeepSeek V3.2	0.32	66	206.25
MiMo-V2-Flash	0.15	66	440.00
Claude Opus 4.5	10.00	70	7.00
Gemini 3 Pro Preview	4.50	73	16.22

03 输出速度：实时响应能力的竞争

在需要快速响应的应用场景中，输出速度成为关键指标，部分模型在此方面表现突出。

Granite 3.3 8B以惊人的686 tokens/s位居速度榜首，显示出小型模型在优化后可以达到极致的处理速度。

Gemini 2.5 Flash-Lite (Sep)以538 tokens/s紧随其后，而Nova Micro等模型也在高速输出领域占有一席之地。

OpenAI的o3模型虽然智能分数仅为65分，但输出速度高达351 tokens/s，在需要快速生成内容的场景中优势明显。

相比之下，一些高分智能模型如Claude Opus 4.5（64 tokens/s）和Gemini 3 Pro Preview（132 tokens/s）在速度上做出了妥协，以换取更强的智能表现。

04 延迟表现：即时交互的关键指标

对于需要即时反馈的交互式应用，首次令牌延迟时间(TTFT)是至关重要的性能参数。

Apriel-v1.5-15B-Thinker以0.18秒的极低延迟位居榜首，创造了近乎实时的交互体验。

NVIDIA Nemotron 3 Nano以0.19秒紧随其后，显示出专业硬件公司在优化推理延迟方面的技术积累。

Command A和NVIDIA Nemotron Nano 12B v2 VL等模型也在低延迟领域表现出色，为实时对话、代码补全等应用场景提供了技术支持。

值得注意的是，延迟与模型大小和架构密切相关，一些小型专用模型通过精简设计实现了极低的响应时间，满足了特定应用场景的需求。

05 上下文窗口：处理长文本的能力比拼

随着应用场景的复杂化，模型能够处理的上下文长度成为衡量其能力的重要维度。

Llama 4 Scout以惊人的10M（1000万）tokens上下文窗口位居榜首，能够处理极其庞大的文档和对话历史。

Grok 4 Fast以2M tokens的容量紧随其后，显示出在处理长上下文方面的强大能力。

其他模型如Gemini 3 Pro Preview（1M）、GPT-5.2（400k）等，虽然上下文窗口相对较小，但在各自适用场景中仍表现出色。

长上下文能力使模型能够处理复杂文档、进行长对话管理和跨文档分析，为法律、研究、编程等专业领域提供了更多可能性。

06 中国模型军团：多元发展的技术路线

中国AI公司在排行榜中呈现出多元化发展的态势，不同厂商选择了各具特色的技术路线。

DeepSeek通过平衡智能与价格找到了市场定位，其V3.2版本以66分的智能和0.32美元的价格提供了良好的性价比。

阿里巴巴的Qwen3系列模型覆盖了从4B到235B的多种规模，其中Qwen3 235B A22B 2507以57分智能和2.63美元的价格面向高端市场。

百度ERNIE 5.0 Thinking Preview、智谱GLM-4.7、小米MiMo-V2-Flash等模型也在榜单中占有一席之地，显示出中国AI生态的繁荣发展。

特别值得一提的是，字节跳动的Doubao-Seed-1.8以0.15美元的价格提供了61分的智能表现，在性价比方面具有竞争力。

07 专业细分领域：针对性优化的模型涌现

随着AI应用场景的细化，针对特定领域优化的模型开始崭露头角，形成了多样化的技术生态。

KAT-Coder-Pro V1以完全免费的方式提供了64分的智能表现，专注于代码生成领域，为开发者社区提供了可访问的高质量工具。

NVIDIA的Nemotron系列在低延迟推理方面表现突出，结合硬件优势为实时应用提供了解决方案。

专注于推理的DeepSeek R1 0528虽然价格较高（2.36美元），但在需要复杂逻辑推理的场景中可能提供更高价值。

一些模型如Apriel-v1.6-15B-Thinker完全免费，虽然智能分数不高（57分），但在特定应用场景中仍具有实用价值。

模型竞技场呈现出清晰的三层格局：顶端是Gemini、GPT争夺智能王座，中间层是DeepSeek等模型平衡性能与价格，底层则是Gemma、Llama构建普惠AI生态。

价格战已全面打响，每百万token的成本从10美元骤降至0.03美元。当Gemini 2.5 Flash-Lite以每秒538个token的速度狂奔时，延迟低于0.2秒的模型正在重新定义人机交互的即时性边界。

这场竞赛没有单一赢家，只有在特定维度上的领先者。

AI模型竞技场全景：智能、速度与成本的综合较量

主流大语言模型核心指标对比表

表格说明

01 智能表现：前沿模型的巅峰对决

02 价格格局：成本战的全面打响

03 输出速度：实时响应能力的竞争

04 延迟表现：即时交互的关键指标

05 上下文窗口：处理长文本的能力比拼

06 中国模型军团：多元发展的技术路线

07 专业细分领域：针对性优化的模型涌现

怎样极致优化NGA论坛体验：5大核心功能的完整使用指南

社交内容语音旁白生成技巧：让朋友圈vlog更有感染力

Spotify音乐下载神器：三步搞定永久音乐收藏库

苹果触控板Windows驱动完美解决方案：解锁原生级精准操控体验

macOS外接显示器亮度控制神器：MonitorControl全方位操作指南

MaaYuan代号鸢自动化助手终极配置指南