【硬核干货】震惊！中国团队推出MinT平台，CPU也能训练万亿参数模型，成本仅1/10，AI下半场入场券来了！-程序员充电站

在大公司一路高歌猛进的 AI 浪潮里，小创业者和高校研究者正变得越来越迷茫。就连前段时间谷歌创始人谢尔盖・布林回斯坦福，都要回答「大学该何去何从」「从学术到产业的传统路径是否依然重要」这类问题。

AI，真的只是大公司的游戏吗？被算力掣肘的其他研究者、创业者，机会在哪里？在「强化学习」后训练引领「下半场」的当下，这个问题变得愈发重要。

好在，国内外都有专业团队在关心这个问题，比如前 OpenAI CTO Mira 创办的 Thinking Machines Lab，前段时间就推出了一个叫「Tinker」的产品，专注于解决后训练 Infra 的复杂性。

而在国内，一群由 95 后青年科学家组成的团队做出了足以对标甚至超越 Tinker 的竞品，成为世界第一家能够对标 Thinking Machines Lab 的公司。

这个研究中心叫 Mind Lab，是 Macaron AI 背后的实验室。1 月 1 日，他们发布了亮相以来的第一款产品——Mind Lab Toolkit（MinT）。这是一个用 CPU 的机器就能高效训练万亿参数模型的后训练平台，且成本优化了十倍，一天即可轻松完成一轮训练。此外，它比 Thinking Machines 更早实现了 1T LoRA-RL，是业界在万亿参数模型上进行高效强化学习的第一个成果。

如果你是 Agent 领域创业公司或高校顶尖实验室的成员，并且被算力限制了想象力，那你将是 MinT 的首批受益者。它的应用场景涵盖基础研究到垂直行业的广泛领域，已经在圈内做出了一些成果。

细看一下，Mind Lab 的创始团队也堪称豪华。创始人 Andrew 毕业于 MIT，目前担任深圳清华大学研究院的研发中心主任，代表工作有和姚顺雨合作的 Agent 微调的经典工作之一 FireAct。

首席科学家马骁腾博士则毕业于清华大学自动化系，常年深耕强化学习领域。团队成员来自清华、MIT、CMU等高校，并有OpenAI、DeepMind、Seed 等顶尖实验室的工作经历。

团队累计发表论文超 100 篇，总引用量超 3 万次。

这样一个团队打造的 MinT，正以极致的工程效率，将 AI 下半场的入场券交还到每一位研究者手中。

预训练时代结束

AI 下半场开启

过去几年，预训练一直是 AI 领域的主旋律 —— 更大的模型、更多的数据、更长的训练周期。

如今，这一阶段已趋于饱和：开源社区已经拥有万亿参数级别的模型，能够编写代码、总结文档、通过标准化考试。

但当这些系统被部署到真实产品中，新的瓶颈开始显现。模型一旦完成训练，参数就被 ’ 冻住 ’ 了，不停重复着相同的错误，也无法适应不断变化的用户需求，实际使用效果只能靠抽卡。

强化学习，正是破局的关键。

DeepSeek R1 的发布更是向业界证明，强化学习能够带来惊人的泛化性和样本效率 —— 模型不再只是 “记住” 数据，而是学会了在复杂任务中进行推理。

在 Gemini、DeepSeek V3.2、Kimi K2 等多个前沿模型的技术报告中都反复强调：后训练仍是一片蓝海，强化学习还没看到天花板。

2026 年的主旋律，是后训练。

后训练时代的基础设施

强化学习这么重要，为什么没普及？答案是：算法太复杂，训练太不稳定。

为了解决这个问题，前 OpenAI CTO Mira 创立的 Thinking Machines 发布了 Tinker，定义了后训练 API 的新范式，迅速获得美国学界和硅谷创业公司的热捧。

在 OpenAI 经历了 Sam Altman 被解雇又回归的内部动荡后，Mira 选择离开，并迅速组建了一支 “梦之队”—— 核心成员包括 OpenAI 前研究副总裁 John Schulman、Lilian Weng 等业界顶尖人才。资本市场对这家公司的追捧堪称疯狂。2025 年 7 月，Thinking Machines 完成了硅谷历史上最大的种子轮融资 ——20 亿美元，估值 120 亿美元。

他们押注的，正是后训练赛道。2025 年 10 月，Thinking Machines 发布了首款产品 Tinker，12 月面向所有用户开放。如果说 OpenAI 定义了大模型的推理 API 范式，那么 Tinker 定义的就是模型的训练 API 范式，让所有模型训练共享。

Tinker 已经获得了学术界和工业界的广泛认可，成为了硅谷和美国顶尖高校的训练新范式。

Mind Lab 与 MinT

国产后训练基础设施的崛起

Tinker 在海外大火的同时，国内也涌现出了对标甚至超越的力量 ——Mind Lab 推出的 MinT（Mind Lab Toolkit）。

Mind Lab 秉持 “From Static ‘Brains’ to Adaptive ‘Minds’” 的理念，致力于让 AI 系统能够从真实世界的经验中不断成长。

在他们看来，当前大模型最大的问题是：训练完就 “冻住”，无法从真实交互中持续学习进化。

MinT，正是为解决这个问题而生。

MinT 和 Tinker 是什么关系？可以从两个层面理解：

兼容性上，MinT 做到了模型够大够全、接口完全一致 —— 与 Tinker API 完全兼容。这意味着使用 Tinker 的开发者可以几乎零成本地迁移到 MinT，享受国产基础设施带来的便利。

技术领先性上，MinT 不是简单的 “国产替代”。事实上，早在 2025 年 12 月 1 日，Mind Lab 就比 Thinking Machines 更早实现了 1T LoRA-RL，是业界在万亿参数模型上进行高效强化学习的第一个成果。

相关实现方案已经开源，并获得了 Nvidia 官方转载。

具体方案详见 Mind Lab 的技术报告：https://macaron.im/mindlab/research/building-trillion-parameter-reasoning-rl-with-10-gpus

MinT 解决了什么问题？

MinT 的核心价值可以用一句话说清：不论模型是1B还是1T，需要调度多少GPU，你只管数据和算法，基础设施的复杂工程全交给平台。

具体来说：用户只需在本地 CPU 机器上写几行 Python 代码，MinT 就会自动把计算任务分发到大规模 GPU 集群执行。集群调度、资源管理、容错恢复，这些让开发者和研究人员头疼的工程问题，统统由 MinT 搞定。切换不同的模型，只需修改代码中的一个字符串。

技术路线上，MinT 采用 LoRA 技术，使多个训练和推理任务可以共享同一计算资源池，从而显著降低成本。LoRA 在选择最优学习率的情况下，训练进程与全参数微调几乎完全一致，这为大规模高效后训练奠定了理论基础。

目前，MinT 已支持 Kimi K2 Thinking（万亿参数级别的 MoE 推理模型）、Qwen3-VL 系列视觉语言模型等前沿开源模型，并全面兼容 Tinker API。值得一提的是，MinT 还优先支持了 π0 等具身 VLA 模型，这也体现出了中国公司在具身智能上的领先优势。

为什么需要 1T LoRA-RL？

强化学习被视为让大模型从 “背题” 走向 “推理” 的关键，但现实里有三大难题：训练不稳，小模型难以收敛，算力成本高。LoRA 提供了一条低成本路径，只训练少量低秩适配器即可显著提升下游任务表现，且在 RL/Agent 训练上几乎不损失性能。

Mind Lab 在 Kimi K2（万亿参数 MoE）上实现了端到端 LoRA 强化学习，带来三点突破：

成本：仅用常规全参 RL 约 10% 的 GPU 资源，64 块 H800 即可完成训练。
稳定性：奖励与任务成功率平稳提升，无灾难性发散；在 held-out 基准上既提升特定任务，又保持基座模型通用能力。
系统：统一调度张量 / 流水线 / 专家 / 序列并行，针对 MoE 路由不均衡与通信压力做了专项优化。相关技术已贡献至 NVIDIA Megatron-Bridge 与火山引擎 verl 等开源项目。

为什么选择 MinT？

MinT 的产品设计围绕一个核心目标：把后训练和强化学习的门槛打下来。

验证成本上：MinT 允许开发者仅用 CPU 机器进行训练验证，告别配置 GPU 驱动和 OOM 的烦恼。这让团队可以在投入大规模 GPU 资源前，先低成本验证算法可行性。
工程效率上：MinT 将采样、训练、回写与发布无缝串联，减少了工程拼装成本。并行策略、权重管理、optimizer state 管理、滚动训练、日志与可复现性等，都按工程标准打通。
开发体验上：MinT 完全兼容 Tinker API，现有代码可快速适配，切换不同模型只需一行代码。目前已支持 Qwen、Kimi 等先进的开源大模型。
迭代速度上：采用 LoRA-RL 技术让模型迭代周期从 “按周” 缩短到 “按天”，真正服务于快节奏的产品开发需求。

谁是 MinT 最大的受益者？

第一批使用 MinT 的受益者，一定是 Agent 领域的创业公司和研究模型的高校顶尖实验室。

它们共同的特点是：掌握核心的数据和问题的设定。他们并非不了解前沿算法，而往往是被算力与训练框架难住了。

据 Mind Lab 官网介绍，目前 MinT 已经获得了顶尖高校和多个创业公司的认可，应用场景涵盖基础研究到垂直行业的广泛领域。

在学术机构方面：

清华大学人工智能学院黄高副教授团队（CVPR best paper 以及 NeruIPS best paper runner up 获得者）利用 MinT 开展了 RL 如何突破 Base model 知识边界的研究。
上海交通大学副教授、上海创智学院全时导师蔡盼盼的 RoPL 实验室使用 MinT 在具身决策大模型和决策世界模型方面展开研究。

在行业应用方面：

硅谷创业公司Eigen AI合作探索运用 MinT 和 Data Agent 合成数据在 1T 模型上进行 agentic RL 训练。
脑机接口公司姬械机利用 MinT 支持了他们的脑机接口 AgentBCI-Love，可以进行情感交互对话。
瑞铭医疗利用 MinT 对医疗编码模型进行了基于 RL 的后训练，显著提升了医疗编码的准确率，并落地到数十家三甲医院。

这些案例展现了 MinT 的通用性 —— 从基础研究到垂直行业，都能用。

中国团队引领后训练浪潮

如何让模型真正 “理解” 而非只是 “记住”，是众多创业团队与科研工作者共同面对的核心问题。强化学习被视为解决这一问题的关键路径，但其高门槛、高成本与不稳定性，长期限制了它在真实产品和中小团队中的落地。

2025 年，中国团队在开源模型上大放异彩。

2026 年，后训练将是中国 AI 弯道超车的下一个关键战场。

Mind Lab 选择了 LoRA-RL 这一技术路径，在超大规模模型上完成了万亿参数级别的探索与验证，再次证明了中国团队在前沿研究上的工程能力与原创实力。MinT 正是 Mind Lab 希望将这些研究成果系统化、工具化的产物 —— 让后训练和强化学习不再只属于少数头部机构，而是成为更多公司与实验室可以日常使用的能力。

这正是 Mind Lab 真正布局的方向：让先进研究转化为可用工具，让中国团队在模型后训练与强化学习这一关键技术浪潮中，实现自主可控。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

AI炸场！视觉Token压缩技术让大模型“过目不忘“！Gemini-3-Pro封神之作，VTC或成长文本处理终局？