8美元一道数学难题:当AI会解题,我们该用“烧钱”还是“种钱”?
大家好,我是宁明。
今天想跟你聊一件让我热血沸腾的事——不是新手机发布,不是大模型参数翻倍,而是一个看似冷门、实则关乎AI未来的数据:8美元。
8美元,在纽约只够买一杯加了小费的拿铁。但在2026年7月,陶哲轩领导的First Proof第二期评测中,8美元代表着一个AI系统可以完整、严谨、达到学术发表标准地解析一道未公开数学难题。
你没听错——10道人类数学家都未必能轻松搞定的题,4套AI系统用各自的方式解答,其中7道通过了双盲同行评议。最少的那套系统,一道题只花8美元,总耗时5.8小时,总成本117美元。
117美元。一顿晚餐的钱,AI上交了数学博士级别的作业。
但如果你以为这只是“AI又变强了”的普通新闻,那你可能错过了这场评测背后最深层的一颗炸弹——AI能不能用、值不值得用,早已不是算法问题,而是成本问题。
更准确地说:是Token的问题。
一、First Proof评测:AI开始学会“算账”了
我们先摆开评测的核心事实——看看四位“解题选手”的表现到底如何。
我们称之为“AI解题世界杯”,四支队伍分别是:
| 参赛队伍 | 总花费 | 解题时间 | 原创性指数 | 单题平均成本 |
|---|---|---|---|---|
| 苏黎世联邦理工 System A | 3186美元 | 较长 | 最强 | ~318美元/题 |
| OpenAI ChatGPT 5.5 Pro | 117美元 | 5.8小时 | 中上 | ~8美元/题 |
| 其他系统① | 约500美元 | 约12小时 | 中 | ~50美元/题 |
| 其他系统② | 约800美元 | 约20小时 | 中低 | ~80美元/题 |
陶哲轩的评测团队设计了一个严谨的“双盲同行评议”流程:评审者不知道答案来自AI还是人类,也不知道来自哪家AI。结果7道题达到了学术发表标准——这意味着AI不再只是“聊天机器”,而是可以自主完成逻辑推导、证明构建的准研究者。
但最让我这个工程师激动的,不是能力,而是价格。
苏黎世联邦理工的System A解题能力最强、原创性最高,但解题成本是3186美元——差不多是一部iPhone 16 Pro的起步价。OpenAI ChatGPT 5.5 Pro虽然解题能力不是顶尖,但性价比惊人,117美元搞定10道题。
这暴露了一个核心矛盾:AI有博士的脑子,却养不起博士的账单。
传统大模型的运行逻辑是:每一次推理、每一次生成、每一次迭代,都在消耗“石油”——Token。
而石油是要花钱买的。
一道题8美元听起来不贵,但如果AI应用进入高频、海量、实时的场景——比如一个企业每天处理10万道题、一个家庭机器人每秒都在思考“怎么办”——那个成本数字会让你瞬间清醒。
这就是AI落地最大的隐形天花板:Token成本墙。
二、PopLang的省Token革命:从“烧钱”到“种钱”
看完评测数据,你可能会问:宁明,你说Token贵,那有什么办法把它打下来?
有的。而且答案就在我过去几个月一直在布道的一项技术里——PopLang编程语言引擎。
我在前几期写过PopLang的上线公告,今天不重复基础概念,直接说它跟“8美元/题”有什么关系。
传统AI解题的流程是:用户提问 → LLM接收 → LLM在云端推理 → 输出结果。每一步都要调用模型,每一步都在燃烧Token。
而PopLang做了一件说起来简单、做起来极其聪明的事:“编译-执行”分离。
怎么理解?想象一个场景:你让AI写一个排序算法。
- 传统方案:每次排10个数字,AI都要把排序逻辑重算一遍,烧掉500 Token。
- PopLang方案:AI只用一次思考,生成一段可执行的PopLang代码。然后,这段代码在本地引擎里随时执行,再也不花任何Token。
一次编程,无限执行。Token消耗直接降低90%——99%。
回到8美元这道题:如果使用PopLang架构,解题时LLM只需生成一次PopLang代码,后续的验证、重复测试、同类题的变体,全部在本地完成。原本10道题花117美元,如果用PopLang辅助架构,10道题可能只需10-15美元,而且执行速度从秒级降到毫秒级。
这不是理论——我在ibbot的实测数据上亲眼见证。
省Token这件事,不是锦上添花,而是AI从“精英工具”走向“水电煤”的必经之路。
三、Token节点经济:让每一部手机从消费者变成生产者
但宁明,如果PopLang只是省Token,那它仍然是一个“省钱的工具”——还不够革命。
真正让我热血沸腾的,是PopLang配合ibbot点卡系统,催生了一种全新的经济模式:Token节点经济。
你需要先理解点卡系统的核心逻辑。传统的AI计算是中心化的:大厂建超算中心,用户付费调用。Token像汽油,只能买,不能产。
而点卡系统把“产Token的能力”交给了每一台终端——尤其是你口袋里的手机。
怎么理解?我给你打个比方。
想象你有一台小型发电机。平时你用它给自己的手机充电。但如果你把发电机接到一个小区的电网里,你家发电,邻居付费使用。电还是你的电,用的频率由邻居决定,但你每度电都能收到报酬。
ibbot的点卡系统,本质上就是把每一台ibbot手机变成一台AI Token发电机。
PopLang在ibbot上执行时,会进行大量的本地运算。这些运算在原本的架构下,是要消耗云端Token的。但在点卡体系里,ibbot手机把这些本地运算“产出的有用Token词元”贡献到ibbot网络中——其他AI、其他用户、其他设备,可以用这些Token词元来加速自己的推理。
用户不再只是Token的消费者,而是Token的生产者。
这个过程不需要你懂编程、不需要你建算力中心。你只需要一部安装了ibbot系统的手机——比如我们即将推出的ibbot青春版。
四、ibbot青春版:不是手机,是AI编程执行器
说到这里,你可能已经猜到我为什么对ibbot青春版如此兴奋了。
市面上的AI手机(或者叫AI PC)都在强调一件事:“我的NPU很强,能跑大模型。” 但它们忽略了一个关键问题:跑大模型 ≠ 生产代码。在本地跑一个700亿参数的模型,和用PopLang引擎在本地执行一段代码,是两个完全不同的概念。
ibbot青春版不是手机。它是一个掌上AI编程执行器,一个Token生产节点。
这里我做了一个横向对比,你可以更直观地理解:
| 对比维度 | 主流AI手机(如Copilot+ PC) | ibbot青春版 |
|---|---|---|
| AI核心功能 | 本地运行小模型、云端调用大模型 | PopLang引擎本地执行、Token节点产出 |
| 经济模式 | 纯消费者:每次AI功能消耗云Token | 生产者+消费者:运行PopLang产生Token,贡献网络 |
| 离线能力 | 有限(本地模型能力弱) | 强(PopLang图灵完备,可离线执行复杂逻辑) |
| 可编程性 | 需开发者写App | 用户一句话,PopLang实时生成可执行代码 |
| Token成本 | 每次调用都花钱 | 一次生成,无限免费执行 |
ibbot青春版的真正价值,不是帮你跑AI,而是帮你成为AI生态的一部分。
在陶哲轩评测中,我们看到AI解题成本最低8美元/题。但有了ibbot青春版+PopLang+点卡系统,未来的某一天,你或许可以让自己的手机在空闲时,贡献Token算力给科研团队解题,然后获得点卡奖励。
你不是在“用AI”,你是在“参与AI”。
五、AI原生时代:从“烧Token解题”到“种Token创收”
让我们回到陶哲轩First Proof评测的那个震撼数据点。
8美元一道数学难题。117美元完成全卷。3186美元的System A证明了原创性的天花板在哪里。
但评测的真正意义,不在于谁最便宜,而是第一次有人用严谨的数据告诉我们:AI的“智商”已经够用了,剩下的全是“成本”问题。
而PopLang+点卡+ibbot的组合拳,正在从根本上解决这个成本问题。
- PopLang让AI的Token消耗降低90%-99%——从“烧钱解题”到“省Token解题”。
- 点卡系统让每一台ibbot变成Token生产节点——从“烧钱解题”到“种Token创收”。
- ibbot青春版让这一切走进普通人的口袋——从“买AI服务”到“成为AI网络的一部分”。
这不是技术升级,这是范式的转移。
想想看,当AI可以像电力一样,每一台终端同时是消费者和生产者,当AI解题的成本从8美元降到几分钱,当每个人都拥有一部可以实时生成并执行代码的“编程执行器”——我们谈论的就不是AI工具了,而是AI原生时代的生产力基础设施。
陶哲轩的评测是一个信号:AI已经准备好成为新一代学术研究者。
而PopLang、点卡系统和ibbot,是让这个“研究者”走进千家万户的钥匙。
你准备好从“付Token的人”变成“赚Token的人”了吗?
我准备好了。你呢?
我是宁明,一个相信AI原生计算应该人人可及的工程师。下次见。
附:如果你对ibbot青春版、点卡系统或PopLang引擎感兴趣,欢迎访问:
- 在线体验:ibbot智体机灵 - 安卓手机上的智体OS-AI智能体伙伴 - 网页版
- 体验密钥:Eh4gDYYKowP2JQMmHbTAGi6hvtvhj6BpoMK5Khc8TzPZ
- 开源代码:https://gitee.com/dtnsman/ibbot
从一个Token消费者,到一个Token生产者,也许只差这一部ibbot。