这个实验充分说明了,大模型的表现(智能程度)首先由训练材料决定:训练的语料越多,表现越好,比如 Python 的语料遍地都是,大模型因此极其擅长解决 Python 问题;训练的语料越少,大模型表现就越差,简直跟智障一样,没什么用处。
两位国外的研究者找了五个主流的大模型:GPT-5.2、O4-mini、Gemini 3 Pro、Qwen3-235B、Kimi K2。
他们让大模型使用五种小众的编程语言----Brainfuck、Befunge-98、Whitespace、Unlambda 和 Shakespeare----来编程解决各种问题。
这些小众语言的共同特征是,网上很少有它们的资料,因此不能用来训练大模型。大家猜猜看,结果怎么样?
实验结果用一句话总结,就是大模型的表现一塌糊涂。
这五个大模型的平均答题正确率仅为3.8%,即100道题可以答对3.8道。相比之下,它们处理 Python 问题的正确率可以达到90%。
更尴尬的是,仅有的那几道答对的题目,都是入门级。更难的级别(初级、中级、高级),所有五个大模型的正确率都为0。
感觉以后免费就只有 AI 客服或机器人客服 额外付费才有真人客服
https://arstechnica.com/gadgets/2025/02/misguided-hp-customer-support-approach-included-forced-15-minute-call-wait-times/
用户打惠普的客服电话,会听到一段语音提示,要你访问官网自己去寻找答案。如果你坚持要真人客服,就要在线等待15分钟。
如果中途挂了电话,再打就需要重新等待15分钟。系统还会分别在第5、第10和第13分钟提醒你,可以访问网站或发邮件联系。
https://dynomight.net/coffee/
https://tuananh.net/2026/03/18/why-your-next-mobile-app-is-probably-headless/
https://paolino.me/ruby-is-the-best-language-for-ai-apps/
如果我们未来都通过 AI 助手使用手机,那么各种 App 就不需要显示模块了(无头),只需向 AI 助手提供数据接口。
那么,一个让人好奇的问题就来了:如果某种冷门语言没有语料,但有一本很详尽的《使用手册》,我们让大模型学习这本手册,它是否就能学会这种冷门语言编程呢?