news 2026/4/23 20:03:48

context is all you need

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
context is all you need

这个实验充分说明了,大模型的表现(智能程度)首先由训练材料决定:训练的语料越多,表现越好,比如 Python 的语料遍地都是,大模型因此极其擅长解决 Python 问题;训练的语料越少,大模型表现就越差,简直跟智障一样,没什么用处。

两位国外的研究者找了五个主流的大模型:GPT-5.2、O4-mini、Gemini 3 Pro、Qwen3-235B、Kimi K2。

他们让大模型使用五种小众的编程语言----Brainfuck、Befunge-98、Whitespace、Unlambda 和 Shakespeare----来编程解决各种问题。

这些小众语言的共同特征是,网上很少有它们的资料,因此不能用来训练大模型。大家猜猜看,结果怎么样?

实验结果用一句话总结,就是大模型的表现一塌糊涂。

这五个大模型的平均答题正确率仅为3.8%,即100道题可以答对3.8道。相比之下,它们处理 Python 问题的正确率可以达到90%。

更尴尬的是,仅有的那几道答对的题目,都是入门级。更难的级别(初级、中级、高级),所有五个大模型的正确率都为0。


感觉以后免费就只有 AI 客服或机器人客服 额外付费才有真人客服

https://arstechnica.com/gadgets/2025/02/misguided-hp-customer-support-approach-included-forced-15-minute-call-wait-times/

用户打惠普的客服电话,会听到一段语音提示,要你访问官网自己去寻找答案。如果你坚持要真人客服,就要在线等待15分钟。

如果中途挂了电话,再打就需要重新等待15分钟。系统还会分别在第5、第10和第13分钟提醒你,可以访问网站或发邮件联系。


https://dynomight.net/coffee/

https://tuananh.net/2026/03/18/why-your-next-mobile-app-is-probably-headless/

https://paolino.me/ruby-is-the-best-language-for-ai-apps/

如果我们未来都通过 AI 助手使用手机,那么各种 App 就不需要显示模块了(无头),只需向 AI 助手提供数据接口。

那么,一个让人好奇的问题就来了:如果某种冷门语言没有语料,但有一本很详尽的《使用手册》,我们让大模型学习这本手册,它是否就能学会这种冷门语言编程呢?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 19:57:09

均方误差(MSE)

均方误差(MSE) 均方误差 先算误差,再平方,最后取平均。它是回归问题里最常用的损失函数,用来衡量预测值和真实值差了多少。 1. 公式 MSEN1​∑i1N​(yi​−y^​i​)2 yi​:真实值 y^​i​:模型…

作者头像 李华
网站建设 2026/4/23 19:55:09

Linux系统RTL8811CU/RTL8821CU无线适配器驱动部署全攻略

Linux系统RTL8811CU/RTL8821CU无线适配器驱动部署全攻略 【免费下载链接】rtl8821CU Realtek RTL8811CU/RTL8821CU USB Wi-Fi adapter driver for Linux 项目地址: https://gitcode.com/gh_mirrors/rt/rtl8821CU 在Linux环境下部署USB无线适配器驱动是确保硬件兼容性和网…

作者头像 李华
网站建设 2026/4/23 19:53:10

Docker部署Alist:一站式挂载百度网盘并实现网页直连播放

1. 为什么选择Docker部署Alist管理百度网盘? 每次打开百度网盘客户端都要忍受漫长的启动时间和烦人的广告弹窗?作为常年和网盘打交道的开发者,我完全理解这种痛苦。去年在折腾家庭影音库时,我发现用Docker部署Alist简直是打开新世…

作者头像 李华