news 2026/4/18 10:26:01

IQuest-Coder-V1:国产大模型出现了新玩家

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
IQuest-Coder-V1:国产大模型出现了新玩家

前天,除了DeepSeek发布了新工作之外,另一个国内量化团队也搞了一个大动静。

九坤投资在去年成立的至知创新研究院团队发布了 IQuest-Coder-V1。

这是一个专注于代码领域的垂类模型,参数仅40B,不是MoE结构,而是Dense架构。

模型已开源在Hugging Face[1]上,共包括四款:

  • IQuest-Coder-V1-40B-Base-Stage1
  • IQuest-Coder-V1-40B-Base
  • IQuest-Coder-V1-40B-Instruct
  • IQuest-Coder-V1-40B-Loop-Instruct

前两个都是试验中间状态产物。

后两个是最终的完全体,带Loop表示引入LoopCoder机制的模型。

它公布的评测结果相当惊人,在各种评估基准上,比claude sonnet-4.5都要好。

核心亮点:LoopCoder

这个模型的训练过程从预训练、SFT到强化学习都比较常规。

核心亮点是提出了LoopCoder这个机制。

根据其代码仓库里的这篇论文[2]所述,LoopCoder主要是为了解决复杂问题推理。

LoopCoder这个机制是要求模型在中间状态时“思考”两遍。

如图所示,第一次输入Input Token,得到潜空间的结果Latent Input。

这个结果会被共享到第二次输入,进行第二轮迭代。

在第二次迭代中,计算两种注意力:全局注意力(查询关注第一次迭代的所有键值对)和局部注意力(查询仅关注第二次迭代中的先前令牌以保持因果关系)。

两种注意力输出通过一个基于查询表示的学习门控机制进行组合,该门控制全局上下文细化和局部因果依赖的加权混合,最后输出最终结果。

这个机制乍一看有点像Agent的自我迭代:将第一轮的输出再输入到模型中得到第二轮更好的结果。

但不同的是,LoopCoder是内部进行的,效率会更高,也可以针对性优化。

看完这个机制,想到了DeepSeek提出的思维链(CoT)。

思维链是要求模型在输出时,强制把思考过程作为结果一同输出出来。

而LoopCoder是直接让模型在“脑中”思考两遍,比如让它写一个代码,它第一遍先思考要用什么技术栈,代码架构怎么做,第二遍再具体去做。

这样去理解LoopCoder的动机,似乎有几分道理。

混合语言训练

大模型对不同编程语言的掌握情况是不一样的,在做预训练时,作者团队提出了一个有价值的发现:用混合语言的方式对模型训练,优于用单一语言进行微调。

他们进一步试验出了分配比例,在最佳比例下,不同语言的协同增益效果如下表所示:

从表中能够看出,Java对其它语言的增益非常显著,特别是C#和Java语法比较接近,相比基线有20%的增幅,看来还是Java的高质量代码最多。

从最终效果上看,大模型对语言的掌握情况从弱到强满足:

C# < Java ≈ Rust < Go < TypeScript < JavaScript < Python

评估结果对比

开头的图片仅展示了部分模型对比。

对于代码生成任务而言,更详细的对比如下表所示。

从数值上看,这个模型只能做到部分领先,没领先的几个基准上,指标也不是很差。

它没有提供API,如果要测它的实际表现,必须要本地部署才行。

网友All In AI的测试表明[3],该模型引入的LoopCoder机制会导致处理速度缓慢,实用价值不高。

此外,还有人发现[4],这个模型在 SWE-bench 基准上评测时,无意触发了该基准的漏洞:在评测中“看到了未来的 Git 提交”,等于提前拿到了标准答案,因此它的 SWE-bench 成绩会虚高。

这不是研究人员刻意“作弊”,而是评测数据集的问题,去年九月前就有人发现过[5]。

总结

这个模型在架构上的创新还是有点新意的,国产开源大模型赛道又增加了一个玩家。

他们的起步策略还是挺聪明的,不直接上来就搞通用大模型,而是在已经充分被市场验证价值的编程领域开始切入。

模型更小,领域更垂直,有可能成为今年的新趋势。

参考

[1] https://huggingface.co/IQuestLab/IQuest-Coder-V1-40B-Loop-Instruct
[2] https://github.com/IQuestLab/IQuest-Coder-V1/blob/main/papers/LoopCoder_arxiv.pdf
[3] https://x.com/HaohaoHenr56041/status/2006843118969303382
[4] https://x.com/xeophon/status/2006969664346501589
[5] https://x.com/giffmana/status/1963327672827687316

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:04:20

【毕业设计】基于ResNet50的植物病害识别研究与系统应用实现

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

作者头像 李华
网站建设 2026/4/18 3:16:23

apate文件伪装技术:基于文件头替换的格式转换解决方案

apate文件伪装技术&#xff1a;基于文件头替换的格式转换解决方案 【免费下载链接】apate 简洁、快速地对文件进行格式伪装 项目地址: https://gitcode.com/gh_mirrors/apa/apate apate是一款基于.NET平台开发的文件格式伪装工具&#xff0c;通过创新的文件头替换技术实…

作者头像 李华
网站建设 2026/4/18 10:05:59

论文降AI率怎么快速处理?论文降AI率免费工具合集

现如今&#xff0c;越来越多人开始用AI写论文&#xff0c;据统计&#xff0c;73%以上的大学生都表示曾使用过ai来辅助写论文。然而&#xff0c;各大查重平台也开始严格查AI率&#xff0c;各大高校也有明文规定&#xff0c;AI率超过30%的视为学术不端行为&#xff0c;直接影响学…

作者头像 李华
网站建设 2026/4/18 7:39:26

药店处方管理:纸质处方笺OCR录入电子健康档案系统

药店处方管理&#xff1a;纸质处方笺OCR录入电子健康档案系统 在一家连锁药店的收银台前&#xff0c;药师正低头逐字抄录一张手写处方——药品名称、剂量、用法用量……短短几行字&#xff0c;却耗时近三分钟。这样的场景每天重复数十次&#xff0c;不仅效率低下&#xff0c;还…

作者头像 李华
网站建设 2026/4/18 7:57:48

VisualGGPK2游戏资源管理实战指南:从零开始掌握PoE资源编辑

VisualGGPK2游戏资源管理实战指南&#xff1a;从零开始掌握PoE资源编辑 【免费下载链接】VisualGGPK2 Library for Content.ggpk of PathOfExile (Rewrite of libggpk) 项目地址: https://gitcode.com/gh_mirrors/vi/VisualGGPK2 想要深入《流放之路》游戏资源结构却苦于…

作者头像 李华
网站建设 2026/4/17 13:36:30

火山引擎AI大模型对比评测:HunyuanOCR在通用场景下的优势分析

火山引擎AI大模型对比评测&#xff1a;HunyuanOCR在通用场景下的优势分析 在智能办公、跨境内容处理和自动化文档解析日益普及的今天&#xff0c;企业对OCR技术的需求早已不再局限于“把图片里的字读出来”。真实业务中&#xff0c;我们面对的是模糊发票、多语言合同、手写笔记…

作者头像 李华