AI 论文周报丨英伟达开源模型/OpenAI基准测试/Agent系统/长上下文推理……AI 动态一文速递-程序员充电站

大语言模型（LLMs）在将推荐系统从隐性行为模式匹配转变为显性意图推理方面，展现出显著潜力。RecGPT-V1 通过将基于 LLM 的推理，整合到用户兴趣挖掘和项目标签预测中，成功开创了这一范式，但它存在四个基本局限：

计算效率低和多条推理路径上的认知冗余；
固定模板生成中解释多样性不足；
在监督式学习范式下的推广有限；
以结果为导向的简单评估，未能符合人类标准。

为克服现有局限，阿里研究团队推出最新版本 RecGPT-V2。迭代版本包含四项核心创新：

构建分层多智能体系统（Hierarchical Multi-Agent System）；
提出元提示框架（Meta-Prompting framework）；
引入约束强化学习机制；
设计智能体作为裁判（Agent-as-a-Judge）评估框架。

RecGPT-V2 不仅验证了基于大语言模型的意图推理在技术上的可行性，更证明了其在大规模工业场景中的商业可行性，成功弥合了认知探索与产业应用之间的鸿沟。

论文链接：https://go.hyper.ai/wftNU

最新 AI 论文：https://go.hyper.ai/hzChC

为了让更多用户了解学术界在人工智能领域的最新动态，HyperAI超神经官网（hyper.ai）现已上线「最新论文」板块，每天都会更新 AI 前沿研究论文。以下是我们为大家推荐的 5 篇热门 AI 论文，一起来速览本周 AI 前沿成果吧 ⬇️

本周论文推荐

1.Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

本文推出了 Nemotron 3 Nano 30B-A3B，这是一种基于混合专家（Mixture-of-Experts）架构的混合 Mamba-Transformer 语言模型。Nemotron 3 Nano 在25万亿个文本标记上进行了预训练，其中包括超过 3 万亿个相较于 Nemotron 2 新增的唯一标记，随后在多样化环境中进行了监督微调及大规模强化学习。模型在智能体行为、推理能力及对话交互方面均有显著提升，并支持长达100万标记的上下文长度。

论文链接：https://go.hyper.ai/LtmY3

Nemotron 3 Nano 分层模式

2.Frontier Science: Beurteilung der Fähigkeit von KI, wissenschaftliche Aufgaben auf Expertenebene zu erfüllen

本文提出 FrontierScience，这是一个用于评估人工智能在专家级科学推理方面能力的基准测试。FrontierScience 包含两个赛道：（1）奥赛赛道，涵盖国际奥林匹克竞赛题目（达到 IPhO、IChO 和 IBO 水平）；（2）研究赛道，包含博士级别、开放性的问题，代表了科学研究中的典型子问题。

论文链接：https://go.hyper.ai/XanPc

FrontierScience-Research 问题示例

3.AutoGLM: Autonomous Foundation Agents for GUIs

本文提出 AutoGLM，这是 ChatGLM 系列中的一个全新系列，旨在作为基础智能体（foundation agents），通过图形用户界面（Graphical User Interfaces, GUI）实现对数字设备的自主控制。研究团队以网页浏览器和手机作为典型的 GUI 场景，构建了 AutoGLM，作为一个面向真实世界 GUI 交互的实用型基础智能体系统。

论文链接：https://go.hyper.ai/SLjro

AutoGLM 真实网页浏览器演示

4.RecGPT-V2 Technical Report

本文提出 RecGPT-V2，包含四项核心创新：第一，构建分层多智能体系统；第二，提出元提示框架（Meta-Prompting framework），第三，引入约束强化学习机制；第四，设计智能体作为裁判（Agent-as-a-Judge）评估框架。RecGPT-V2 不仅验证了基于大语言模型的意图推理在技术上的可行性，更证明了其在大规模工业场景中的商业可行性，成功弥合了认知探索与产业应用之间的鸿沟。

论文链接：https://go.hyper.ai/TdjZJ

RecGPT-V2 框架图

5.QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management

本文推出了 QwenLong-L1.5，该模型通过系统性的后训练创新，实现了卓越的长上下文推理能力。基于 Qwen3-30B-A3B-Thinking 架构，QwenLong-L1.5 在长上下文推理基准测试中表现接近 GPT-5 与 Gemini-2.5-Pro 水平，相较其基线模型平均提升 9.90 分。在超长任务（100 万至 400 万 token）上，其记忆代理（memory-agent）框架相较基线代理实现 9.48 分的显著提升。

论文链接：https://go.hyper.ai/vViJi

处理超长上下文的内存代理工作流程

以上就是本周论文推荐的全部内容，更多 AI 前沿研究论文，详见 hyper.ai 官网「最新论文」板块。

同时也欢迎研究团队向我们投稿高质量成果及论文，有意向者可添加神经星星微信（微信号：Hyperai01）。

下周再见！

揭秘Open-AutoGLM操作灵活性：为何它让传统RPA望尘莫及？

第一章：揭秘Open-AutoGLM与传统RPA的本质差异在自动化技术快速演进的今天，Open-AutoGLM 与传统 RPA（机器人流程自动化）虽均致力于提升业务流程效率，但其底层逻辑与应用范式存在根本性差异。传统 RPA 依赖于预设规则和界…

李华

WinApps故障排查完全手册：从错误代码到稳定运行

WinApps故障排查完全手册：从错误代码到稳定运行【免费下载链接】winapps The winapps main project, forked from https://github.com/Fmstrat/winapps/ 项目地址: https://gitcode.com/GitHub_Trending/wina/winapps 你是否在使用WinApps时遇到过神秘的错误…

李华

KindEditor粘贴ppt幻灯片转存网页兼容处理

2023年X月X日晴转多云（开发日志） 今天又是和代码“斗智斗勇”的一天！作为湖南某高校计算机专业的大二学生，我最近在搞一个“CMS系统大改造”——目标是让Word里的图片一键转存到服务器，还能在编辑器里保留文档样式&a…

李华

KindEditor处理站群平台pdf文档批量转存需求

当Word一键粘贴遇上680元预算：一个前端程序员的奇幻漂流各位同行好，我是北京某不知名前端码农老王（头发比Vue2升Vue3的迁移成本还高的那种）。最近接了个CMS企业官网项目，客户要求在KindEditor里实现Office全家桶导入…

李华

37、Windows部署中的注册表与应答文件使用指南

Windows部署中的注册表与应答文件使用指南 1. 部署文件夹的创建在进行Windows部署时，可使用Setup Manager创建用于Sysprep、远程安装服务或无人值守安装的i386分发文件夹。Setup Manager位于Windows CD的\Support\Tools文件夹中的Deploy.cab文件里。操作步骤如下： 1. 在W…

李华

KindEditor支持信创系统excel数据动态绑定

企业网站内容管理模块Word/公众号粘贴与文档导入功能实施报告一、需求背景分析作为重庆某国企项目负责人，我们在政府类项目开发中遇到了以下核心需求： 内容输入效率需求：需要支持从Word/公众号直接粘贴内容到网站编辑器，并自…

李华