news 2026/6/26 0:39:15

LongVideoAgent:多智能体推理与长视频

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LongVideoAgent:多智能体推理与长视频

近期,多模态大语言模型及借助工具进行长视频问答的系统在小时级剧集推理方面展现出巨大潜力。然而,许多方法仍将内容压缩为有损摘要或依赖有限工具集,这削弱了时间定位能力并遗漏了细粒度线索。

我们提出一种多智能体框架:其中主控大语言模型负责协调一个定位代理以确定问题相关片段,以及一个视觉代理以提取目标文本化观测信息。

主控智能体在步数限制下进行规划,并通过强化学习训练以鼓励简洁、准确且高效的多智能体协作。该设计通过定位机制帮助主控智能体聚焦相关片段,以视觉细节补充字幕信息,并产生可解释的任务轨迹。

在我们从TVQA/TVQA+整合构建的剧集级数据集LongTVQA与LongTVQA+上,我们的多智能体系统显著优于强非智能体基线模型。实验同时表明,强化学习能进一步强化受训智能体的推理与规划能力。

原文链接:https://arxiv.org/html/2512.20618v1

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/17 23:02:00

雷军又发奖了!1000万奖金花落“玄戒”,未来5年还要砸2000亿搞研发

1月8日一早,科技圈就被雷军的一条消息刷屏了。小米不仅开了个隆重的技术大奖颁奖礼,雷军还在社交平台上大大方方地宣布:今年的千万技术大奖,被“玄戒O1”团队稳稳拿下了。能在小米这么多顶尖项目里脱颖而出,拿到这沉甸…

作者头像 李华
网站建设 2026/6/24 19:49:13

基于51单片机的排队叫号系统—两块单片机串行通信

基于51单片机的排队叫号系统 (仿真+程序原理图+设计报告) 功能介绍 具体功能: 1.主机通过4个按键模拟4个柜台号,按下按键实现叫号; 2.柜台叫号后,LCD1602显示被叫的号码及叫号的柜…

作者头像 李华
网站建设 2026/6/17 20:27:01

10分钟玩转阿里通义Z-Image-Turbo:零基础搭建你的AI绘画工坊

10分钟玩转阿里通义Z-Image-Turbo:零基础搭建你的AI绘画工坊 作为一名数字艺术爱好者,你是否曾被AI生成图像的无限创意所吸引,却又被复杂的模型部署和GPU配置劝退?阿里通义Z-Image-Turbo作为一款高性能文生图模型,能够…

作者头像 李华
网站建设 2026/6/15 11:26:18

B站视频列表与详情数据API调用完全指南

在数字化内容生态中,B站作为国内领先的视频平台,其海量视频数据具有极高的应用价值。无论是构建视频数据分析工具、开发第三方应用,还是实现视频内容聚合,都离不开对视频列表及详情数据的高效获取。本文将系统梳理B站相关API的调用…

作者头像 李华
网站建设 2026/6/10 7:56:39

Z-Image-Turbo模型微调实战:预配置GPU环境下的LoRA训练指南

Z-Image-Turbo模型微调实战:预配置GPU环境下的LoRA训练指南 如果你是一名机器学习工程师,想要对Z-Image-Turbo进行风格微调,但苦于模型训练对环境要求极高,那么这篇文章正是为你准备的。本文将详细介绍如何在预配置GPU环境下&…

作者头像 李华
网站建设 2026/6/9 22:03:05

阿里通义Z-Image-Turbo WebUI扩展开发:快速添加自定义功能

阿里通义Z-Image-Turbo WebUI扩展开发:快速添加自定义功能 作为一名全栈工程师,我在使用AI图像生成平台时经常遇到一个痛点:想要扩展功能但又担心破坏核心代码的稳定性。阿里通义Z-Image-Turbo WebUI提供的扩展机制完美解决了这个问题&#x…

作者头像 李华