news 2026/6/10 17:24:37

8B模型超越Gemini 2.5 Flash!南大腾讯用TimeLens重塑大模型视频时间定位

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
8B模型超越Gemini 2.5 Flash!南大腾讯用TimeLens重塑大模型视频时间定位

南京大学、腾讯 ARC Lab、上海 AI Lab 联合提出 TimeLens,针对基于大模型的视频时间定位任务,从数据和算法两个角度进行了系统性的重新思考。

通过构建高质量的评测基准和训练数据集,并提出一系列简洁有效的算法优化,TimeLens 模型以仅 8B 参数实现了开源模型中的 SOTA,甚至超越了 Gemini-2.5-Flash。

TimeLens 模型、评测基准和训练集都已开源,欢迎大家关注和使用。

论文链接:

https://arxiv.org/abs/2512.14698

项目主页:

https://timelens-arc-lab.github.io/

代码链接:

https://github.com/TencentARC/TimeLens

背景问题与研究动机

随着相关领域的发展,多模态大模型(MLLMs)在理解视频中“发生了什么(What)”方面表现出色,但当被问及“何时发生(When)”时,往往表现不佳。

解决这个问题的关键,在于提升 MLLM 的视频时间定位(Video Temporal Grounding,VTG)能力。

在 VTG 任务中,模型需要根据文本 query 的描述,准确定位到视频中对应的时间段。尽管已有大量工作尝试提升 MLLM 的 VTG 能力,但该领域仍面临两大核心挑战:

1. 数据质量的问题被忽视:现有的 VTG 基准测试集存在大量标注错误、query 模糊等质量问题,导致评估结果不可靠。训练数据集也存在类似问题,导致实验无法体现某些算法设计的有效性。

2. 算法设计未定型:对于如何让 MLLM 更好地感知时间,以及有效的训练范式等,不同工作使用的训练、评测等设置都不一致。目前仍缺乏系统的、全面的实验,来探究一套有效的最佳实践(Best Practices)。

TimeLens 旨在从数据质量(Data Quality)和算法设计(Algorithmic Design)两个维度,系统性地解决上述问题。

数据质量:去伪存真,重塑基准

研究团队首先构建了严谨的人工检验和标注流水线,对现有的主流 VTG 基准(Charades-STA,ActivityNet Captions,QVHighlights)进行了严格的“体检”。

1. 现有数据的“陷阱”

分析发现,现有数据集中存在大量低质量标注,例如:

  • 事件不存在:文本描述的事件在视频中没有发生。

  • 多重事件:同一 query 对应视频中多个片段,但仅标注了其中一个。

  • query 模糊:文本 query 的描述有歧义,无法精确定位。

  • 标注不准:时间边界偏移严重。

统计发现,现有基准中存在的错误比例极高,达到了令人震惊的程度。

2. TimeLens-Bench 与 TimeLens-100K

为了纠正上述问题,团队制定了严格的标注标准,手动重新标注了上述三个数据集,推出了 TimeLens-Bench。

评估结果显示,在修复后的基准上,模型排名发生了剧烈变化:旧基准往往高估了开源模型的能力,而低估了前沿私有模型(如Gemini)的真实水平。

此外,团队还设计了一套自动化流程,清洗并重标注了大规模训练数据,构建了包含 10 万条高质量数据的 TimeLens-100K 训练集。在该训练集上进行训练,相对于原始数据取得了显著的性能提升。

算法设计:探寻最优解

在高质量评测和训练数据的基础上,TimeLens 对算法设计的核心组件进行了深入探索,得出了一系列具有价值的结论。

1. 时间表示:交错文本编码最优

如何让 LLM 准确理解每一个视频帧的时间?团队对比了多种主流方法:包括位置编码(Position Embedding)、视觉叠加(Visual Overlay)和文本编码(Textual Encoding)。

结论:简单的交错文本前缀(Interleaved Textual Prefix),即在每帧视觉 Token 前插入文本形式的时间戳)效果最好,且无需修改模型架构,保留了简洁性。

2. 训练范式:Thinking-free RLVR

之前的工作主要采用监督微调(SFT)方法进行强化学习训练。而近期 DeepSeek-R1 等工作使得可验证奖励的强化学习(RLVR)范式获得大量关注。在 VTG 任务中,什么样的训练范式是最优的?

团队通过实验公平对比了不同的训练范式,包括 SFT,RLVR,以及二者的结合。此外,针对 RLVR 范式,还探究了显式的思考过程(Thinking)的必要性。

结论:实验表明,仅使用无思考过程的 RLVR(Thinking-free RLVR)进行训练,就能够取得最佳的性能,并显著提升训练和推理效率。

3. 训练秘籍:早停策略和基于难度采样

基于 Thinking-free RLVR 范式,团队进一步探究了训练中的关键因素,得到了两个关键的训练“秘籍”:

  • 早停策略(Early Stopping):在 RL 训练中,当奖励指标逐渐收敛、进入平台期时应立即停止训练,继续训练反而会导致性能下降。

  • 基于样本难度的采样:训练数据的难度应与模型能力匹配。通过预先估计每个样本的难度,并采样具有足够难度的样本,能最大化训练收益。

实验结果:SOTA 性能

集成了上述数据和算法的一系列最佳实践,团队发布了 TimeLens 系列模型。

评测结果显示,TimeLens系列模型相对于基线均取得了显著的性能提升。TimeLens-8B 模型实现了开源模型中的 SOTA 性能,以仅 8B 参数,全面超越了 GPT-5 和 Gemini-2.5-Flash 等前沿闭源模型。

团队在数据和算法层面的每一步改进,都对最终的优异性能起到了不可或缺的作用。

结语

TimeLens 不仅提供了一个强大的视频时间定位模型,更重要的是通过揭露低质量数据的“陷阱”和系统性算法探索,为未来的视频时间定位研究提供了一个更加正确的方向。

所有代码、数据和模型均已开源,欢迎大家关注和使用。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 9:05:18

紧急应对身份泄露风险:1小时内完成VSCode的Entra ID模型迁移

第一章:紧急应对身份泄露风险:1小时内完成VSCode的Entra ID模型迁移在企业开发环境中,一旦发生身份凭证泄露,必须立即采取措施阻断潜在攻击路径。当开发者使用VSCode通过旧版Azure AD身份模型连接云资源时,若其令牌暴露…

作者头像 李华
网站建设 2026/6/10 10:41:41

掌握这6种VSCode智能体重构模式,代码整洁度提升300%

第一章:VSCode智能体重构的革命性意义在现代软件开发中,代码重构是提升可维护性与可读性的核心实践。VSCode凭借其强大的智能体支持,将重构能力提升至全新高度。通过集成AI驱动的语义分析引擎,VSCode不仅能识别代码结构中的潜在问…

作者头像 李华
网站建设 2026/6/9 23:17:46

Boom负载测试工具:如何构建企业级性能评估体系

Boom负载测试工具:如何构建企业级性能评估体系 【免费下载链接】boom HTTP(S) load generator, ApacheBench (ab) replacement, written in Go 项目地址: https://gitcode.com/gh_mirrors/bo/boom 在现代分布式系统架构中,性能基准测试、负载测试…

作者头像 李华
网站建设 2026/6/10 10:43:37

如何快速掌握osslsigncode:跨平台代码签名终极指南

如何快速掌握osslsigncode:跨平台代码签名终极指南 【免费下载链接】osslsigncode OpenSSL based Authenticode signing for PE/MSI/Java CAB files 项目地址: https://gitcode.com/gh_mirrors/os/osslsigncode 在当今的软件开发环境中,确保代码的…

作者头像 李华
网站建设 2026/6/10 12:10:24

Qwen3-14B终极指南:如何选择最适合企业的大语言模型

Qwen3-14B终极指南:如何选择最适合企业的大语言模型 【免费下载链接】Qwen3-14B Qwen3-14B,新一代大型语言模型,支持思考模式与非思考模式的无缝切换,推理能力显著提升,多语言支持,带来更自然、沉浸的对话体…

作者头像 李华
网站建设 2026/6/10 2:22:09

相控阵超声检测深度解析:从原理到实战的完整指南

相控阵超声检测深度解析:从原理到实战的完整指南 【免费下载链接】相控阵超声检测基本原理及应用分享 本资源提供了《相控阵超声检测基本原理及应用.pdf》一文,旨在深入浅出地介绍相控阵超声检测技术的核心理论、技术特点及其在各领域的广泛应用。相控阵…

作者头像 李华