news 2026/4/18 7:18:13

多人对话视频生成的新发展:麻省理工学院数据集和基线模型 “CovOG

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多人对话视频生成的新发展:麻省理工学院数据集和基线模型 “CovOG

概述

由于传统的语音驱动视频生成研究仅限于单个说话者或人脸领域,本文提出了一项新任务–多人对话视频生成,其目标是生成多人之间的自然对话。

研究的重点是构建多人类互动对话数据集(MIT),这是一个 12 小时的高分辨率数据集。
该数据集收集了涉及 2 到 4 人的对话视频,并自动分配姿势估计和语音状态分数,以全面捕捉与多人对话相关的语音、听力和手势的互动。

此外,作者还开发了一个基线模型 CovOG 来应对这一新挑战。
CovOG 融合了多人姿势编码器(MPE)和交互式音频驱动程序(IAD),前者集成了每个人的姿势特征,后者根据语音特征控制面部动作,从而自然再现说话和聆听的角色变化。IAD。

这样就能生成模拟采访和脱口秀等真实场景的视频,为今后的研究发展奠定了重要基础。

拟议方法

拟议方法的核心是基线模型 “CovOG”,它是现有单人生成模型 "AnimateAnyone "的扩展。

首先,多人体姿态编码器(MPE)具有一种机制,可在卷积网络中分别处理每个人剪切出来的姿态,然后进行整合。
这样,系统就能灵活应对人数的波动,并在生成整体对话场景的同时,保持每个人的独立肢体动作。

接下来,IAD(交互式音频驱动程序)将每个说话者的语音特征和 "说话分数 "作为输入,并控制面部动作和表情。
当说话者说话时,该机制会使嘴部动作与语音同步;当说话者是听众时,该机制会产生点头和微笑等自然反应。

此外,CovOG 还使用参考图像来保持人的身份,并结合姿势和语音条件来生成视频。
这些创新技术能够生成多人对话视频,而传统的 "纯面部 "或 "单发言人 "模型则无法做到这一点,从而极大地扩展了视频合成的潜力,将自然互动纳入其中。

实验

在实验中,CovOG 的性能在麻省理工学院的数据集上进行了测试,并与传统方法进行了比较。

评估使用了表示图像质量的 SSIM 和 PSNR 以及衡量运动一致性的 FVD。

结果表明,CovOG 的表现始终优于 AnimateAnyone 和 ControlSVD 等代表性方法,而且质量稳定,特别是在多人对话情况下。

切除实验从数量上证明了这两个模块的有效性,切除 MPE 会导致整体姿势控制的丧失,而切除 IAD 则会导致不自然的面部动作。

在用户研究中,CovOG 在角色一致性、与音频的同步性和整体视频自然度方面也获得了很高的评价。
此外,在一项 "跨模态实验 "中,结合了不同视频中的身份、姿势和音频,CovOG 保持了时间上的流畅性和空间上的一致性,证明了它的多功能性。

这些结果表明,所提出的模型适用于再现逼真的多人对话。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/12 20:57:17

效率翻倍:AI整理骑砍2指令比手动快10倍

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 输入对比需求:请生成两份《骑马与砍杀2》控制台指令文档:第一份模仿人工整理的格式(随机排序、无分类),第二份用AI智能分…

作者头像 李华
网站建设 2026/4/17 2:39:40

CURL vs Wget:大文件下载效率对比

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个性能对比工具,使用CURL和Wget分别下载相同的大文件(1GB以上),记录并比较以下指标:下载时间、CPU占用、内存使用、网络吞吐量。测试应包含…

作者头像 李华
网站建设 2026/3/31 2:59:06

AI如何帮你快速理解Vue2 Props的用法

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个Vue2项目,展示父子组件间通过props传递数据的完整示例。要求包含:1.父组件定义props并传递数据;2.子组件接收并验证props;3.…

作者头像 李华
网站建设 2026/4/18 3:11:41

传统调试 vs AI辅助:JDBC问题解决效率对比

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个对比测试项目,展示手动解决和AI辅助解决JDBC连接问题的差异。要求:1. 设置5种典型的连接错误场景 2. 为每个场景提供传统解决步骤文档 3. 生成对应的…

作者头像 李华
网站建设 2026/4/17 8:31:49

比手动调试快10倍:AI自动化解决curl连接问题

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 构建一个高效的curl错误自动修复系统。核心功能:1.实时错误分类(基于机器学习)2.自动尝试常见修复方案(超时设置、重试逻辑等&#x…

作者头像 李华
网站建设 2026/4/15 21:04:19

Kotaemon虚拟偶像后台系统:粉丝互动内容生成

Kotaemon虚拟偶像后台系统:粉丝互动内容生成 在虚拟偶像产业飞速发展的今天,粉丝不再满足于单向观看演出或阅读官方设定。他们渴望对话、期待回应,甚至希望参与偶像的成长轨迹。这种高密度、情感化的互动需求,对背后的技术系统提…

作者头像 李华