4月17日,人工智能领域再添重要突破——通义万相正式对外发布并开源其首尾帧生视频模型Wan2.1-FLF2V-14B。这款具备里程碑意义的AI模型,凭借140亿参数规模一举成为全球首个开源的百亿级首尾帧驱动视频生成模型。用户只需上传两张静态图像作为视频序列的起点与终点,即可快速生成一段时长5秒、分辨率达720P的高清动态视频内容。该模型创新性地融入"创意模式",能够通过人工智能算法对用户输入的创意描述进行智能扩展与优化,显著增强视频画面的细节丰富度和艺术表现力,从而更好地满足创作者对视频内容的精准控制与个性化表达需求。
【免费下载链接】Wan2.1-FLF2V-14B-720P项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.1-FLF2V-14B-720P
目前,广大用户已可通过通义万相官方网站免费体验这一首尾帧生视频模型的强大功能,开发者则可前往Gitcode、Hugging Face或魔搭社区(Modelscope)获取模型源码进行二次开发,探索更多行业应用场景。据通义万相官方发布的技术演示案例显示,该模型在物理规律还原、动态场景细节处理、运镜风格适配以及情感表达传递等方面均展现出卓越性能。例如在光影变化场景中,地面阴影会随光源移动呈现自然的动态变化;在人物运动场景中,服装褶皱会随肢体摆动产生真实的形态变化,深褐色发丝则会在不同光线照射下呈现丰富的色彩层次,这些细节处理使得生成视频的真实感大幅提升。
Wan2.1-FLF2V-14B模型的技术突破源于其创新的架构设计。该模型基于通义万相自主研发的DiT(Diffusion in Transformer)架构构建,将扩散模型强大的生成能力与Transformer模型卓越的特征提取及长序列处理能力有机融合。同时通过VAE视频压缩技术,在保证视频生成清晰度的同时有效提升了运算效率。特别值得一提的是,Wan2.1系列模型独创的Full Attention机制,使生成视频在时间维度和空间维度均实现了高度一致性,从根本上解决了传统视频生成中常见的动作跳跃、画面断层、物体异位及形态畸变等问题。
为实现首尾帧之间的精准衔接,研发团队在基础架构上新增了专用的条件控制分支,将用户上传的首帧与尾帧图像作为核心控制条件,通过精确的特征映射实现视频画面从起始帧到结束帧的平滑过渡。技术团队进一步提取首帧与尾帧的CLIP语义特征,并将这些高级语义信息深度融入DiT模型的生成过程,有效保障了首尾帧衔接处的画面稳定性。在训练与推理优化方面,该模型采用线性噪声轨迹的流匹配(Flow Matching)方法,显著提升了噪声处理能力和视频生成质量,为高精度视频切片训练提供了技术支撑。针对高清视频推理过程中的内存限制问题,研发团队创新应用模型切分策略与序列并行策略,在确保推理效果不受损失的前提下,大幅缩短了视频生成时间,使720P高清视频的实时生成成为可能。
通义万相首尾帧生视频模型的训练过程采用渐进式优化策略,历经三个关键阶段:首先在480P分辨率下进行多任务混合训练,夯实模型基础能力;随后针对首尾帧生成任务进行专项优化,重点提升画面衔接质量;最终在720P分辨率下完成高精度训练,确保生成视频的细节表现力。这种分阶段训练策略使模型能够在不同分辨率条件下逐步优化各项性能指标,形成了从基础能力到专项技能再到精度提升的完整训练闭环。
相较于当前主流的文生视频和单图生视频技术,首尾帧生视频技术具有更强的创作可控性,用户可通过指定起始与结束画面精确控制视频内容走向,并借助提示词对中间过程进行引导。但这种技术路径也对模型提出了更高要求,既要实现首尾帧画面的自然过渡,又要保证视频内容本身的质感与表现力。通义万相Wan2.1-FLF2V-14B通过创新的架构设计和精细化的训练策略,成功攻克了这一技术难题,不仅实现了对图像细节的高精度还原,还能生成动作流畅、风格统一的动态视频内容,展现出强大的技术优势和创新价值。
作为全球首个开源的百亿参数级首尾帧生视频模型,Wan2.1-FLF2V-14B的发布将对图生视频领域产生深远影响。该模型的开源特性不仅为学术界提供了重要的研究范本,也为产业界探索视频生成技术的商业化应用提供了强大工具。随着模型的广泛应用,预计将在创意内容、影视制作、游戏开发、教育培训、虚拟人交互等多个领域催生全新的内容创作模式,推动视频内容生产向更高效、更智能、更个性化的方向发展。未来,随着技术的持续迭代,首尾帧生视频技术有望在视频时长、分辨率、交互方式等方面实现更大突破,为数字内容创作行业带来更多可能性。
【免费下载链接】Wan2.1-FLF2V-14B-720P项目地址: https://ai.gitcode.com/hf_mirrors/Wan-AI/Wan2.1-FLF2V-14B-720P
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考