news 2026/4/18 14:00:48

腾讯混元世界模型 HY-World 1.5发布并开源:首个开源、实时交互、长期几何一致性的世界模型来了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯混元世界模型 HY-World 1.5发布并开源:首个开源、实时交互、长期几何一致性的世界模型来了

腾讯混元世界模型 HY-World 1.5发布并开源:首个开源、实时交互、长期几何一致性的世界模型来了

今日,腾讯混元发布并开源 HY-World 1.5(WorldPlay),其支持实时交互生成、保持3D-致的世界模型。适用于风格多样的场景生成,支持3D重建、文本触发事件等多种应用。

HY-World 1.5到24 FPS 生成一致性的长时域流式视频,与现有技术相比表现优异。其在不同场景中表现出强大的泛化能力,支持真实世界和风格化环境中的第一人称和第三人称视角,实现了3D重建、可提示事件和无限世界扩展等多样化应用。

⭐核心能力是什么

HY-World 1.5(WorldPlay)是一种基于 streaming video diffusion 的实时交互式生成世界模型,采用 Next-Frames-Prediction 的视觉自回归训练范式,在实时交互与长时 3D 几何一致性之间取得平衡,有以下四大核心设计:

  • 1.双分支动作表征实现精准控制;
  • 2.上下文记忆重构机制保持几何一致性;
  • 3.高效细粒度强化学习后训练框架来进一步增强生成视频的视觉质量和控制准确性;
  • 4.上下文对齐蒸馏技术实现实时生成并保证几何一致性。

⭐亮点都有哪些

(1)系统性概述

HY-World 1.5开源提供了一个系统全面的实时世界模型框架,涵盖了整个流程和所有阶段,包括数据、训练和推理部署。技术报告介绍了模型式预训练、强化学习训练和记忆消耗模型的详细训练。此外,报告介绍了一系列旨在减少网络传输延迟和模型推理延迟的工程技术,从而为用户实现实时流推理细节体验。

(2)推理流程

给定单张图像或文本提示来一个世界,我们的模型执行下一个(16个视频帧)预测任务,用户的动作生成未来视频。对于每一个的生成,我们从过去的块动态重构上下文记忆,以强制长期时间和几何块的一致性。

⭐评估结果如何

HY-World 1.5在各种定义指标上超越了现有方法,包括不同视频长度的重建指标和人工评估。

混元全新大模型正式发布,专属体验通道现已开放!
我们的小编第一时间申请了体验权限,大家都顺利拿到体验码了吗?

Lab4AI可提供高性能GPU算力资源,同时我们也诚邀各位前来贡献你的体验实践内容。
👉点击体验

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 3:20:27

零代码基础也能玩转PSD:Python神器PSD Tools完全解析手册

零代码基础也能玩转PSD:Python神器PSD Tools完全解析手册 【免费下载链接】psd-tools 项目地址: https://gitcode.com/gh_mirrors/ps/psd-tools 还在为打不开PSD文件而烦恼吗?无需安装庞大的Photoshop软件,只需掌握这个强大的Python工…

作者头像 李华
网站建设 2026/4/17 23:12:52

变形监测技术的革新及北斗系统在国内应用的优势分析

本文围绕变形监测技术的革新,特别强调北斗系统在国内应用的优势。随着技术的迅猛发展,GNSS形变监测及单北斗GNSS应用逐渐成为关键领域。在基础设施安全监测方面,北斗形变监测传感器提供了毫米级的精准定位能力,确保了实时数据信息…

作者头像 李华
网站建设 2026/4/18 3:20:27

Simple Live跨平台直播聚合工具:打造高效观看新体验

面对众多直播平台分散、内容查找繁琐的困扰,Simple Live应运而生,这款基于Flutter技术栈的跨平台解决方案,彻底改变了传统直播观看模式。通过统一界面整合主流直播平台资源,为用户提供前所未有的便捷体验。 【免费下载链接】dart_…

作者头像 李华
网站建设 2026/4/17 12:20:15

9个降AI率工具推荐,专科生高效避坑指南

9个降AI率工具推荐,专科生高效避坑指南 AI降重工具:专科生论文的“隐形护盾” 在当前高校论文写作中,随着AI技术的广泛应用,越来越多的学生开始使用AI辅助写作,但随之而来的AIGC率高、查重率超标问题也成为了困扰。对于…

作者头像 李华
网站建设 2026/4/18 3:30:07

一文搞懂大模型并行计算:DP/PP/TP/EP原理与实践

本文详解了AI大模型训练的四种主流并行计算方式:数据并行(DP)、流水线并行(PP)、张量并行(TP)和专家并行(EP)。通过ZeRO优化技术减少内存占用,并介绍混合并行策略如3D并行。不同并行方式各有优劣,适用于不同场景,实际应用中常结合…

作者头像 李华
网站建设 2026/4/18 5:13:13

Unity语音识别革命:本地化多语言语音转文本技术深度解析

Unity语音识别革命:本地化多语言语音转文本技术深度解析 【免费下载链接】whisper.unity Running speech to text model (whisper.cpp) in Unity3d on your local machine. 项目地址: https://gitcode.com/gh_mirrors/wh/whisper.unity 在当今Unity应用开发中…

作者头像 李华