news 2026/5/9 0:17:59

阿里HappyHorse截胡字节快手,AI视频生成模型“三国杀”格局初显

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阿里HappyHorse截胡字节快手,AI视频生成模型“三国杀”格局初显

4月14日,字节跳动上线Seedance2.0 API服务

4月14日,字节跳动旗下火山引擎正式上线Seedance2.0系列API服务,企业和个人用户均可调用其视频生成能力。早期,该服务需高额预付和千万级“最低消耗”。在算力足够时,API大面积开放是大模型商业化主引擎。但近期被诟病排队长、变相涨价的Seedance2.0突然全面开放API,或受上周爆火的HappyHorse推动。

HappyHorse冲榜,阿里认领“千里马”

4月7日,HappyHorse以匿名身份空降权威AI平台Video Arena盲测榜单。在图生视频(无音频)榜单上,它以1411分登顶,领先Seedance 2.0约55分;在文生视频(无音频)一栏,1379分也排在字节跳动Seedance 2.0、快手可灵AI 3.0、昆仑万维SkyReels V4等公开产品之前。三天后,阿里官方认领了这匹“千里马”。

OpenAI关停Sora,AI视频模型“三国杀”格局初显

今年3月4日,OpenAI宣布关停Sora,大家原以为Seedance 2.0会在AI视频生成模型领域一统天下,没想到阿里截胡字节Seedance与快手可灵。至此,AI视频生成模型赛道“三国杀”格局雏形初显,且中国公司在全球取得主导权。

技术升级,AI视频模型从“玩具”变“工具”

2024年以来,AI视频生成模型实现从“玩具”到“工具”的质变,核心驱动力是底层技术范式从基于海量数据统计的模式匹配,升级为对物理世界规律进行模拟与理解的“世界模型”。这一转变解决了物理合理性与长期一致性两大难题,其中长期一致性是实现影视级应用的前提。

HappyHorse架构优势明显,商业可用性待提升

据媒体报道,HappyHorse采用单流Transformer架构,用一个统一的Transformer同时处理视频和音频,一次推理直接输出带声音的成片,无需后期拼接。这种架构对提升长期一致性有优势,统一的Transformer直接处理长序列的混合Token,其自注意力机制能捕捉视频帧与音频帧之间长距离的依赖关系,比用多个独立模型分别处理再协调更简单直接,减少了信息在模块间传递的损耗,理论上更利于维持长时序的连贯叙事。根据Artificial Analysis的评测指标(满分5分),HappyHorse在物理一致性方面得分为4.52,视觉质量得分为4.80,文本对齐得分为4.18,表明其在基础一致性方面表现良好,但在复杂场景下的长期一致性仍有提升空间。不过,参考Sora的经验,长期一致性表现好并不意味着商业可用性好。央视财经报道,Sora在实际应用中,长期一致性高度依赖大模型的“记忆”能力,商业可用率极低,仅5%-10%的生成视频能用于初步筛选,更像不可控的“抽卡游戏”。Sora的关停并非技术升级困难,而是经济账算不过来。据Appfigures估算,Sora上线以来应用程序内总收入约210万美元,投入产出比接近2500:1,堪称AI史上最昂贵的“技术烟花”。硅谷风投机构a16z合伙人Olivia Moore曾在社交媒体晒出SensorTower的监测截图,显示Sora APP的30天用户留存率为1%,60天留存率为0%,如此低的留存率不符合商业应用要求。

AI发展重变现,OpenAI集中精力研发世界模型

AI发展至今,资本对无法变现、耗资巨大的技术突破态度理智甚至冷酷。正在筹备上市的OpenAI只能关停Sora,并退回和迪士尼的10亿美元合作款项,同时集中精力推进世界模型的研发。毕竟从某种意义上说,不存在单独的视频大模型,视频大模型更像是世界模型和多模态技术融合进程中的阶段性里程碑。目前顶级的视频模型几乎都基于DiT架构,其前身是图像生成Diffusion,下一步可能是Omni-Model。视频是这些模型在时间维度上插帧,并在数据清洗时喂入大量物理世界因果片段。做视频是验证时空预测能力的最低门槛,能做出视频大模型的公司,理论上也能用该技术研发其他垂直领域的大模型,前提是有足够多优质的真实数据用于训练。

阿里目标不止视频工具,视频成AI大模型垂直应用方向

阿里的目标显然不只是做出受欢迎的视频生成工具。视频是AI大模型很好的垂直应用方向,从流量逻辑看,视频是AI目前唯一能无缝嵌入娱乐、社交、电商三大现金牛领域的模态。ChatGPT(文本)月活是亿级,TikTok(视频)日活是十亿级,人类更乐于消费视频。抖音上的视频流数据涵盖多维度动态信息,用其训练出的垂直应用AI容易赢在起跑线上。

Seedance2.0商业化推进节奏强,应用率大幅提升

根据极客公园测算,Seedance2.0生成15秒视频的可用率或达90%,较此前行业内约20%的平均值提升幅度较大。技术实力与商业可用性的双重提升,使Seedance2.0爆火不难理解。而且其商业化推进节奏感强,先用“宠物猫狗暴揍哥斯拉”等病毒式模板引发社交媒体全民二创热潮,完成零成本的流量引爆和用户教育,在口碑和需求达到顶峰后,立即启动商业化变现。3月4日,火山引擎公布商用定价:包含视频输入的场景28元/百万tokens,不含视频输入46元/百万tokens,折合纯视频生成成本约0.95元/秒。紧接着,字节采取差异化定价面向市场、降低门槛开放公测的策略,于4月2日正式面向企业用户开放API申请,Seedance2.0完成了从网红AI玩具到企业生产工具的身份转变。这也验证了AI产业投资逻辑的变化,资金会流向更能垂直应用、快速变现、贡献ROI的地方,B端和C端用户付费也遵循此逻辑。

HappyHorse商业化节奏快,或与电商业务深度绑定

值得注意的是,HappyHorse原生支持英语、普通话、粤语、日语、韩语、德语、法语的唇形同步,这可能是为了让其生成的视频进入电商(包括跨境电商)等实际应用场景。毕竟张迪作为快手可灵和阿里HappyHorse之父,既懂技术又懂业务,擅长将业务思维融入HappyHorse的技术研发。快手可灵的商业化效果已有财报数据支撑,2025年第四季度,可灵AI营业收入达3.4亿元;2025年12月单月收入突破2000万美元,年化收入运行率(ARR)达2.4亿美元。而且,HappyHorse所属的阿里ATH创新事业部提出“创造Token、输送Token、应用Token”的口号,以“Token消耗量”为核心KPI的组织设计,决定了其技术尝试都会落脚在商业化应用上。和Seedance 2.0一样,HappyHorse从匿名冲榜到官宣认领,再到计划开放API、接入阿里百炼MaaS平台,商业化推进节奏也很快。考虑到HappyHorse团队负责人郑波同时兼任阿里妈妈CTO,未来HappyHorse的应用可能与电商业务深度绑定。

HappyHorse有望构建电商闭环,或引发价格战

让AI与核心业务深度协同,带来更大的生态繁荣,是互联网巨头看重的事。阿里还有打造流量入口、反哺电商等核心业务的心愿,理想情况下,HappyHorse可以同时满足这两点。作为视频生成工具,HappyHorse可应用于商品广告、虚拟主播等电商业务场景,若能在AI内容生成源头占据一席之地,就能为电商交易等业务提供内生流量,构建“内容 - 交易 - 履约”的完整闭环。这并非空想,Seedance2.0已进入电商领域。4月2日,AI Agent公司NoDesk AI发布旗下产品DeskClaw新版本,正式接入Seedance2.0,这是Claw赛道先聚焦垂直电商、电商领域首批接入Seedance2.0的AI产品。对于投资者和从业人员来说,阿里作为电商一哥,有能力做到类似的事。HappyHorse这种阿里系视频生成工具的出现符合公众预期,让商家在电商平台上使用稳定、可靠的视频生成工具,逻辑更顺畅。在内容生态领域,只要HappyHorse稳定、可靠且价格低,也能有立足之地。对内容创作者来说,成本可控很重要,Seedance2.0存在问题和风险,高峰期普通用户排队可达8万人,等待时间超7小时,付费高级会员也不能幸免;梦平台短期内连续调价,制作一部2分钟AI漫剧的纯素材生成成本从约7元飙升至80元,击穿了许多中小团队的商业模式底线。有用户向《财经故事荟》吐槽:“字节在年费之上推出vvip等升级服务,算是变相提价了,就是因为Seedance一家独大,现在HappyHorse上线,估计字节要掂量掂量了。”只要HappyHorse质量稳定、体验好、定价低,就能从竞争对手处吸引有真实内容生成需求的客户,或许阿里云销售已开始接触火山引擎的客户。字节放开Seedance2.0的API接入,是主动降低用户使用门槛,有了HappyHorse这个对手,双方打价格战是大概率事件。

“三国杀”推动技术普惠,引爆AI市场

字节、快手、阿里“三国杀”,模型能力你追我赶,算力成本稳中有降,让中小创业者享受技术普惠红利,快速引爆市场,这正是我们期待的AI时代。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 12:05:27

Snap.Hutao:免费开源的原神工具箱完整使用指南

Snap.Hutao:免费开源的原神工具箱完整使用指南 【免费下载链接】Snap.Hutao 实用的开源多功能原神工具箱 🧰 / Multifunctional Open-Source Genshin Impact Toolkit 🧰 项目地址: https://gitcode.com/GitHub_Trending/sn/Snap.Hutao …

作者头像 李华
网站建设 2026/4/15 12:01:09

ViGEmBus深度架构解析:Windows内核级游戏控制器虚拟总线核心技术

ViGEmBus深度架构解析:Windows内核级游戏控制器虚拟总线核心技术 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus 在游戏开发与输入设备兼容性领域…

作者头像 李华
网站建设 2026/4/15 12:00:11

通义千问1.5-1.8B-Chat-GPTQ-Int4在算法设计与优化中的应用

通义千问1.5-1.8B-Chat-GPTQ-Int4在算法设计与优化中的应用 最近和几个做算法的朋友聊天,发现大家的工作流里都开始出现一个“新同事”——大语言模型。不过,很多朋友用的都是动辄几十上百亿参数的大模型,部署起来麻烦,推理成本也…

作者头像 李华
网站建设 2026/4/15 11:56:11

SigmaStar SSC335/SSC337 ISP烧录避坑指南:为什么你的FLASH启动不了?

SigmaStar SSC335/SSC337 ISP烧录避坑指南:为什么你的FLASH启动不了? 当你满怀期待地按下电源键,却发现开发板毫无反应——这种挫败感每个嵌入式开发者都深有体会。SSC335/SSC337作为智能视觉处理领域的明星芯片,其ISP烧录过程看似…

作者头像 李华