马斯克视频生成模型首次交卷！电影级运镜+音效，免费可玩-程序员充电站

xAI模型支持文生视频、图生视频，单次生成时长为10秒，分辨率720P，音频效果实现大幅提升。马斯克第一时间就转发了该消息。

xAI“迄今为止最强大的视频音频生成模型”Grok Imagine 1.0版本，正式全面上线。

模型支持文生视频、图生视频，单次生成时长为10秒，分辨率720P，音频效果实现大幅提升。马斯克第一时间就转发了该消息。

先看效果。Grok Imagine 1.0能精准捕捉用户的创意构想，比如AI版“驯龙高手”，细节丰富且画面连贯：

音频表现亮眼，角色语音情感饱满、表现力十足，还能与场景节奏完美同步。

像这只毛茸茸的白色小怪兽，玩“躲猫猫”时的互动音效与语气，生动感拉满：

它也很擅长日常趣味创作，既能让老照片动起来，也能快速围绕当日热点做梗图、短视频。

把生成的片段串一串，分分钟拼出一部小短片，请欣赏：

目前官网就能免费开玩。

xAI表示，仅在过去30天的测试期内，Grok Imagine就已生成12.45亿条视频。

视频生成&剪辑性能领先

Grok Imagine的核心能力主要分为视频生成与视频剪辑两大板块。

来看更多官方秀肌肉。

视频生成方面，Grok Imagine具备电影级运镜理解：

画面衔接丝滑不卡顿：

多主体生成表现也很抗打：

且不同主体间互动自然：

Grok Imagine能很好地遵循指令，对用户脑洞的理解相当到位：

竖屏横屏通吃，适配各平台的画面比例。

视频剪辑方面，可以在视频里加对象、删元素：

替换对象也可以。

Grok Imagine还允许用户用自己的动作表演，驱动任意角色生成对应的动画效果：

秋日、冬日、薄雾、日落、阴云，场景氛围随便切：

物体颜色、物件细节也能改：

给现有视频素材换上不同的视觉风格：

静态黑白线稿也能变鲜活动画：

另外，官方表示，Grok Imagine围绕延迟、成本控制等核心维度进行了迭代优化。

AI基准测试机构Artificial Analysis的文生视频排名显示，Grok Imagine综合排名第一，在成本、延迟两项关键指标上表现最优。

Artificial Analysis和LMArena两家机构评估结果对比如下，均显示Grok Imagine在延迟和成本上处于领先位置：

图生成视频方面，Grok Imagine同样保持了高评分+低延迟+低成本的综合优势：

在针对视频编辑能力的人工盲评基准测试中，选取IVEBench数据库作为核心测试依据，该数据库涵盖七个语义维度，能全面考察工具的视频编辑综合实力。

结果显示，Grok Imagine在整体表现、指令遵循度、效果一致性三大维度均领先。

网友脑洞大开

Grok Imagine API已发布，网友们也早就已经在官网开玩了。

有人生成了一段小机器人跳舞的视频，机器人的眼睛还会跟着一眨一眨的：

还有网友还原了汤姆追杰瑞的场面，画风逼真到让人分不清是原版动画还是AI生成：

细腻的表情动作变化，它也能处理得丝滑不生硬：

第一视角的画面同样不在话下：

你觉得效果如何？感兴趣的话可以亲自上手试试。

官网：https://grok.com/imagine

TPAMI‘25 | 无需对齐模块！DSTNet 用判别式融合 + 小波传播，打造轻量化视频去模糊新范式

点击上方“小白学视觉”，选择加"星标"或“置顶” 重磅干货，第一时间送达你有没有过这样的经历：好不容易拍到爱豆舞台瞬间，回放时却发现画面糊成一团；旅行中抓拍的绝美风景，因为手一抖变成了"…

李华

智能垃圾桶：AI Agent的自动分类系统

智能垃圾桶：AI Agent的自动分类系统关键词：智能垃圾桶、AI Agent、自动分类系统、机器学习、计算机视觉、垃圾分类摘要：本文围绕智能垃圾桶的AI Agent自动分类系统展开，详细阐述了其核心概念、算法原理、数学模型等内容。首先介绍了系统开发的背景，包括目的、预期读者等…

李华

5G时代，如何处理超大规模物联网数据

你好，我是程序员贵哥。时间过的真快，转眼间我们已经结束了前五个模块的学习，来到了最后一个模块“大规模数据的挑战和未来”。一门技术类课程的常见学习路线就是“过去→现在→未来”。这个专栏也是如此，我们首先研究了大数据处…

李华

牛只行为识别研究：基于YOLO13与UniRepLKNetBlock的智能分类系统_1

cattle_be数据集是一个用于牛只行为识别的计算机视觉数据集，该数据集采用CC BY 4.0许可证授权，由qunshankj平台用户于2023年9月11日创建并导出。数据集共包含864张图像，所有图像均经过预处理，包括自动调整像素方向（剥离…

李华

知识扩展-高精度空转（HD、Xenium、CosMx）banksy数据增强的意义

作者，Evil Genius 大家先看看下面HD的分析示例，供大家思考。之前一直有一个问题就在于高精度空转的banksy聚类与数据本身聚类的之间的异同。目前文章采用banksy的数量并不多，且理解上不是很容易，其与直接注释之间的区别我们需…

李华