news 2026/6/9 23:16:02

上科大 × 阶跃星辰发布ViStoryBench，给故事可视化一套“质检标准”

张小明

前端开发工程师

1.2k 24

文章封面图 — 上科大 × 阶跃星辰发布ViStoryBench，给故事可视化一套“质检标准”

论文标题：

ViStoryBench: Comprehensive Benchmark Suite for Story Visualization

论文作者：

Cailin Zhuang, Ailin Huang, Yaoqi Hu, Jingwei Wu, Wei Cheng, et al.

作者机构：

上海科技大学、阶跃星辰（StepFun）、西湖大学

论文链接：

https://arxiv.org/abs/2505.24862

项目主页：

https://vistorybench.github.io/

代码仓库：

https://github.com/vistorybench/vistorybench

先说结论：评测从“观感”走向“验收”

故事可视化的难点不在单图漂亮，而在角色、风格、镜头语言能否在多个镜头之间稳定传递。ViStoryBench 给出一套数据 + 指标 + 评测链路的完整方案，让评估从“主观感受”升级到“工程化验收”。

数据与脚本：把故事写成可执行分镜

规模与构成：80 个故事、1,317 个镜头、344 个角色、509 张参考图、10 种视觉风格。
来源与流程：选取文学、影视、民间叙事等文本，LLM 辅助摘要与脚本化，人工校验一致性与可拍性。
分镜结构：每个镜头包含 5 个字段：场景、情节对应、登场角色、静态镜头描述、镜头视角设计。
参考图：以人工检索为主，少量由 SDXL 生成，用于保证角色风格一致。

指标体系：12 项指标覆盖“叙事失真”全链路

角色一致性（CIDS）：Grounding DINO 检测裁剪，ArcFace/AdaFace/FaceNet 或 CLIP 提特征。
风格一致性（CSD）：CSD-CLIP 提取风格特征，计算跨镜头与参考一致性。
Prompt Alignment：Scene/Camera/Character Interaction/Individual Action 四维度，GPT-4.1 + Qwen3-VL 共同评估，并用人类标注验证可靠性。
OCCM：检查镜头人数与脚本是否一致。
Aesthetics/Inception Score：质量与多样性。
Copy-Paste：检测直接贴图式“作弊”。

ViStoryBench-Lite：为了落地的“省成本版本”

Lite 为 Full 的 1/4 子集，包含 20 个故事，覆盖 36 个动画角色 / 41 个写实角色 / 43 个非人角色，分布与全量高度一致。
与全量结果相关性高，适合作为快速回归集或商业平台评测基准。
论文披露了评测成本：Aesthetics 约 0.026s/图、Style Similarity 约 0.046s/图对、Character Similarity 约 0.450s/图对，而 Prompt Alignment 约 25s/图。
商业平台结果仅在 Lite 上评测（2025 年 5 月版本）。

结果与洞察：模型画像被拉开

论文基于 ViStoryBench 与 Lite 评测 30+ 方法（含 25 个基线及变体），主要结论包括：

多模态大模型：叙事对齐强，但低层画质与多样性未必最优。
商业工具：美学与风格更稳定，细粒度叙事控制偏弱。
故事图像方法：角色一致性强，但泛化能力有限。
故事视频方法：时序建模引入额外难度，单帧质量常受影响；多镜头视频模型自一致性高，但对参考图的遵循偏弱。
一致性 vs 多样性：明显权衡；单一分数不足以判断真实能力。
真实场景差距：语义对齐与视觉质量难以同时最优，现实应用仍需权衡。

局限与未来方向（论文原文观点）

当前聚焦多图一致性，尚未覆盖音画同步与视频时序评价。
缺少背景参考图，难以进行场景级图像一致性评估。
专家模型与 VLM 的混合评测仍存在稳定性与幻觉风险。

总结

ViStoryBench 把故事可视化评测从“看一眼”升级为“可复现、可诊断、可回归”的工程体系。它不仅给榜单，更提供一套可落地的质量标准，适合模型选型、迭代优化与上线回归。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/6/10 14:19:52

FSMN VAD未来计划：实时流式和批量处理将上线

FSMN VAD未来计划：实时流式和批量处理将上线语音活动检测（Voice Activity Detection, VAD）是语音处理流水线中不可或缺的“守门人”——它决定哪些音频片段值得被后续模型处理，哪些该被安静过滤。在实际业务中，一个误…

作者头像

李华

网站建设 2026/5/31 8:25:03

智能投资新纪元：从投资困惑到AI助手的完美转型

智能投资新纪元：从投资困惑到AI助手的完美转型【免费下载链接】TradingAgents-CN 基于多智能体LLM的中文金融交易框架 - TradingAgents中文增强版项目地址: https://gitcode.com/GitHub_Trending/tr/TradingAgents-CN 你是否曾因市场波动夜不能寐&#xff1…

作者头像

李华

网站建设 2026/6/10 13:33:57

DeepSeek-V3与Paraformer语音模型对比：文本生成+语音识别协同应用案例

DeepSeek-V3与Paraformer语音模型对比：文本生成语音识别协同应用案例 1. 引言：当大模型遇上语音识别你有没有这样的经历？开完一场会议，录音文件堆在电脑里，却迟迟不想动手整理成文字。或者灵感突然闪现，…

作者头像

李华

网站建设 2026/6/10 13:32:03

语音处理开发者必备｜基于FRCRN镜像的轻量级降噪实践

语音处理开发者必备｜基于FRCRN镜像的轻量级降噪实践你是否遇到过这样的问题：在嘈杂环境中录制的语音模糊不清，会议录音里夹杂着空调声、键盘敲击声，甚至远处的谈话声？这些背景噪音不仅影响听感，更会严重干…

作者头像

李华

网站建设 2026/6/10 13:35:30

zotero-style插件：让文献管理从繁琐走向智能的艺术

zotero-style插件：让文献管理从繁琐走向智能的艺术【免费下载链接】zotero-style zotero-style - 一个 Zotero 插件，提供了一系列功能来增强 Zotero 的用户体验，如阅读进度可视化和标签管理，适合研究人员和学者。项目地址: ht…

作者头像

李华

网站建设 2026/6/10 15:33:10

PDFwriter终极指南：macOS免费虚拟打印机的完整使用教程

PDFwriter终极指南：macOS免费虚拟打印机的完整使用教程【免费下载链接】RWTS-PDFwriter An OSX print to pdf-file printer driver 项目地址: https://gitcode.com/gh_mirrors/rw/RWTS-PDFwriter 还在为文档格式转换而烦恼吗？PDFwriter是macOS系…

作者头像

李华