news 2026/4/18 7:25:18

终于把汉字写对了!实测美团LongCat-Image:6B模型挑战开源天花板

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
终于把汉字写对了!实测美团LongCat-Image:6B模型挑战开源天花板

6B 小模型也能挑战 SOTA?

文生图赛道又卷起来了。

美团 LongCat 团队刚刚发布并开源了LongCat-Image图像生成模型。

长期以来,中文生成精准编辑一直是开源模型的隐痛。现有方案往往难以在轻量化与高性能之间找到平衡点。

LongCat-Image 的发布,正是试图在6B这个易于部署的参数规模下,解决这两个核心痛点。

官方对它的定位很高。号称在文生图上做到了“快、真、准”,不仅中文渲染精准,还能实现摄影棚级的质感。更关键的是,在编辑任务上无需复杂指令,甚至能听懂“把人变成熊”这种大幅度的修改。

但 6B 的参数量,确实容易让人存疑。

在当前大模型动辄百亿参数的竞赛中,一个小模型宣称在核心能力上挑战行业 SOTA,这在技术实现上并不容易。

实际表现究竟如何?我们直接实测验证。

一手实测:6B 参数表现如何?

为了验证它的极限,我们没有使用官方 demo,而是设计了 5 个贴合真实业务场景的 case,重点测试其中文渲染和多模态编辑能力。

Round 1:复杂中文招牌生成

让 AI 写汉字一直是业界的难点。LongCat 既然宣称覆盖了8105 个通用规范汉字,我们直接测试它的极限。

要求它生成一张“簋街火凤凰”的餐饮招牌,这几个字笔画极多,非常考验模型的字符渲染能力。

“簋”和“凰”这种复杂汉字,笔画结构准确无误。

不仅如此,字体的立体浮雕质感和金属包边都渲染得比较清晰,画面中的红灯笼反光与招牌材质完美融合,没有出现常见的字形崩坏。

Round 2:高质感商业海报

光会写大字不行,复杂的商业排版能搞定吗?

我们试了一组高难度的茶咖海报。难点在于既要处理液体飞溅的物理质感,又要处理“大字+小字列表”的复杂混排。

出图效果已经具备了直接商用的潜力。左下角的蓝色大号数字“0”配合汉字“添加”,这种设计排版,模型还原得比较到位。

此外,上方的乌龙茶汤飞溅通透感较好,液体与光影的交互自然,没有明显的塑料感。

Round 3:手绘风科普卡片

除了写实风格,我们还想测试它对多种字体混排逻辑图表的掌控力。

输入提示词,要求它生成一张绿豆薏米茶的食谱插画。难点在于不仅要模拟水彩在宣纸上的晕染质感,还要同时搞定标题的“毛笔书法体”和步骤说明的“手写硬笔体”。

这张图的完成度非常高。注意看背景的纸张纹理和水彩笔触,非常有韵味。

更难得的是,模型精准区分了字体风格:标题“绿豆薏米茶”是苍劲的毛笔字,而左侧的“绿豆30g、薏米30g”等食材清单则是清晰的手写小字,且画面中的绿豆、薏米插画与文字一一对应,逻辑清晰。

Round 4:IP 形象实体化


这个 case 我们请出了最近风靡学术圈的“高雅人士”。

我们上传了一张表情包原图,要求模型把它变成 PVC 材质的实体手办,在手办背后放置一个印有该角色形象的盒子,并在旁边的电脑屏幕上显示 blender 建模过程。

材质转化效果明显。企鹅手里的报纸被处理成了半透明的磨砂塑料质感,底座呈现出高透亚克力效果。

背景屏幕上显示着建模界面,构建出了合理的景深关系,完全是最佳科(mō)研(yú)伴侣。

Round 5:精准局部编辑

最后一个 case,我们来测测它的指令跟随能力。

很多模型改图容易重画,而 LongCat 主打的是精准编辑

我们上传一只金毛的照片,只输入一句指令:给狗戴上一副红色的墨镜。

模型准确识别了编辑区域,加上了墨镜,并生成了合理的反光细节。

最关键的是,它没有破坏原图的草地和光影,保持了极好的视觉一致性,做到了“指哪改哪”。

技术解读:6B 参数如何实现高性能?

实测下来,LongCat-Image 的表现确实超出了我们对 6B 参数模型的预期。结合官方技术解读来看,其核心突破主要体现在架构和训练策略上。

1. 文生图与编辑“同源架构”

不同于市面上将文生图和修图割裂的方案,LongCat-Image 采用了文生图与图像编辑同源的架构设计(MM-DiT + Single-DiT 混合主干)。

〓 模型架构

这种设计让编辑任务能直接复用文生图阶段学到的构图和光影知识。配合Mid-training 初始化多任务联合学习机制,模型在进行“企鹅变手办”或“给狗戴墨镜”这种操作时,能极好地保持原图的特征一致性。

从官方公布的编辑能力横向对比中可以看到,在同样的指令下,LongCat 在保留原图结构和风格迁移的自然度上,表现优于 FLUX 和 Qwen,甚至逼近闭源的 Nano Banana。

〓 风格迁移与属性编辑能力对比

2. “课程学习”解决中文难题

针对中文生成的痛点,LongCat 并没有死记硬背,而是采用了一种课程学习策略

  • 预训练阶段:学习千万量级的合成数据,覆盖 8105 个通用规范汉字的字形;

  • SFT 阶段:引入真实世界的招牌、海报数据,提升排版能力;

  • RL 阶段:引入OCR 奖励模型,通过强化学习进一步提升字符渲染的准确率。

这一策略直接印证了我们在实测中的体验:这也是为什么在 Round 1 和 Round 3 中,无论是生僻字招牌还是手写食谱,它都能写得对、排得好。

而在下方的文字生成对比中,优势则更加直观:我们可以清晰地看到,在处理古诗词、菜单等各种复杂文字场景时,LongCat 是极少数能做到字形准确且排版审美在线的模型。

〓 文字生成能力对比

3. 告别“塑料感”的对抗训练

为了解决 AI 绘图常见的塑料感问题,LongCat 在 RL 阶段创新性地引入了AIGC 内容检测器作为奖励模型。

这是一种巧妙的对抗训练思路:利用检测器的信号,逆向逼迫模型去学习真实世界的物理纹理、光影和质感,从而在 Round 2 的商业海报实测中呈现出摄影级的通透感。

4. 客观数据验证

在客观评测基准上,LongCat-Image 的数据表现如下:

  • 图像编辑:在 GEdit-Bench 和 ImgEdit-Bench 等榜单上,LongCat 得分达到开源 SOTA 水平,部分指标逼近闭源商业模型。

  • 中文能力:在 ChineseWord 评测中以90.7的高分领先,实现了对常用字和生僻字的覆盖。

〓 客观基准测试性能对比

全量开源

美团此次采取了全流程开源策略。

LongCat 团队不仅开源了最终模型,还开源了从Mid-trainingPost-training的多阶段模型。这意味着开发者可以直接基于这些 Checkpoint 进行二次开发,无需从零开始训练。

目前,LongCat-Image 已在 Hugging Face 和 GitHub 上线:

HuggingFace:

https://huggingface.co/meituan-longcat/LongCat-Image

GitHub:

https://github.com/meituan-longcat/LongCat-Image

当然,如果你不想自己配环境,直接去LongCat APP或网页端(longcat.ai)也能玩。

目前官方已上线了图生图功能和 24 个零门槛玩法模板,小白也能轻松上手。

在开源模型竞争日益激烈的今天,LongCat-Image 针对中文渲染和精准编辑这两个痛点提出的解决方案,确实为开发者提供了新的选择。

感兴趣的朋友,可以去试一试。

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!