news 2026/4/18 7:45:21

年度好用的AIGC工具推荐,看这一篇就够了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
年度好用的AIGC工具推荐,看这一篇就够了

Datawhale干货

作者:温鑫,Datawhale成员

2025是AI影视正式爆发的元年,随着AIGC技术的发展,任何人都能更好地、更可视化地表达自己的情感和情绪。创作平权、表达平权在AI时代下是必然的趋势。我之前是做经管和数据分析多一点,跟艺术、审美这些“高大上”的东西八竿子打不着,但是恰恰是AI,让我有机会在交叉领域去探索、去尝试。各种学科穿插、交融,学科的边界慢慢变得没有那么清晰,利用各种AI工具来达到提效目的/扩展能力边界仿佛成为了自己工作、生活中不可缺少的思考习惯。

关于AIGC原理,有很多大佬要讲的比较好(万字长文!关于AI绘图,一篇超详细的总结发布by 白客),我就不分享这一块了,更多聚焦在使用场景和实操流程~

如果你也喜欢尝试各种新奇的玩意,哪怕并不专业;如果你也会因为好的想法而半夜爬起来试试,哪怕试了不成功;如果你也是终身学习者,不在乎自己的“存量”是否足够;亦或是你也曾经在迷茫、在思考、在不知所措...,那么希望本次并不“权威”但足够“真诚”的分享,能给你带来一点点启发。

OK我们正式开始!

一、AIGC 短片/MV 创作流程与工具推荐

很多人觉得AI生成视频就是“输入一句话,生成一部电影”,其实现阶段还真没那么神,也就是任何人使用工具从0-1是能做出来的,但是从1-10或者100可能还得无法被标准化的直觉性的参与。

尽管市面上目前有一些好用的智能体平台,比如纳米AI、Medeo.AI、OiiOii、Lovart等等,但是涉及到具体的环节,还是涉及到人的审美、审核、控制、调整等等。

在制作过程中,大概会分为这几种模块

1. 剧本与分镜

Gemini 在视频理解和剧本故事输出上,是我用过很顺手的AI工具,对于影视主题来说,提出的意见和提供的视角都很专业。基本上,涉及到剧本讨论、视频讨论的,我都会用Gemini。Gemini 3更是厉害的一批,很强!

2. 图片设计

图片设计过程中,最需要的需求是保持人物一致性、色调风格一致性、以及场景一致性。目前(截至2025.12.20)的生图顶流可能还是Nano-banana pro以及seedream 4.5,能够满足我的需求。不过Midjourney有天然的优势是有足够的审美,于我而言,MJ主要是提供美学宽度(风格迁移),而banana🍌和seedream更多的是提供精准度和正确性(六根手指问题)

以下示例我使用AI工具生图的场景:

以及改图场景:

3. 视频生成

视频模型中,没有一定哪个好,只有哪个更适合。以下总结一些直觉性的经验(仅供参考):即梦(表演细腻)、可灵(清晰、大运镜场景)、Sora2(快速出demo场景)、Vidu(特效、动画场景)、海螺(打斗场景)、Higgsfield(特效场景)、Runway(P视频场景,不过现在有可灵O1效果很好)....

在使用过各大平台测试过中英文提示词能力,以及查阅相关资料显示:平台由 “安全过滤、数据微调、功能设计、审核机制” 等多重因素共同决定,所以有时会在 “创意自由度、参数开放度、生成速度” 上做出的妥协。那么有些画面和描述中的有差异可能不一定是提示词有问题,所以涉及到有些专有名词或者影视行业的叫法,有英文辅助会更好一点,英文词汇会更丰富一点。

e.g. 难过的 ,英文有七八种形容,其实略有区别。

e.g. 镜头往前推 那到底是 焦段放大的推(zoom in) 还是 轨道推(dolly in) 还是 手持推(handheld in) ,是有区别的

1)运镜方式(Camera Movement)

核心影响画面动态节奏,英文描述更易被 AI 识别轨迹细节:

2)镜头角度(Camera Angle)

决定画面视角,影响观众对主体的感知:

3)时间控制(快门 / 延时类)

4)镜头光学(景深 / 焦段类)

5)景别体系(空间范围,含人物特化)

5. 音乐生成

音乐生成方面,最喜欢使用producer.aitunne来制作音乐,小白易上手,能满足大多数需求。

二、AIGC 提效工具开发分享

这部分可能是我作为一个“非程序员”比较兴奋的地方。以前我有好多重复性的工作,想写个脚本自动化,但一看到代码就头大。现在?Cursor / Trae / Qoder 改变了一切(现在也有Gemini 3)。

在使用AIGC工具的过程中,有时的场景会非常常见和经典,比如打光、换分镜或者其他的流程。那么使用AI coding的能力能帮我快速开发一个产品。说到这,不得不说Gemini3还是太强了,能够很快速的达到我的需求。内置gemini和nano-banana、veo模型,效果非常nice!

根据场景来开发AI产品,包含:智能分割音频、视频转动漫、智能扩展分镜、无限节点画布,效率大大提升。

三、探索 AI 时代超级个体趋势感悟分享

在这个时代,我越来越强烈地感受到“超级个体”的需要。当然,自己也在努力中,多往这个方向探索,多和优秀的人学习。

现在比如有个需求是: 让你给一个财经APP拍摄宣传片 。

那么有的能力可不止只有生成画面,可能需要有: 财经知识、AI产品、AIGC技术、审美能力、动画能力...... 综合能力,这放在之前都得一个团队来协调、对接、互相补充,才能完成。现在确实借助AI的力量,我们可以快速的学会一个领域的东西、快速的试错,而在“走”的过程,才能切身体会每一种技术的魅力、每一个思考问题的背后逻辑。

1. 一个人就是一支队伍

不管是AI Coding、AI设计、AI产品。一个人+AI,就能通过低成本完成以前需要多人协作才能做的事。这不是说我们要取代专业人士,而是我们有了低成本试错快速验证想法的能力,至少出个demo还是不错的!至少面对未知,可以是“我可以试试”,而不是“我不懂”。

2. “存量”知识贬值,“调用”能力升值

死记硬背的知识(比如Python的语法细节、技术的原理)越来越不值钱。可能比较重要的是审美,是同理心,背后那套无法言说的部分,思考如何发挥AI的最大用处、了解不同模型的边界的能力,是整合调用的能力,是你对某个痛点的敏锐洞察

3. “把手弄脏”

既要仰望星空,又要脚踏实地。既要做具体的事情,来了解整个工作流程和细节;又要能跳出来,稍微宏观一点的视角看待整个事情的发展趋势,这样才不会陷入“局部最优点”。很喜欢的一句话是“把手弄脏”(一位朋友告诉我的),工具再强,放在那里不用也只是工具。真正的壁垒在于我们是否愿意花时间去磨合、去调教这些工具,让它们为我们所用。从而像看待不同的资源一样,去调配、去解决适合的场景。

4. 不拘泥于是否“垂直”

之前的我也在纠结、迷茫,是否之前的实习、科研、工作要非常对口、垂直?确实,按照功利的角度来说,垂直能让我们在特定的领域更加专业且有经验,这本身没问题。但是AI发展巨变,拥有快速适应、拥抱变化的心态也同样重要,那么“广度”可能也是比较需要的。“样样通、样样松”也并非一定是不好的,而是学会利用AI,那么AI就是能够在我们自身“松”的地方“深入”下去。就具体的工作、生活场景而言,好像AI的加持下,确实扩展了很多自己的能力边界。可以培养所谓的“看似无意义”的兴趣爱好,现在无意种下的一颗“种子”,会在未来某个场景慢慢“发芽”(当然,可能会经历很长的时间跨度)~


一起“赞”三连

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/5 22:00:07

Qwen-Image-Edit-2511性能优化:如何提升生成速度

Qwen-Image-Edit-2511性能优化:如何提升生成速度 Qwen-Image-Edit-2511作为2509版本的增强迭代,不仅在图像一致性、几何推理和LoRA集成方面实现显著突破,更对推理效率进行了系统性优化。本文将深入剖析该镜像的核心性能瓶颈与加速策略&#x…

作者头像 李华
网站建设 2026/3/27 20:44:17

IndexTTS-2-LLM部署卡顿?CPU算力适配优化实战教程

IndexTTS-2-LLM部署卡顿?CPU算力适配优化实战教程 1. 背景与挑战:为何需要CPU级TTS推理优化 随着大语言模型(LLM)在多模态生成领域的深入应用,文本到语音(Text-to-Speech, TTS)系统正从传统规…

作者头像 李华
网站建设 2026/4/15 12:03:40

大模型体验新方式:YOLOv9云端按需付费超划算

大模型体验新方式:YOLOv9云端按需付费超划算 你是不是也遇到过这种情况?作为一名摄影爱好者,手机和电脑里存了成千上万张照片,想把它们按人物、风景、宠物、美食等类别整理好,但手动分类太费时间。听说现在AI能自动识…

作者头像 李华
网站建设 2026/4/13 8:47:26

跑BGE-M3太烧钱?按需付费模式让成本降为1/10

跑BGE-M3太烧钱?按需付费模式让成本降为1/10 你是不是也遇到过这种情况:手头有个公益项目,想用AI来分析用户反馈、整理意见、做语义归类,结果一查发现主流云服务动辄几十上百元起步,哪怕只跑几个小时也超预算&#xf…

作者头像 李华
网站建设 2026/4/18 5:39:56

Qwen3-4B部署常见错误?日志排查与修复步骤详解

Qwen3-4B部署常见错误?日志排查与修复步骤详解 1. 引言 1.1 业务场景描述 随着大模型在内容生成、智能客服、代码辅助等领域的广泛应用,越来越多开发者选择本地化部署开源大语言模型以满足低延迟、数据安全和定制化需求。阿里云推出的 Qwen3-4B-Instr…

作者头像 李华
网站建设 2026/4/18 1:26:36

中文数字、时间、货币怎么转?FST ITN-ZH镜像+WebUI轻松搞定

中文数字、时间、货币怎么转?FST ITN-ZH镜像WebUI轻松搞定 在语音识别、自然语言处理和文本规整的实际工程中,一个常见但棘手的问题是:如何将口语化的中文表达(如“二零零八年八月八日”或“一点二五元”)自动转换为标…

作者头像 李华