本文详细介绍了大模型微调的完整流程,包括方案构思(Agent与Workflow概念)、数据集获取与构建、数据清洗(AIpaca格式)、模型基底选择、参数调整、效果评估(关注过拟合和loss曲线)以及模型发布与API调用。文章强调了数据质量的重要性,提供了实用的微调技巧和成本考量,适合想要学习和实践大模型微调的读者。
大模型微调的过程
💡建议严格按照此流程来,不要跳步,不然可能会做无用功。
比如如果没有好好构建数据集,最后发现微调模型效果不佳是数据集的问题,就事倍功半了。
方案的构思与落地:几种可能的选择
我有个问题,我现在写了一个prompt,用户可以自己输入内容,但我不想让用户看见这个prompt,只有一个输入区在那儿,要怎么实现呢?
我怎么能够调用两个模型,让他们相互衔接呢?
……
在正式开始之前,需要先想好以下问题:
- 自己想要做的到底是什么?它要达到什么效果?预期目标是什么?
- 自己做的到底是一个广而泛之的大模型、还是一个封装好的产品(如智能体)?
- 创新点是在于专业领域的深耕(意味着需要训练新模型)、还是已有内容的衔接(意味着调用已有模型,用到工作流),还是二者都有?
❓什么是Agent?
——Agent指的是基于人工智能技术,尤其是大型语言模型(LLM),能够感知和理解环境,并采取行动以完成目标的智能实体
在讯飞MaaS上,如果我们想做一个Agent,可以在大模型应用平台中实现。
❓什么是workflow?
——工作流(Workflow)是指完成特定任务或一系列任务的步骤和过程。在讯飞MaaS的大模型应用平台中有对应的模块。目前已经上线的节点有:大模型、代码、决策、分支器、变量提取器、文本拼接等等。
如果你的idea需要训练新模型,那么可以继续往下。但如果你的idea只是涉及已有模型的流程拼接,则可以直接用workflow实现,不涉及以下过程。
数据集的获取与构建
数据集的获取
练成数据集,微调就成功了一大半。
——不要葱姜蒜老师
对于新手而言,我们可以根据数据集的可获得性分为两种:公开已有的、难以获得的。
❓如何获得公开已有的数据?
——最简单的数据集获取方案是去相关开源平台搜索并下载,如:github、hugging face、魔搭等平台。尤其是小说等文本类数据特别多。
也可以尝试从网站上爬取,但需要一定技术支持。
❓如果我需要的数据全网没有/难以获得怎么办?
——自行构建数据集。
然而,自行构建几百上千条数据集非常麻烦,如何能够快速实现这一过程?这里介绍两个思路
- 借助讯飞MaaS平台的数据增强功能。可以先尝试自己手搓50条数据,然后再借助讯飞MAAS平台【数据增强】功能让数据翻倍。
- 借助大模型快速构建数据集。手搓了几十条数据后,把数据作为示例丢给大模型,让它输出类似的内容
- ❗一开始不要让大模型生成太多,建议第一轮先让大模型生成20条,精读这20条,找大模型经常会犯的错误。然后把这些错误作为错误示例加入到Prompt中
- 个人经验:大模型一轮可以做到生成200条及以上的数据
一个简单的Prompt示例(来自@August)
参照示例,输出20个类似的“近期运气”问题给我,注意要生活化、语言不要太夸张,最好不要有场景、有类似于“在活动中”、“在比赛中”之类的定语与状语;语句不要太累赘、尤其是不要有太多定语,正常人不这样说话。示例:我这个季度顺利吗? 我这个季度会发财吗? 最近有哪些事情在等着我? 最近会发生什么事情? 近期我能否被幸运之神垂青?数据的清洗
原始数据集并不符合模型训练可以接受的形式,因此需要对原始数据进行清理,处理为模型可以学习的格式。
在讯飞MaaS平台中,微调数据集通常以AIpaca的形式构建。具体内容详见讯飞开放平台说明。
AIpaca
特点:结构简单,适用于文本生成、翻译、总结等任务,尤其是单轮的、任务导向的指令微调
- instruction任务的指令,类似于用户的直接输入
- input任务所需的输入内容。通常情况下为空(因为若任务是开放式的,或者不需要明确输入,可以为空字符串)
- output在给定指令和输入的情况下,模型需要生成的期望输出,也就是对应的正确结果或参考答案。
- system可以理解成模型的预先Prompt
[ { "instruction": "人类指令(必填)", "input": "人类输入(选填)", "output": "模型回答(必填)", "system": "系统提示词(选填)", "history": [ ["第一轮指令(选填)", "第一轮回答(选填)"], ["第二轮指令(选填)", "第二轮回答(选填)"] ] } ]简单来说,这个结构可以理解为:请大模型记住现在的角色history,当用户输入类似于instruction内容的时候,大模型需要返回类似于output的结果
相当于帮助大模型建立了问题-回答之间的映射关系。
- 可以把数据集理解为给模型的练习题
- instruction+input = 问题
- output = 答案
模型基底的比较
在正式开始调试模型前,特别重要的是选择一个合适的模型基底。尽管讯飞MaaS平台已经对模型擅长的内容有了一些介绍,但具体到各个垂直领域,还是需要自行测试与总结。
其中,讯飞MaaS平台上提供的Llama3模型主要基于英文语料(训练语料中只有0.2%是中文)所以经常会有同学有以下问题:
❓如何实现Llama3的输出是中文?
——输入自己的中文数据集,然后选择全参数微调,然后再次进行lora训练。
同时,也可以在自己的中文数据集的system部分加入“请输出中文”(但目前讯飞MaaS平台好像不支持这个)
模型训练
构建好数据集、选择好模型基底后,可以开始训练模型啦!
参数的选择
在训练模型的过程中,有很多参数可以选择。
💡个人的经验是,需要尤其注意其中的“训练次数”!若数据集超过10000了,训练次数最高也要低于5,不然会出现过拟合问题(下章)
效果的评估
大家都说效果不好,那你的预期目标效果是什么呢?
——葱姜蒜煎蛋老师
对于模型效果的评估,我们可以用客观+主观的标准来衡量。尤其要注意出现过拟合问题。
❓什么是过拟合?
——过拟合指的是模型学习数据时,不仅记住了数据中的细节,还把偶然出现、不重要的东西(即“噪声”)同时记住了。
当出现过拟合问题的时候,可以考虑
- 数据集问题:提升数据集质量/数据集过多
- 微调问题:学习轮次与数据条数不匹配,学习轮次过多
主观的标准:根据自己对产品的预期,确定预期目标效果的评估框架。这是最重要的
客观的标准:查看loss曲线。
Loss曲线是用于评估模型学习状态(学习损失)的曲线。
你的loss曲线调到0.1、0.2了,肯定不行呀
——葱姜蒜煎蛋老师
理想的拟合状态
有待提升的拟合状态
以下内容来自Cheng Xiaojuan的笔记和机器学习术语表
表现1:loss下降的非常平缓,以至于似乎并没有下降,这说明模型根本没从数据中学到东西(欠拟合)。
表现2:曲线振荡
表现3:模型急剧跳跃
表现4:loss值过低,快到0.2、0.3了(来自@August)
模型的发布
模型做好发布后,可以直接调用API,请求地址如下:
wss://xingchen-api.cn-huabei-1.xf-yun.com/v1.1/chat调用API可参考以下文档:开源大模型 Web API文档
还有更多需要考虑……
目前得益于讯飞MaaS平台的开放性和公益性,模型的训练、发布、调用很多都不需要考虑成本问题。
然而在实际过程中,模型的每一次测试、训练等都是有成本的。如果想把模型打造成一个商业产品,则一定需要考虑成本问题。
你的模型商业成本是多少?已经最低了吗?
比如:
❓如果有两种技术实现路径,第一个路径是用一个模型、一次实现,但是Prompt超级长(差不多2000字)、另一个是用workflow,涉及到2~3个模型,整个workflow的prompt字数可能在1000以内。一般哪个路径更便宜呢?
——费用主要看模型的输入输出的token,如果都差不多的话,那价格也差不多。
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包:
- ✅AI大模型学习路线图
- ✅Agent行业报告
- ✅100集大模型视频教程
- ✅大模型书籍PDF
- ✅DeepSeek教程
- ✅AI产品经理入门资料
完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
为什么说现在普通人就业/升职加薪的首选是AI大模型?
人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。
资料包有什么?
①从入门到精通的全套视频教程⑤⑥
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
④各大厂大模型面试题目详解
⑤ 这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**