news 2026/4/18 13:29:05

SFT后训练32B-LLM的一些观察

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SFT后训练32B-LLM的一些观察

用单一语种数据集SFT

用COIG-CQIA数据集,以及把COIG-CQIA数据集混合guanaco和belle之后的数据集一起SFT 32B-Base模型,或者基于32B-Chat模型SFT(1-3 epoch),
目的是想提升LLM在单一语种的效果,
然后在中文通用评测集CEVAL和CMMLU评测,
效果都不如32B-Chat模型。

用一个NLP数据集SFT

用一个NLP任务的数据集(30W data),SFT 32B-Base模型,或者基于32B-Chat模型SFT(1 epoch),
目的是想把预训练的知识用到这个NLP任务里,
把SFT之后的LLM作为标注这个NLP任务训练数据的标注LLM,
效果还不如通用的32B-Chat模型作为标注LLM。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 21:33:09

数据可视化实战:用AI工具制作专业数据分析图表

使用AI工具进行数据可视化并制作专业的数据分析图表,可以帮助你更好地理解数据、展示分析结果。以下是一些流行的工具和步骤指南,帮助你在实战中高效地创建美观且具有洞察力的图表。常用工具Tableau:一个强大的数据可视化工具,允许…

作者头像 李华
网站建设 2026/4/17 20:14:23

【开题答辩全过程】以 高校竞赛试题库管理平台为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华
网站建设 2026/4/18 8:36:29

大数据架构设计:从零开始构建企业级数据平台

大数据架构设计:从零开始构建企业级数据平台 一、引入:为什么你的数据总是“用不起来”? 凌晨3点,某电商公司的BI分析师小张还在电脑前加班。他需要从12个业务系统中提取数据,清洗、合并后生成月度销售报表。可当他终于…

作者头像 李华
网站建设 2026/4/18 8:30:27

【课程设计/毕业设计】基于net+微信小程序的市容监察管理系统设计城市管理平台系统【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/18 12:55:26

小程序计算机毕设之基于net+微信小程序的市容监察城市管理考核管理系统设计(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/4/18 9:22:12

2026中国医美护肤产品行业发展与未来趋势蓝皮书:射频、胶原蛋白、PDRN与肉毒素|附90+份报告PDF、数据、可视化模板汇总下载

原文链接:https://tecdat.cn/?p44828 原文出处:拓端抖音号拓端tecdat 引言 当Z世代把医美抗衰当成日常护理,当轻医美项目渗透率逐年攀升,中国医美护肤行业正迎来指数级增长的黄金时代。在走访了全国20城市的医美机构、对接数十位…

作者头像 李华