微调数据构造技巧：合成数据与人工标注结合策略-程序员充电站

微调数据构造技巧：合成数据与人工标注结合策略

在大模型落地应用日益深入的今天，一个常被忽视却至关重要的问题浮出水面：我们是否有足够高质量的数据来“教”这些聪明的模型？

训练一个强大的大模型，光有算力和架构远远不够。真正决定其能力上限的，往往是那个看起来最“土”的环节——数据。纯靠人工标注，成本高、周期长，面对动辄几十万条的需求几乎寸步难行；而完全依赖自动化生成，又容易陷入“AI幻觉喂养AI”的恶性循环，产出一堆看似合理实则漏洞百出的“毒数据”。

于是，一种更聪明的做法正在成为主流：用强模型造数据，再由人来把关修正。这种“合成+人工”的混合策略，既保留了机器的速度，又守住了人类的质量底线。

以ms-swift为代表的现代大模型开发框架，正为这一模式提供了完整的工程支撑。它不只是一个训练工具，更像是一个集成了数据生产流水线、质量控制系统和模型调优引擎的一体化平台。从几条种子问题开始，到最终部署一个能说会看的智能体，整个过程可以在同一套体系内完成。

合成数据：让模型自己“写作业”

要快速构建微调数据集，第一步就是“扩量”。这时候，我们不再逐字编写每一条 (instruction, response) 对，而是请一个已经很厉害的模型来帮忙“代笔”。

这个过程并不复杂：找一些真实场景中的输入作为“种子”，比如用户提问、图片描述任务等，把这些输入喂给像 Qwen、LLaMA 这样的高性能基座模型，让它自动生成回答。然后经过格式清洗和初步过滤，就得到了一批可用于微调的候选样本。

from modelscope import AutoModelForCausalLM, AutoTokenizer model_name = "qwen/Qwen-7B-Chat" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) def generate_synthetic_sample(instruction: str): prompt = f"你是一个智能助手，请严格按照要求回答问题。\n\n指令：{instruction}\n回答：" inputs = tokenizer(prompt, return_tensors="pt").to("cuda") outputs = model.generate( **inputs, max_new_tokens=512, temperature=0.7, top_p=0.9, do_sample=True ) response = tokenizer.decode(outputs[0], skip_special_tokens=True) return response.split("回答：")[-1].strip() instructions = [ "写一段关于春天的诗歌", "解释相对论的基本概念", "根据图片描述一只猫的动作" ] synthetic_data = [{"instruction": inst, "output": generate_synthetic_sample(inst)} for inst in instructions]

这段代码展示了如何利用 ModelScope 加载 Qwen 模型并批量生成响应。关键在于提示词的设计和采样参数的控制：

temperature=0.7是个不错的平衡点，既避免输出过于死板（0.1），也防止天马行空（>1.0）；
top_p=0.9确保只从概率最高的词汇子集中采样，提升语言流畅性；
max_new_tokens防止模型进入无限循环式输出。

但必须清醒认识到：再强的模型也会犯错。它可能编造事实、偏离指令，甚至输出有害内容。因此，合成数据只能是“草稿”，不能直接进训练集。我们真正要做的是——把这份草稿交给人工去“批改”。

人工标注：从“从零书写”到“审阅修正”

如果说合成数据解决了“有没有”的问题，那人工标注解决的就是“对不对”和“好不好”的问题。

传统标注流程中，标注员需要从头撰写每一个答案，效率低且一致性差。而在“合成先行”的模式下，他们的角色发生了转变：不再是内容创作者，而是质量审核官 + 内容编辑 + 标签赋予者。

他们面对的不再是空白输入框，而是一个由AI生成的初稿。任务变成了判断：“这个回答是否合理？”、“有没有事实错误？”、“是否符合指令意图？”如果不行，就动手修改；同时打上标签，比如“常识问答”、“数学推理”、“多跳逻辑”等，为后续精细化训练提供结构化信息。

import json def human_annotation_interface(raw_samples): annotated_data = [] for item in raw_samples: print(f"[系统] 微调指令：{item['instruction']}") print(f"[AI初稿] 回答：{item['output']}") valid = input("✅ 是否有效？(y/n): ").lower() == 'y' if not valid: corrected = input("✏️ 请修正回答：") else: corrected = item["output"] label = input("🏷️ 打标签（如：常识问答、数学推理）：") annotated_data.append({ "instruction": item["instruction"], "output": corrected, "label": label, "source": "synthetic+human", "quality_score": 1.0 if valid else 0.5 }) return annotated_data final_dataset = human_annotation_interface(synthetic_data) with open("finetune_data.jsonl", "w", encoding="utf-8") as f: for line in final_dataset: f.write(json.dumps(line, ensure_ascii=False) + "\n")

这只是一个模拟脚本，实际项目中我们会使用 ms-swift 提供的图形化标注界面。支持多人协作、权限分级、进度追踪、质量评分等功能，真正实现工业化数据生产。

更重要的是，这种“先AI后人”的方式显著提升了标注效率。据 ModelScope 社区实测，相比纯手工标注，工作速度可提升3倍以上，单位成本下降约60%。因为标注员不再需要“凭空构思”，只需聚焦于判断与修正，认知负担大大降低。

当然，也不能盲目信任任何一环。建议对医疗、金融等高风险领域设置双人交叉审核机制，并保留原始生成与修改记录，便于后期归因分析。

多模态融合：不止于文本

当我们的目标不再局限于聊天机器人，而是迈向视觉理解、图文生成、音视频交互等更复杂的任务时，单一文本数据已远远不够。

幸运的是，ms-swift 并不仅限于处理文字。它对多模态数据的支持贯穿全流程，无论是图像-文本对齐、语音转写、还是视觉问答（VQA）、目标定位（Grounding），都能通过统一接口完成建模与微调。

其核心思路是：不同模态分别编码，再在嵌入空间中进行对齐。例如，图像通过 CLIP-ViT 编码，文本通过 BERT 分词器处理，两者在输入层拼接后送入大模型主干网络。训练时采用联合损失函数，同时优化语言建模和跨模态匹配目标。

from swift import Swift, prepare_dataset from swift.torch_utils import get_scheduler model_id = "blip2-opt-2.7b" dataset = prepare_dataset( task_name="vqa", dataset_name="textvqa", split="train[:1000]" ) lora_config = { "r": 8, "target_modules": ["q_proj", "v_proj"], "lora_alpha": 16, "lora_dropout": 0.1 } model = Swift.from_model_id(model_id, lora=lora_config) trainer = model.get_trainer( train_dataset=dataset, per_device_train_batch_size=4, learning_rate=1e-4, num_train_epochs=3, lr_scheduler_type=get_scheduler("cosine"), output_dir="./output-blip2-lora" ) trainer.train()

这段代码展示了如何使用 LoRA 技术对 BLIP2 模型进行轻量级微调。prepare_dataset自动下载并预处理 TextVQA 数据集，Swift.from_model_id注入低秩适配模块，整个流程无需手动编写数据加载器或优化器配置。

特别值得一提的是，ms-swift 支持超过150个公开多模态数据集的无缝接入，涵盖 COCO、Visual Genome、OCR-VQA 等主流基准。配合 Megatron 或 DeepSpeed 分布式训练，即使在有限资源下也能高效完成大规模调优。

此外，推荐启用 FP16/BF16 混合精度训练以节省显存，并结合 QLoRA + 4bit 量化技术，在单张消费级显卡上运行 70B 级别模型的微调已成为现实。

全链路闭环：从数据到模型交付

真正的挑战从来不是某一个技术点，而是如何将各个环节有机串联起来，形成稳定、可复现、可持续迭代的生产系统。

在典型的微调实践中，ms-swift 构建了如下全链路架构：

[种子数据] → [合成引擎（大模型推理）] → [待审数据池] ↓ [人工标注平台（UI界面）] ←→ [标注员] ↓ [清洗后数据集（JSONL/Parquet）] ↓ [ms-swift 训练模块（SFT/DPO/KTO）] ↓ [微调后模型导出] ↓ [推理评测（EvalScope）]

这条流水线打通了从数据生成到模型上线的所有环节。每个步骤都可通过脚本自动化执行，也可通过 Web 界面可视化操作，极大降低了使用门槛。

具体工作流程通常包括六个阶段：
1.准备：明确目标任务，收集少量种子问题；
2.合成：调用强模型批量生成回复，形成初始数据集；
3.标注：组织人工审核与修正，确保数据准确性和风格一致性；
4.训练：选择合适模型（如 Qwen-7B）并应用 LoRA/QLoRA 微调；
5.评测：使用 EvalScope 在 MMLU、CMMLU、C-Eval 等权威基准上验证性能；
6.部署：量化导出模型（支持 GPTQ/AWQ），接入 vLLM 或 SGLang 实现高速推理。

这套方案有效缓解了多个行业痛点：

痛点	解决方案
标注成本过高	合成数据替代80%初稿撰写
数据多样性不足	通过提示工程生成边缘案例
训练环境复杂	ms-swift 一键完成训练/推理/量化
多模态支持弱	内置 VQA/Caption/Grounding 全流程支持
显存资源紧张	支持 QLoRA + BNB 4bit 低资源微调

在实际落地中还需注意几点设计考量：
-数据安全：敏感业务数据应在本地环境中处理，避免上传至公有云服务；
-版本控制：每次数据更新与模型训练应记录 commit hash 与超参配置，确保可追溯；
-渐进式训练：建议先用小规模高质量数据验证 pipeline，再逐步扩大规模；
-硬件适配：A10/A100/H100 用户可启用 Tensor Parallelism，昇腾 NPU 用户可调用原生算子优化性能。