5分钟部署ms-swift，轻松实现AI模型微调与推理-程序员充电站

5分钟部署ms-swift，轻松实现AI模型微调与推理

1. 引言：为什么选择ms-swift进行大模型微调？

在当前大模型快速发展的背景下，如何高效、低成本地完成模型的微调、推理与部署，成为开发者和研究者关注的核心问题。ms-swift（Scalable lightWeight Infrastructure for Fine-Tuning）作为魔搭社区推出的一站式大模型微调与部署框架，凭借其强大的功能集成和极简的操作流程，正在成为越来越多团队的首选工具。

该框架已支持600+纯文本大模型与300+多模态大模型的全链路训练、推理、评测、量化与部署，涵盖Qwen3、Llama4、InternLM3、GLM4.5、DeepSeek-R1等主流架构，以及Qwen3-VL、InternVL3.5、MiniCPM-V-4等多模态模型。无论是指令微调、偏好学习（DPO/KTO/ORPO），还是强化学习（GRPO族算法），ms-swift均提供了开箱即用的支持。

更重要的是，ms-swift通过集成LoRA、QLoRA、DoRA等轻量微调技术，结合vLLM、SGLang、LMDeploy等推理加速引擎，显著降低了资源消耗并提升了训练效率。用户可在单卡环境下完成7B级别模型的微调任务，显存需求最低仅需9GB。

本文将带你从零开始，在5分钟内完成ms-swift环境部署，并实现一个完整的Qwen2.5-7B-Instruct模型自我认知微调与推理全流程。

2. 环境准备与镜像部署

2.1 使用Docker快速拉取预置镜像

为避免复杂的依赖配置，推荐使用官方提供的Docker镜像一键部署环境。该镜像已预装CUDA 12.4、PyTorch 2.6.0、vLLM 0.8.5、ModelScope 1.27.1及Swift 3.5.3等核心组件，确保开箱即用。

docker pull modelscope-registry.cn-hangzhou.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.4.0-py310-torch2.6.0-vllm0.8.5.post1-modelscope1.27.1-swift3.5.3

2.2 启动容器并挂载数据卷

启动容器时建议挂载本地数据目录，便于后续数据集管理和模型输出保存。以下命令以--gpus all启用所有GPU资源，并设置共享内存大小为32GB以提升数据加载性能。

docker run -it --name swift-env \ --network=host \ -v /data:/data \ -v /nfs/lide01/shiwei:/nfs \ --gpus all \ --shm-size 32G \ modelscope-registry.cn-hangzhou.cr.aliyuncs.com/modelscope-repo/modelscope:ubuntu22.04-cuda12.4.0-py310-torch2.6.0-vllm0.8.5.post1-modelscope1.27.1-swift3.5.3 \ /bin/bash

提示：若需指定特定GPU设备，可通过CUDA_VISIBLE_DEVICES=0等方式限制可见设备。

3. 数据格式规范与预处理

3.1 ms-swift标准数据结构

ms-swift采用类OpenAI的消息格式组织训练样本，支持文本、图像、视频等多种模态输入。每条样本包含唯一ID和消息序列，结构如下：

{ "id": "sample_0001", "messages": [ { "role": "user", "content": [ {"type": "image", "image": "/path/to/img_001.jpg"}, {"type": "text", "text": "图中有哪些动物？请用中文回答。"} ] }, { "role": "assistant", "content": [ {"type": "text", "text": "有两只长颈鹿和一只斑马。"} ] } ] }

3.2 自定义数据集格式转换

对于非标准格式的数据集（如self-llm项目中的conversations结构），需进行格式转换。以下Python脚本可将conversations格式转为ms-swift兼容格式：

import json import os def convert_format(input_file, output_file): with open(input_file, 'r', encoding='utf-8') as f: data = json.load(f) converted_data = [] for idx, item in enumerate(data, 1): new_item = { "id": f"sample_{idx:04d}", "messages": [] } for conversation in item["conversations"]: role = conversation["role"] value = conversation["value"] if role == "user": content = [ {"type": "image", "image": value}, {"type": "text", "text": "请识别图片中的公式，并用LaTex格式返回。"} ] else: content = [ {"type": "text", "text": value} ] new_item["messages"].append({ "role": role, "content": content }) converted_data.append(new_item) with open(output_file, 'w', encoding='utf-8') as f: json.dump(converted_data, f, ensure_ascii=False, indent=2) print(f"转换完成，共处理{len(converted_data)}条数据，已保存至{output_file}") if __name__ == "__main__": input_json = r"/nfs/latex_ocr_val.json" output_json = r"/nfs/latex_ocr_val_swift.json" if os.path.exists(input_json): convert_format(input_json, output_json) else: print(f"错误：输入文件'{input_json}'不存在")

注意：数据集支持JSON或JSONL格式，推荐使用JSONL以提高大文件读取效率。

4. 模型微调实战：Qwen2.5-7B-Instruct自我认知训练

4.1 执行LoRA微调命令

以下命令将在单卡RTX 3090上对Qwen2.5-7B-Instruct模型进行LoRA微调，融合中英文Alpaca数据集与自我认知数据集，训练周期为1个epoch。

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen/Qwen2.5-7B-Instruct \ --train_type lora \ --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \ 'AI-ModelScope/alpaca-gpt4-data-en#500' \ 'swift/self-cognition#500' \ --torch_dtype bfloat16 \ --num_train_epochs 1 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --save_total_limit 2 \ --logging_steps 5 \ --max_length 2048 \ --output_dir output \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-robot

参数说明：

--train_type lora：启用LoRA低秩适配微调，大幅降低显存占用。
--lora_rank 8：LoRA矩阵秩设为8，平衡性能与资源。
--gradient_accumulation_steps 16：梯度累积步数，模拟更大batch size。
--dataset #N：限制每个数据集采样数量，防止过拟合。
--model_author和--model_name：仅当数据集中含swift/self-cognition时生效，用于定制化角色设定。

4.2 训练过程监控

训练过程中可通过日志观察loss变化、学习率调度及评估指标。默认每50步保存一次checkpoint，最终生成位于output/目录下的适配器权重。

显存优化建议：若显存不足，可尝试降低per_device_train_batch_size、启用fp16或改用QLoRA方案。

5. 模型推理与交互测试

5.1 加载LoRA权重进行推理

训练完成后，使用swift infer命令加载适配器进行交互式推理：

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/vx-xxx/checkpoint-xxx \ --stream true \ --temperature 0 \ --max_new_tokens 2048

系统将自动读取args.json中的模型参数（如--model、--system等），无需重复指定。

5.2 合并LoRA权重并启用vLLM加速

为提升推理吞吐，可先合并LoRA权重再使用vLLM引擎加速：

CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/vx-xxx/checkpoint-xxx \ --stream true \ --merge_lora true \ --infer_backend vllm \ --vllm_max_model_len 8192 \ --temperature 0 \ --max_new_tokens 2048

推理后端对比：

后端	特点	适用场景
`pt`（PyTorch）	原生支持，调试方便	小规模测试
`vllm`	高吞吐、PagedAttention	生产部署
`lmdeploy`	支持TurboMind引擎	国产硬件适配

6. 模型部署与服务发布

6.1 快速启动API服务

使用swift deploy命令一键部署RESTful API服务：

CUDA_VISIBLE_DEVICES=0 swift deploy \ --model Qwen/Qwen2.5-7B-Instruct \ --infer_backend vllm \ --host 0.0.0.0 \ --port 8080

部署成功后可通过HTTP请求调用模型：

curl -X POST http://localhost:8080/generate \ -H "Content-Type: application/json" \ -d '{"prompt": "你好，请介绍一下你自己", "max_tokens": 128}'

6.2 推送模型至ModelScope

训练完成的模型可直接推送至ModelScope平台共享：

CUDA_VISIBLE_DEVICES=0 swift export \ --adapters output/vx-xxx/checkpoint-xxx \ --push_to_hub true \ --hub_model_id 'your-username/qwen25-swift-finetuned' \ --hub_token 'your-sdk-token' \ --use_hf false

推送后即可在ModelScope页面查看并在线体验模型能力。

7. Web-UI可视化操作（零代码入门）

对于不熟悉命令行的用户，ms-swift提供基于Gradio的Web界面，支持图形化完成训练、推理、评测等操作。

启动Web-UI：

swift web-ui

访问http://<ip>:7860即可进入操作界面，支持： - 模型选择与参数配置 - 数据集上传与预览 - 训练任务提交与进度监控 - 实时对话测试与导出

8. 总结

本文详细介绍了如何利用ms-swift框架在5分钟内完成环境部署，并实现从数据准备、模型微调到推理部署的完整闭环。ms-swift的核心优势在于：

全链路覆盖：支持训练、推理、评测、量化、部署一体化流程；
多模态兼容：统一接口处理文本、图像、视频等混合模态数据；
轻量高效：LoRA/QLoRA+显存优化技术使7B模型微调门槛降至单卡消费级显卡；
灵活扩展：支持自定义模型、数据集、奖励函数与训练策略；
生产就绪：集成vLLM/SGLang/LMDeploy三大推理引擎，满足高并发部署需求。

无论你是研究人员希望快速验证算法效果，还是工程师需要构建企业级AI应用，ms-swift都提供了强大而简洁的解决方案。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

5分钟部署ms-swift，轻松实现AI模型微调与推理