LLaMA-Factory 课程答疑系列一：10个关键问题速查，官方认证解法让训练推理不踩雷-程序员充电站

LLaMA-Factory 课程答疑系列一：10个关键问题速查，官方认证解法让训练推理不踩雷

作为当下热门的大模型微调工具，LLaMA-Factory凭借灵活的适配性和高效的训练能力，成为不少开发者的首选。因此，我们联合LLaMA-Factory作者郑耀威博士，亲自开设了《从零开始玩转LLaMA-Factory大模型微调》课程。别让明天的你，后悔今天没点开这篇文章：LLaMA-Factory作者亲授，带你抢占AI微调先机课程上线后备受关注，有不少开发者和在在校生报名参与学习。

在这个过程中，我们收集了不少学院反馈过来的问题，比如：显存溢出、微调效果不佳、训练卡住等问题却频繁出现。今天整理了《从零开始玩转LLaMA-Factory大模型微调》课程中的高频问题，附上官方认证的解决方案，不管你是刚入门的新手，还是有一定经验的开发者，都能快速找到答案，少走弯路！

Q1：在大模型实验室Lab4AI安装Flash Attention时终端提示OOM，我该如何解决？

现象：在Terminal（终端）页面自定义环境下运行如下所示的命令安装Flash Attention时页面持续停留在编译页面，例如下图所示。

pip install flash-attn -i https://pypi.tuna.tsinghua.edu.cn/simple

运行一段时间后，实例自动重启导致终端连接自动重连。

A：采用源码编译方式安装Flash Attention对系统内存资源要求较高。为确保编译过程稳定，建议配置充足的内存资源。我们推荐系统至少配备400GB内存，建议至少选用H800 * 4卡GPU资源，以提升安装成功率与构建效率。

1、登录账号后，点击悬浮菜单栏的“新建实例”，根据需要选择资源类型（CPU/GPU）、规格及卡数，点击“启动”按钮。实例启动后，点击“Terminal”打开终端，运行以下命令查看Torch版本。

python -c "import torch; print(torch.__version__)"

2、访问Flash Attention公开的仓库地址，下载对应Python版本和cuda版本的release包，以flash_attn-2.8.3+cu12torch2.7cxx11abiTRUE-cp310-cp310-linux_x86_64.whl为例。

3、下载完成后，返回[JupyterLab处理专属数据/Terminal]页面，单击加号新建一个local_pkgs目录，然后将上步下载的文件拖拽至/workspace/local_pkgs目录下。4、在终端运行如下所示的命令，在本地直接安装预编译好的flash-attn高性能二进制库

pip install /workspace/local_pkgs/flash_attn-2.8.3+cu12torch2.7cxx11abiTRUE-cp310-cp310-linux_x86_64.whl

Q2：模型微调日志中的进度条为什么是error？

A：微调日志中进度条显示 error 通常是进度条组件的渲染问题，而非训练程序的功能错误。其本质是工具库（如 tqdm）在特定终端环境下无法正常动态刷新进度条，因此输出 error 标记。只要训练日志中后续有正常的训练指标（如损失、步数）输出，训练逻辑即为正常，无需担心。

Q3：在传输数据时，提示文件“permission denied.”，我该怎么办？

A: 大模型实验室Lab4AI提供user-data文件夹的传输数据权限，其他文件是没有权限被写入数据的。根据您的反馈，您在向 /codelab 文件夹传输数据，该文件夹是没有写入数据权限的。您可以先在user-data文件夹里写入数据，然将文件copy到/codelab 文件夹内。如果文件小的话，可以直接通过jupyter上传。

Q4：数据集上传时，可以接受的最大限制是多少？

A：目前文件管理数据集上传是没有限制的。

Q5：LLaMA Board 无法正常显示数据集怎么办？

A：启动 LLaMA Board 前，确保当前工作目录与 LLaMA-Factory 主目录保持一致，重新启动即可正常显示。

Q6：现在的数据集处理格式是只支持文本+语音或者视频模态，而不支持文本+语音+视频的这种三模态处理格式吗？

A：LlamaFactory 框架目前不支持原生的 “文本 + 语音 + 视频” 三模态处理格式，其架构设计仅支持 “文本 + 一种其他模态” 的双模态融合。若需三模态微调，需通过自定义代码或分阶段融合等方式扩展，框架暂未提供开箱即用的三模态支持。

Q7：训练进程卡住不动该怎么办？

A：LLaMA-Factory 训练时进程停滞（无日志输出、GPU 利用率异常），分为单卡（非分布式）和多卡（分布式）两种场景。如果没有使用分布式训练，请使用下述命令检查 CUDA 版本的 PyTorch 是否被正确安装：

python -c "import torch; print(torch.cuda.is_available())"

如果使用了分布式训练，请尝试设置环境变量export NCCL_P2P_LEVEL=NVL。

Q8：如何模型权重拆分到多个设备上？

A：训练阶段：推荐使用DeepSpeed ZeRO-3 或 FSDP 技术，参考官方示例配置；

推理阶段：通过 vLLM 开启张量并行实现多设备拆分，查阅对应官方示例链接。

Q9：LLaMA-Factory 中如何使用 ORPO 或 SimPO 训练方法？

A：参考示例脚本：https://github.com/hiyouga/LLaMA-Factory/blob/main/examples/train_lora/llama3_lora_dpo.yaml，将脚本中的 pref_loss 参数修改为 orpo（启用 ORPO 训练）或 simpo（启用SimPO 训练）即可。

以上就是 LLaMA-Factory 使用过程中最常见的9个问题及解决方案，建议收藏备用！如果在实战中遇到其他疑难问题，欢迎在评论区留言补充，后续会持续更新答疑系列～

觉得有用的话，别忘了点赞、在看、转发给身边需要的朋友呀！

👉点击购买

添加课程优惠官，了解课程详情

创作者招募中！Lab4AIxLLaMA-Factory邀你共创实战资源

想解锁大模型微调实战，却愁无算力、缺平台？现在机会来了！Lab4AI联合LLaMA-Factory启动创作者招募，诚邀AI开发者、学生及技术爱好者提交微调实战案例，通过审核即享算力补贴与官方证书等，共创AI实践新生态。

大模型实验室Lab4AI实现算力与实践场景无缝衔接，具备充足的H卡算力，支持模型复现、训练、推理全流程使用。

Lab4AI大模型实验室还能做什么

作为算力驱动的AI实践内容生态社区，它不是普通的代码仓库，而是集代码、数据、算力与实验平台于一体的平台，项目中预装虚拟环境，让您彻底告别“环境配置一整天，训练报错两小时”的窘境。

论文板块

覆盖从顶刊论文获取（Arxiv速递、论文查询）、处理（翻译、分析、导读、笔记）、复现，到科研成果转化的全环节，为科研人提供一站式工具与资源。

AI课程板块

打造“学练结合”模式，课程配套可运行实验，从模型拼接原理到训练代码实现，每一步都有实操支撑，有效降低“懂理论不会动手”的学习门槛。

LLaMA Factory官方微调课程，早鸟价450元=开源作者亲授+配套300元算力+完课证书+微调手册+答疑社群，带您从理论到实践，一站式掌握大模型定制化的核心技能。

LLaMA-Factory 课程答疑系列一：10个关键问题速查，官方认证解法让训练推理不踩雷