【极速部署】Ubuntu24.04+CUDA13.0 玩转 VLLM 0.15.0：预编译 Wheel 包 GPU 版安装全攻略-程序员充电站

一、核心版本选择说明

本次安装锁定以下版本组合（适配 Ubuntu24.04 x86_64 架构 + RTX A6000 显卡）：

VLLM 版本：0.15.0（稳定版，对 CUDA13.0 适配性最优）
Python 版本：3.12.x（PyTorch/VLLM 官方完全适配，避免 3.13 的兼容性问题）
CUDA 版本：13.0（系统原生版本，向下兼容 cu131 的 PyTorch 包）

二、完整安装步骤（分阶段落地）

阶段 1：创建并激活专属虚拟环境 vllm0150

通过 Miniconda 创建隔离环境，避免系统环境依赖冲突，指定 Python3.12 版本。

阶段 2：配置 CUDA 环境变量

让 VLLM 预编译包能精准识别系统 CUDA13.0，避免 “找不到 CUDA” 或版本匹配错误。

阶段 3：查找适配的 VLLM 预编译 Wheel 包

通过指令确认官方发布的、适配 CUDA13.0+Ubuntu24.04 的 Wheel 包，避免手动拼接 URL 出错。

阶段 4：用 pip 安装 VLLM 预编译 Wheel 包

选择预编译包形式，跳过源码编译，直接完成 GPU 版 VLLM 部署。

三、使用预构建 Wheel 包安装 VLLM 的核心好处

优势点	具体说明
无需编译，极速安装	跳过源码编译（需依赖 CUDA、gcc、rust 等复杂环境），1-2 分钟完成安装，新手零编译门槛
版本精准适配	官方预编译包已绑定指定 CUDA 版本（如 cu130），无需手动配置编译参数，避免 “CUDA 版本不匹配” 报错
环境兼容性高	标注`manylinux_2_35`的包适配 Ubuntu24.04 的 glibc 2.39，无系统库兼容问题
性能无损耗	预编译包采用官方优化编译参数，GPU 推理性能与源码编译版一致
依赖自动匹配	Wheel 包内置依赖清单，pip 可自动校验 PyTorch 等依赖版本，减少手动适配成本

四、查找适配的 VLLM Wheel 包（指令化查询）

通过 GitHub API 精准获取 VLLM 0.15.0 版本下适配 CUDA13.0+x86_64 架构的 Wheel 包：

curl -s https://api.github.com/repos/vllm-project/vllm/releases/tags/v0.15.0 | jq -r '.assets[] | select(.name | contains("cu130") and contains("x86_64")) | .browser_download_url'

执行后会输出适配的 Wheel 包 URL：https://github.com/vllm-project/vllm/releases/download/v0.15.0/vllm-0.15.0+cu130-cp38-abi3-manylinux_2_35_x86_64.whl（即本次安装的目标包）。

五、核心安装指令全解析

指令：pip install https://github.com/vllm-project/vllm/releases/download/v0.15.0/vllm-0.15.0+cu130-cp38-abi3-manylinux_2_35_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu130

指令片段	核心作用	适配你的环境的补充说明
`pip install`	Python 官方包安装命令	负责下载、校验、安装指定的 Wheel 包，处理依赖关系
完整 Wheel 包 URL	指定要安装的 VLLM 预编译包	关键标识解读：-`v0.15.0`：VLLM 版本锁定 0.15.0；-`+cu130`：绑定 CUDA13.0，仅支持 GPU 运行；-`cp38-abi3`：兼容 Python3.8+（含你的 Python3.12）；-`manylinux_2_35_x86_64`：适配 Ubuntu24.04 的 glibc 2.39+x86_64 架构
`--extra-index-url https://download.pytorch.org/whl/cu130`	补充 PyTorch 包索引源	pip 默认从官方 PyPI 源找包，而 PyTorch 的 CUDA 版本包不在默认源中；该参数表示：若 VLLM 依赖的 PyTorch 未安装，pip 会从 PyTorch 官方 cu130 源查找，避免安装 CPU 版 PyTorch

六、安装过程关键注意事项

禁用 uv，优先用 pip：uv 对 PyTorch 的 CUDA 专属源解析逻辑兼容差，易出现 “依赖解析卡住” 或 “找不到包”，pip 是最稳定的选择。
Wheel 包系统版本匹配：必须选择manylinux_2_35版本（而非2_31），否则适配 Ubuntu24.04 的 glibc 2.39 会报错。
环境变量仅临时生效：若需永久生效 CUDA 环境变量，需将配置写入~/.bashrc文件。
验证步骤不可少：安装后需检查 GPU 是否可用，避免 “装了包但无法调用 GPU”。

七、可直接复制的指令（每条一个框）

1. 更新系统基础工具

sudo apt update -y && sudo apt install -y curl unzip git

2. 创建并激活虚拟环境 vllm0150

conda create -n vllm0150 python=3.12 -y conda activate vllm0150

3. 配置 CUDA13.0 环境变量（永久生效）

把 CUDA 13.0 的环境变量配置永久写入～/.bashrc 文件，让每次打开终端（或激活虚拟环境）时自动加载，无需手动执行export命令，以下是详细、新手友好的操作步骤（适配 Ubuntu24.04 系统）：

步骤 1：打开～/.bashrc 文件（新手推荐用 nano 编辑器）

nano 是可视化编辑器，操作简单，无需记忆复杂快捷键，执行以下命令：

nano ~/.bashrc

执行后会进入 nano 编辑界面，界面底部会显示操作快捷键（如^O= 保存，^X= 退出）。

步骤 2：在文件末尾添加 CUDA 13.0 环境变量

将光标移到文件最后一行（可按End键或直接向下翻），粘贴以下内容（与临时配置的环境变量一致）：

# 配置CUDA 13.0环境变量（永久生效） export CUDA_HOME=/usr/local/cuda-13.0 export PATH=$CUDA_HOME/bin:$PATH export LD_LIBRARY_PATH=$CUDA_HOME/lib64:$LD_LIBRARY_PATH

✅ 关键检查：确认/usr/local/cuda-13.0路径存在（执行ls /usr/local/cuda-13.0，有输出则路径正确；若显示cuda是软链接，也可写export CUDA_HOME=/usr/local/cuda）。

步骤 3：保存并退出 nano 编辑器

按键盘Ctrl + O（即^O），nano 会提示 “Save modified buffer?”，直接按Enter确认保存；
按键盘Ctrl + X（即^X）退出 nano 编辑器。

步骤 4：让配置立即生效（无需重启终端）

执行以下命令，强制加载修改后的～/.bashrc 文件：

source ~/.bashrc

✅ 替代方案：若不想执行source，直接关闭当前终端，重新打开一个终端即可（系统会自动加载新配置）。

步骤 5：验证配置是否永久生效

先关闭当前终端，重新打开一个新终端；

执行以下命令检查环境变量：

# 检查CUDA_HOME echo $CUDA_HOME # 检查PATH中是否包含CUDA bin目录 echo $PATH | grep cuda-13.0 # 检查LD_LIBRARY_PATH echo $LD_LIBRARY_PATH | grep cuda-13.0

若输出包含/usr/local/cuda-13.0相关路径，说明配置已永久生效。

4. 升级 pip

pip install --upgrade pip setuptools wheel

5. 查找适配的 VLLM Wheel 包

curl -s https://api.github.com/repos/vllm-project/vllm/releases/tags/v0.15.0 | jq -r '.assets[] | select(.name | contains("cu130") and contains("x86_64")) | .browser_download_url'

6. 安装 VLLM 0.15.0 GPU 版

pip install https://github.com/vllm-project/vllm/releases/download/v0.15.0/vllm-0.15.0+cu130-cp38-abi3-manylinux_2_35_x86_64.whl --extra-index-url https://download.pytorch.org/whl/cu130

7. 验证安装结果

python -c "import vllm, torch, sys; print('VLLM版本:', vllm.__version__); print('Python版本:', sys.version.split()[0]); # 正确获取Python版本 print('PyTorch版本:', torch.__version__); # 正确获取PyTorch版本 print('CUDA可用:', torch.cuda.is_available()); print('PyTorch绑定的CUDA版本:', torch.version.cuda if hasattr(torch.version, 'cuda') else '无CUDA'); print('GPU名称:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else '无GPU')"