news 2026/6/13 20:28:05

GPU 集群调度架构解析

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GPU 集群调度架构解析

子玥酱(掘金 / 知乎 / CSDN / 简书 同名)

大家好,我是子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向:前端 / 跨端 / 小程序 / 移动端工程化
内容平台:
掘金、知乎、CSDN、简书
创作特点:
实战导向、源码拆解、少空谈多落地
文章状态:
长期稳定更新,大量原创输出

我的内容主要围绕前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端,或准备长期走前端这条路
📚 关注我,第一时间获取前端行业趋势与实践总结
🎁 可领取11 类前端进阶学习资源(工程化 / 框架 / 跨端 / 面试 / 架构)
💡 一起把技术学“明白”,也用“到位”

持续写作,持续进阶。
愿我们都能在代码和生活里,走得更稳一点 🌱

文章目录

    • 引言
    • 一、为什么 GPU 调度如此困难
    • 二、GPU 集群核心架构
    • 三、任务提交流程
    • 四、GPU Scheduler 核心职责
    • 五、资源发现机制
    • 六、资源匹配算法
      • 常见策略
    • 七、大模型训练中的 Gang Scheduling
      • 原理
    • 八、GPU 碎片化问题
      • 为什么越来越严重
    • 九、GPU 共享技术
      • NVIDIA MIG
    • 十、推理调度架构
      • 推理调度流程
    • 十一、多租户调度
    • 十二、抢占式调度(Preemption)
      • 工作流程
    • 十三、GPU 集群监控系统
    • 十四、AI时代的新调度挑战
    • 十五、未来趋势:AI Native Scheduler
    • 总结

引言

过去几年,大模型行业有一个非常有趣的现象。

大家讨论最多的是:

GPT DeepSeek Llama Qwen Claude

讨论第二多的是:

训练框架 推理框架 MoE RLHF Agent

但真正决定一家 AI 公司成本和效率的,往往不是这些。

而是:

GPU 集群调度系统

很多团队购买了几百张 GPU 后才发现:

GPU 不够贵,闲置才最贵。

例如:

GPU 利用率仅30% 任务长期排队 训练任务互相抢资源 推理服务频繁扩缩容

最终导致:

算力很多 效率很低

因此对于 AI 基础设施团队来说:

GPU Scheduler 才是真正的“大脑”。

甚至可以说:

GPU = CPU GPU Scheduler = Kubernetes

如果没有调度系统:

1000张GPU ≈ 100张GPU

因为大部分资源都会被浪费。

一、为什么 GPU 调度如此困难

很多人第一次接触 GPU 集群时会觉得:

CPU调度都解决了 GPU调度有什么难的?

实际上完全不同,CPU 调度:

任务粒度小 资源弹性高 切换成本低

GPU 调度:

任务巨大 资源昂贵 切换成本高

例如,一个 Web 服务:

2 Core 4 GB RAM

随时可以迁移,但一个大模型训练任务:

64 GPU 512 CPU 2TB Memory

一旦启动:

不能轻易迁移

否则代价极高。

二、GPU 集群核心架构

典型架构如下:

User │ ▼ ┌─────────────────┐ │ Submit Job │ └────────┬────────┘ ▼ ┌─────────────────┐ │ Scheduler │ └────────┬────────┘ ▼ ┌─────────────────────────────┐ │ Resource Manager │ └───────────┬─────────────────┘ ▼ ┌────────────────────┐ │ GPU Cluster │ └────────────────────┘

核心组件包括:

Job Queue Scheduler Resource Manager Node Manager Monitor

三、任务提交流程

训练任务启动时:

python train.py

实际上背后发生了很多事情。用户提交:

gpu:8cpu:64memory:512G

进入:

Job Queue

任务状态:

Pending Running Completed Failed

Scheduler 开始寻找资源。例如:

Node-A GPU不足 Node-B GPU不足 Node-C 满足条件

最终:

任务分配到 Node-C

开始训练。

四、GPU Scheduler 核心职责

调度器主要解决四个问题:

放哪里 什么时候放 放多少资源 如何保证公平

即:

Placement Allocation Priority Fairness

五、资源发现机制

Scheduler 首先要知道:

集群有哪些资源

例如:

GPU型号 GPU数量 CPU数量 内存大小 网络带宽

节点定期上报:

{"node":"gpu-001","gpu":8,"gpuType":"H100","cpu":128}

Scheduler 构建:

Cluster View

集群视图。

六、资源匹配算法

假设用户申请:

8 × H100

集群情况:

NodeA 4 H100 NodeB 8 H100 NodeC 16 A100

调度器需要选择:

NodeB

因为:

满足需求 碎片最少

这就是:

Best Fit

策略。

常见策略

1.First Fit

找到就放

优点:

速度快

缺点:

碎片严重

2.Best Fit

选择最接近需求的节点

优点:

资源利用率高

缺点:

调度开销大

3.Bin Packing

目标:

尽可能塞满节点

例如:

8GPU节点 任务A 2GPU 任务B 2GPU 任务C 4GPU

放一起,这样:

空闲节点更多

方便后续大任务调度。

七、大模型训练中的 Gang Scheduling

这是 GPU 调度最核心的技术之一,训练任务经常要求:

8 GPU 16 GPU 64 GPU 128 GPU

问题来了,如果:

只找到63张GPU

怎么办?答案:

不能启动

因为:

分布式训练要求同时启动

这就是:

Gang Scheduling

原理

普通任务:

找到资源就运行

Gang Task:

全部资源到位 ↓ 同时启动

例如:

8 GPU Training

必须:

GPU1 GPU2 GPU3 GPU4 GPU5 GPU6 GPU7 GPU8

全部 Ready,否则:

继续等待

八、GPU 碎片化问题

这是所有 AI 公司都会遇到的问题。例如:

NodeA 剩余 1 GPU NodeB 剩余 2 GPU NodeC 剩余 1 GPU

总共:

4 GPU

看起来资源很多,但用户需要:

4 GPU 连续资源

实际上无法调度。这就是:

GPU Fragmentation

为什么越来越严重

因为:

训练任务结束时间不同

导致:

GPU空洞

越来越多,最终:

资源利用率下降

九、GPU 共享技术

为了提升利用率,行业开始使用:

MIG vGPU Time Slicing

NVIDIA MIG

把一张 GPU 切成多个实例。例如:

1 H100 ↓ 7 个小GPU

适用于:

推理任务 小模型训练

这样:

资源利用率更高

十、推理调度架构

训练与推理完全不同,训练:

长任务

推理:

短任务

例如:

请求到达 ↓ 模型推理 ↓ 返回结果

只有几百毫秒,因此调度目标变成:

低延迟 高吞吐

推理调度流程

Request │ ▼ Load Balancer │ ▼ Model Router │ ▼ GPU Worker

其中:

Model Router

最关键,负责:

路由到哪个模型 路由到哪个GPU

十一、多租户调度

企业 GPU 集群通常不是一个团队使用,例如:

推荐团队 搜索团队 大模型团队 数据团队

都在抢 GPU,因此需要:

Quota

配额系统。例如:

teamA:40%teamB:30%teamC:30%

避免:

一个团队占满所有GPU

十二、抢占式调度(Preemption)

当重要任务到来时。怎么办?例如:

CEO要求训练紧急模型

但:

GPU已经满了

此时 Scheduler 可以:

暂停低优先级任务

释放 GPU。这就是:

Preemption

工作流程

高优任务到达 ↓ 发现资源不足 ↓ 选择低优任务 ↓ 保存Checkpoint ↓ 回收GPU ↓ 启动高优任务

十三、GPU 集群监控系统

没有监控:

等于盲飞

通常需要监控:

GPU利用率 显存占用 训练吞吐量 网络流量 故障率

典型指标:

GPU Utilization Memory Usage Tokens/sec Samples/sec

十四、AI时代的新调度挑战

过去:

单模型训练

现在:

MoE RLHF Agent 多模型协同

出现新的问题:

GPU拓扑感知 RDMA调度 跨机房训练 异构GPU调度

Scheduler 不再只是:

资源分配器

而是:

AI Infrastructure Brain

十五、未来趋势:AI Native Scheduler

未来 GPU Scheduler 会越来越智能。

传统模式:

规则驱动

未来:

AI驱动

例如:

预测任务完成时间 预测GPU需求 自动扩容 自动迁移

形成:

Self-Driving Cluster

自治算力集群。

总结

很多人认为大模型时代最重要的是:

模型 算法 数据

实际上当规模达到:

100 GPU 1000 GPU 10000 GPU

以后,真正决定效率的往往是:

GPU 调度系统

因为:

模型决定能力上限 Scheduler决定资源利用率

从某种意义上说:

AI 时代的 Kubernetes,不是 Kubernetes 本身,而是面向 GPU 的新一代调度系统。

而未来所有 AI 基础设施的竞争,最终都会回到一个核心问题:

如何让每一张 GPU 都创造最大价值。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 20:22:56

ComfyUI LLM Party:10个实用工具节点深度解析

ComfyUI LLM Party:10个实用工具节点深度解析 【免费下载链接】comfyui_LLM_party LLM Agent Framework in ComfyUI includes MCP sever, Omost,GPT-sovits, ChatTTS,GOT-OCR2.0, and FLUX prompt nodes,access to Feishu,discord,and adapts to all llms with simi…

作者头像 李华
网站建设 2026/6/13 20:22:54

Mythos推理架构:段落化推理与冲突驱动的确定性增强

1. 项目概述:一次被刻意“锁住”的能力跃迁如果你最近关注大模型前沿动态,大概率已经看到“Anthropic’s Mythos”这个词在技术圈小范围炸开——不是因为某篇论文、不是因为某个开源模型,而是一次极其罕见的、带着明确“闸门”标识的能力发布…

作者头像 李华
网站建设 2026/6/13 20:19:50

如何确保政策资源精准匹配企业技术需求?

观点作者:科易网-国家科技成果转化(厦门)示范基地 核心要点 政策资源精准匹配企业技术需依赖数智化工具与数据底座,尤其是全域科创知识图谱与40亿关系数据,可破解传统信息不对称、转化周期长、匹配效率低等三大痛点。区…

作者头像 李华
网站建设 2026/6/13 20:15:59

余承东重掌盘古大模型 + openPangu 2.0发布:华为AI全面反击

摘要:2026年6月12日,华为开发者大会HDC 2026在东莞松山湖开幕,余承东正式宣布回归掌舵盘古大模型并发布openPangu 2.0。这是华为AI战略的全面反击信号——从"中国第一"到"世界第一"的宣言背后,是稀疏MoE架构、512K上下文窗口、昇腾深度优化、鸿蒙Agent…

作者头像 李华