news 2026/6/12 8:24:18

Volcano v1.15.0发布:多方面增强调度能力,减少分布式训练任务失败

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Volcano v1.15.0发布:多方面增强调度能力,减少分布式训练任务失败

【导语:随着多种负载在同一Kubernetes集群中混合部署,调度器面临更高要求。Volcano v1.15.0正式发布,在调度核心、异构资源管理等方面进行增强,带来多项新增能力。】


Volcano v1.15.0发布,应对复杂调度需求

随着批量训练、推理、AI Agent、HPC、大数据等多种负载在同一Kubernetes集群中混合部署,调度器需要在资源竞争激烈的环境下做出高质量决策,同时保持作业级语义、队列公平性、拓扑亲和性与运行稳定性。Volcano v1.15.0围绕这些方向,在调度核心、异构资源管理、多调度器协同与性能可观测等方面进行了增强。

新增Gang - Aware Preemption and Resource Reclamation能力

本次最值得关注的新增能力是Gang - Aware Preemption and Resource Reclamation。抢占决策在抢占方与被抢占方两侧均以Gang为整体进行评估,抢占方按Gang整体进行放置,被抢占候选者同样按Gang粒度进行排序和评估,优先驱逐冗余副本,避免逐Pod随机驱逐打断多个训练任务而抢占方自身仍无法启动的情况。

以Job/Gang为粒度组织被抢占候选,区分冗余副本与关键副本,优先驱逐冗余副本减少任务扰动,并在驱逐前模拟整体放置确认抢占方能成功启动,避免逐Pod抢占打断多个训练任务而抢占方自己也无法运行的情况。

其他增强功能亮点多

v1.15.0在capacity插件中引入了DRA队列配额,新增了可插拔的多分片策略框架以及Benchmark与性能可观测工具,支持Kubernetes 1.35,并在NodeGroup调度优先级、Agent Scheduler稳定性、GPU/vGPU及队列准入控制等方面做了补充增强。

DRA Queue Quota将DRA `ResourceClaim`纳入Volcano现有的队列容量模型,让DRA设备资源也能通过队列配额管理。Sharding Controller支持通过ConfigMap组合多种分片策略,并支持运行时热加载。Volcano Benchmark框架提供一键化性能测试环境搭建和报告输出,支持Kind/KWOK及已有集群。Scheduling Gates for Queue Admission区分“队列配额不足”和“集群资源不足”,避免autoscaler因队列限额触发不必要的扩容。

核心变化意义重大,持续完善调度能力

Volcano v1.15.0的核心变化是Gang - Aware Preemption and Resource Reclamation,将抢占决策从逐Pod粒度提升到Gang粒度,在抢占方与被抢占方两侧同时进行整体性评估,减少分布式训练场景下因随机驱逐导致的连锁任务失败。DRA Queue Quota将DRA设备资源纳入已有的队列容量模型,使异构资源与CPU、内存在配额管理上保持一致。Pluggable Multi - Sharding Policy、Benchmark框架与Agent Scheduler稳定性修复,则分别完善了多调度器协同、性能基线建立与延迟敏感负载调度方面的工程能力。

编辑观点:Volcano v1.15.0的发布为Kubernetes集群调度带来了显著提升,其多项增强功能能更好地应对复杂负载场景,有望提升资源利用效率和任务运行稳定性,推动相关领域发展。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 17:45:54

图像的展示

这是一个WinForm 康明斯 VisionPro 视觉工具的上位机程序,核心功能:加载本地图片显示在视觉控件加载提前做好的 .vpp 视觉工具块把图像和工具传给新窗口读取视觉工具的输出结果保存原始图像 / 压缩处理后的图像CogToolBlock:VisionPro 视觉工具块&#…

作者头像 李华
网站建设 2026/6/9 17:41:50

PyFluent技术解析:Python驱动CFD仿真的架构革新与工程实践

PyFluent技术解析:Python驱动CFD仿真的架构革新与工程实践 【免费下载链接】pyfluent Pythonic interface to Ansys Fluent 项目地址: https://gitcode.com/gh_mirrors/pyf/pyfluent 在计算流体动力学(CFD)领域,传统仿真流…

作者头像 李华
网站建设 2026/6/9 17:40:52

毕节学美甲怎么选培训机构?实地了解后的几点心得

在毕节,美甲已经从简单的手部护理发展为表达个性的时尚方式,街边的工作室和门店也越来越多。对想系统入行的人来说,选一所教学扎实、适合自己的培训学校,是绕不开的第一步。最近我花时间了解了本地几家办学时间较长、讨论度较高的…

作者头像 李华
网站建设 2026/6/9 17:35:09

ComfyUI-Impact-Pack完整指南:快速掌握AI图像增强终极利器

ComfyUI-Impact-Pack完整指南:快速掌握AI图像增强终极利器 【免费下载链接】ComfyUI-Impact-Pack Custom nodes pack for ComfyUI This custom node helps to conveniently enhance images through Detector, Detailer, Upscaler, Pipe, and more. 项目地址: http…

作者头像 李华