news 2026/5/9 22:08:20

SothisAI 是曙光给超算/智算中心用的「AI 任务管理+算力调度平台

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SothisAI 是曙光给超算/智算中心用的「AI 任务管理+算力调度平台

SothisAI 是曙光给超算/智算中心用的「AI 任务管理+算力调度平台」,你在超算上跑深度学习、大模型训练,基本都是它在背后管资源、排任务、发环境。

下面按你的场景(超算 + 大模型/LoRA 训练)用大白话讲清楚:


1. SothisAI 是什么?

  • 中科曙光自研的一站式 AI 算力管理平台(类似超算上的“AI 操作系统”)
  • 核心是把一堆 GPU/DCU 集群,做成多用户共享、任务排队、自动调度、环境隔离的平台
  • 底层用Slurm + K8s双调度,容器化,支持 PyTorch/TensorFlow 等

2. 对你来说,它主要干 4 件事

① 管资源:你不用管哪台机器、哪张卡

  • 超算很多节点(几十/几百台),每台多卡
  • SothisAI 统一调度,你只需要提需求:我要几卡、跑多久、用什么镜像
  • 它自动找空闲节点,给你分配,节点之间不用你管通信(你之前“服务器不能互相通讯”是正常的,它就是这么设计的)

② 给环境:一键拿到装好 PyTorch/Transformer 的容器

  • 不用自己装驱动、CUDA、框架、依赖
  • 平台预装好各种镜像,你直接启动 Jupyter/SSH 就能用

③ 排任务:超算人多,按优先级排队,防止大家抢卡

  • 你提交训练任务 → 进入队列 → 有空资源自动跑
  • 最大运行时间限制(比如 24h/48h/72h),到时间会被系统停掉(你之前 50h 崩就是这个原因,不是步数问题)

④ 监控+日志:看显存、利用率、报错

  • 网页界面看:每张卡利用率、显存、loss 曲线
  • 日志集中收集,不用去节点上找 log

3. 和你训练直接相关的关键点(非常重要)

✅ 你这种“离线独立训 LoRA + 事后合并”

  • 完全不需要节点之间通信
  • 每个分片步数可以不一样(5000/6000 没问题)
  • 崩溃原因是:单任务跑太久(>48h)被 SothisAI 调度系统杀了,和步数是否统一无关

✅ SothisAI 不要求“所有任务步数一致”

  • 它只管:给你分配资源、到时间杀任务、隔离环境
  • 不管:你跑多少步、loss 多少、是否同步

4. 一句话总结(你记这句就行)

SothisAI 是超算的「AI 大管家」:帮你分 GPU、给环境、排任务、控时间;你各节点独立训 LoRA,步数不用对齐,崩是因为跑太久超时,不是它要求步数一致。


要不要我帮你按14.79s/it和你超算的最大时长限制,给每个分片单独算一个安全的max_steps,避免超时被 SothisAI 杀掉?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 22:07:06

途游游戏AI产品经理面试题精选:10道高频考题+答案解析

途游游戏简介途游游戏(Tuyoo Games)成立于2013年,是中国领先的互动娱乐供应商,全球服务用户超过十亿,日活跃用户近500万。公司以策略、休闲双产品线为核心,代表产品包括《捕鱼大作战》等,长期位…

作者头像 李华
网站建设 2026/5/9 22:02:43

别再只信耳朵了!聊聊PESQ、POLQA这些音频质量“打分器”怎么用

音频质量评估实战指南:从PESQ到POLQA的工程化选择 在音视频开发领域,我们常常陷入一个困境:当优化编解码器参数或调整网络传输策略时,仅凭耳朵判断音质优劣既不可靠也难以规模化。上周团队就遇到一个典型案例——在对比三种语音编…

作者头像 李华
网站建设 2026/5/9 22:00:38

超声波攻击与语音LLM安全防护技术解析

1. 语音驱动LLM的无声超声波攻击原理剖析 1.1 麦克风非线性效应:攻击的物理基础 现代麦克风在设计时为了优化人耳可听频段(20Hz-20kHz)的拾音性能,会引入不可避免的非线性特性。当声波频率接近或超过20kHz时,麦克风前…

作者头像 李华
网站建设 2026/5/9 21:53:18

ATOMMIC:构建医学影像AI统一评估框架,破解模型性能可比性难题

1. 项目概述:为什么我们需要一个统一的医学影像评估框架?在医学影像AI领域,我们正处在一个“模型爆炸”的时代。每天都有新的深度学习模型被提出,声称在特定任务上达到了“SOTA”(State-of-the-art)性能。作…

作者头像 李华
网站建设 2026/5/9 21:53:16

告别hid_open默认端口!在QT中精准控制HID USB多接口设备的完整流程

告别hid_open默认端口!在QT中精准控制HID USB多接口设备的完整流程 当你的QT应用需要同时处理一个HID USB设备的键盘输入和自定义控制功能时,传统的hid_open方式往往会让你陷入接口混乱的困境。本文将带你深入HIDAPI的核心机制,掌握多接口设…

作者头像 李华