news 2026/4/18 3:34:13

SGLang X 百度百舸:以开源之力,打造先进AI Infra

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SGLang X 百度百舸:以开源之力,打造先进AI Infra


当前,Token的消耗量呈现出年均百倍增长的态势。国家数据局统计显示,截至今年6月底,我国日均Token消耗量从2024年初的1000亿,已经突破至30万亿,1年半时间增长了300多倍。

随着以DeepSeek、Ernie为代表的MoE类推理模型爆火,大规模分布式推理系统的建设成为AI落地的关键挑战。推理成本、推理效率、推理稳定性,正在取代参数规模,成为决定AI商业化上限的关键变量。

围绕这一新的行业挑战,在12月14日由百度百舸与SGLang社区联合主办的技术分享活动上,百度百舸将自己在(大模型推理)生产系统上的最新实践成果,SGLang将业界最新成果和动态,做了一次系统性分享。

百度百舸

持续开源生产级代码,

联合SGLang社区

打造先进AI Infra

在活动开场致辞中,百度智能云AI计算首席科学家王雁鹏明确表示:百度百舸正在将生产级代码持续开源到开源社区。百度在大规模生产环境中积累的大模型训推系统的各种能力,包括经过大规模系统打磨过的高度稳定的、高度优化的各种核心组件,都将逐一向行业分享。

同时,王雁鹏强调,开源并非一时的决定,而是百度坚信的技术方向和演进路径。未来,百度会持续联合各个社区,以开源的力量推动行业共同成长。

百度智能云AI计算首席科学家王雁鹏

作为大模型时代崛起的重要开源项目之一的SGLang,百度智能云10月份携手SGLang社区,将一套针对DeepSeek-V3.2推理性能优化的MTP(Multi-Token Prediction,多token预测)技术代码正式开源。SGLang社区表示这是一项巨大的贡献,社区实测显示,采用这套技术,DeepSeek-V3.2模型解码吞吐量能提升超过2倍。

在王雁鹏看来,推理引擎正变得越来越重要。智能经济时代,推理引擎消耗的算力,将成为最核心的生产资料。如果推理成本做不到足够低,身处大模型产业链上的玩家,就将失去竞争力,难以获取Scaling的效益。

在本次Meetup中,百度百舸团队围绕如何建设大规模分布式推理基础设施、DeepSeek-V3.2推理引擎等方面展开了系统性分享。

百度主任架构师田健重点介绍了百度百舸在大规模分布式推理集群基础设施上的实践。

随着大模型到达千亿、万亿规模的时代,其推理的部署也遇到了“不可能三角”的挑战,需要在模型规模指数级增长、部署效率与稳定性和资源成本与弹性之间,寻求新的平衡。

百度百舸新一代大规模分布式推理基础设施,以三大核心支柱破解大模型部署困局:通过自动化编排将分布式实例“原子化”,大幅简化跨节点管理复杂度;创新“静默实例”技术实现秒级资源激活,灵活应对潮汐流量;依托高性能流量调度与“班车调度”算法,极致压榨集群性能。

百度高级架构师刘伟分享了百度百舸基于万卡级生产系统实战经验,面向DeepSeek-V3.2在推理引擎层面做的深度优化工作:通过轻量级CP让长文本推理的TTFT近乎线性降低,更创新研发ESS系统破解长文本推理的显存墙困境。

面对DeepSeek-V3等MoE模型部署中FFN计算密度不足、GPU利用率低的痛点,百度高级工程师刘国维带来了百度百舸在DeepSeek-V3系列模型上的AE分离框架实战,展示了在复杂并行与分离架构下,百度百舸如何在性能、稳定性与运维复杂度之间取得工程平衡。

SGLang社区:

推理框架的边界

正在被不断拓展

来自SGLang社区的5位开发者分享了4个业内最新进展,展现了SGLang社区在行业最前沿的动态。

SGLang核心开发者张懿带来了SGLang在Linear Model优化与Diffusion支持上的最新进展。

随着长序列推理场景等的普及,传统KV Cache管理方式面临挑战。SGLang在内存管理、投机推理适配等方面进行了大量工程优化,使推理框架能够更好地适配新一代模型结构。

在此基础上,面向DeepSeek等主流模型所指向的统一模型技术迭代路线,SGLang也在尝试从语言模型走向统一生成引擎。11月上线的SGLang Diffusion,便对外释放了一个强烈信号,即SGLang的目标并不是一个LLM引擎,而是统一推理执行层。

来自SGLang Diffusion Team的范舒翼、陈茜,系统介绍了面向图像与视频生成的高性能推理引擎SGLang Diffusion。在图像与视频生成场景中,SGLang Diffusion通过Pipeline组合、并行策略与Kernel复用,将Diffusion推理性能整体拉升到Diffusers的2–6倍区间,为未来DeepSeek等“理解+生成”统一模型的问世,预留了系统优化空间。

在推理加速方向,SGLang开发者李升桂带来了SpecForge项目,解决了投机推理在真实系统中落地难、稳定性差的问题,让这一理论上成熟的方法,真正具备工程可用性。

同时,来自SGLang RL Team成员李冀,也展示了SGLang在强化学习场景下的最新进展,进一步拓展了推理框架的适用边界。

随着大模型发展重心从训练范式加速转向推理范式,Token消耗需求呈现出远超以往的增长曲线。百度将持续联合开源社区,打造行业领先的AI Infra,不断逼近推理系统的上限,持续满足行业对Token消耗年增百倍的诉求。

广东省交通集团🤝百度智能云:公路数转创新加速

点击“阅读原文”,立即合作咨询!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 11:55:31

Langchain-Chatchat问答系统灰度期间服务熔断策略

Langchain-Chatchat问答系统灰度期间服务熔断策略 在企业级智能问答系统的落地实践中,一个常见的矛盾日益凸显:我们既希望大模型具备强大的语义理解与生成能力,又必须面对本地部署环境下硬件资源有限、服务响应不稳定等现实挑战。尤其是在系统…

作者头像 李华
网站建设 2026/4/18 9:45:11

学术写作新范式:书匠策AI如何重塑本科硕士论文创作生态?

在学术研究的浩瀚星空中,本科与硕士论文的撰写如同一次次精心策划的星际航行,既需要精准的导航,也离不开强大的动力支持。然而,面对海量的学术资源、复杂的逻辑框架构建以及严格的格式规范,许多学子常常感到力不从心。…

作者头像 李华
网站建设 2026/4/18 8:03:05

Node.js 2025 封神之战:原生 TS 落地,Express 5.1 回归,这一年太精彩!

2025 年对 Node.js 来说,绝对是“封神”的一年。如果说过去几年 Node.js 只是在稳步小跑,那么今年简直就是开了“加速器”。从年初的原生 TypeScript 支持,到沉寂多年的 Express 和 Koa 突然“诈尸”更新,再到 npm 生态经历的安全…

作者头像 李华
网站建设 2026/4/18 7:59:21

Langchain-Chatchat结合Zabbix实现基础设施监控

Langchain-Chatchat结合Zabbix实现基础设施监控 在企业IT环境日益复杂的今天,运维团队每天面对成百上千条告警、分散的知识文档和不断更替的技术人员。一个常见的场景是:深夜收到一条“Zabbix触发磁盘空间不足”的通知,值班工程师需要登录系统…

作者头像 李华
网站建设 2026/4/18 3:33:56

Unite.vim:打造Vim全能搜索中心的终极指南

Unite.vim:打造Vim全能搜索中心的终极指南 【免费下载链接】unite.vim :dragon: Unite and create user interfaces 项目地址: https://gitcode.com/gh_mirrors/un/unite.vim Unite.vim是Vim编辑器中的一款革命性插件,它将分散的文件搜索、缓冲区…

作者头像 李华
网站建设 2026/4/18 3:35:29

Springboot小区疫情事件处理系统65d63(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。

系统程序文件列表项目功能:区域信息,居民,工作人员,在线举报,体温登记,区域疫情,访客申请,外出申请,进入申请,居家隔离,住宅分配,公告信息开题报告内容一、研究背景与意义1.1 研究背景自2019年底新型冠状病毒(COVID-19)爆发以来,全…

作者头像 李华

关于博客

这是一个专注于编程技术分享的极简博客,旨在为开发者提供高质量的技术文章和教程。

订阅更新

输入您的邮箱,获取最新文章更新。

© 2025 极简编程博客. 保留所有权利.