news 2026/4/18 9:48:58

百度ERNIE 4.5:300B参数MoE大模型全新体验

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
百度ERNIE 4.5:300B参数MoE大模型全新体验

百度ERNIE 4.5:300B参数MoE大模型全新体验

【免费下载链接】ERNIE-4.5-300B-A47B-Base-PT项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-300B-A47B-Base-PT

百度ERNIE系列大模型迎来重大升级,正式推出采用MoE(Mixture of Experts,混合专家)架构的ERNIE 4.5,其基础模型ERNIE-4.5-300B-A47B-Base-PT以3000亿总参数规模和470亿激活参数的配置,为自然语言处理领域带来新的技术突破。

近年来,大语言模型正朝着"更大规模、更高效率、更强能力"的方向快速演进。随着参数规模从千亿向万亿级跨越,传统密集型模型面临着计算资源消耗与性能提升之间的平衡难题。MoE架构通过将模型参数分散到多个"专家"子网络中,仅在推理时激活部分专家,有效解决了这一矛盾,已成为当前大模型技术的重要发展方向。百度此次推出的ERNIE 4.5正是这一技术趋势的重要实践。

ERNIE 4.5的核心优势体现在三大技术创新上。首先是多模态异构MoE预训练技术,通过设计异构MoE结构和模态隔离路由机制,实现了文本与视觉模态的联合训练,同时采用路由正交损失和多模态 token 平衡损失,确保两种模态在训练过程中互不干扰、相互增强。这一设计使模型能够同时处理文本理解生成、图像理解和跨模态推理任务,显著提升了多模态信息处理能力。

其次是高效可扩展的基础设施。ERNIE 4.5采用异构混合并行和分层负载均衡策略,结合节点内专家并行、内存高效的流水线调度、FP8混合精度训练和细粒度重计算方法,实现了高效的预训练吞吐量。在推理方面,创新的多专家并行协作方法和卷积码量化算法,支持4位/2位无损量化,配合PD解聚与动态角色切换技术,大幅提升了MoE模型的推理性能。这些技术突破使ERNIE 4.5能够在多种硬件平台上实现高性能推理。

第三是特定模态的后训练优化。为满足实际应用需求,ERNIE 4.5针对不同模态进行了专项微调:语言模型(LLM)优化通用语言理解与生成能力,视觉语言模型(VLM)专注视觉语言理解并支持思考与非思考两种模式。通过监督微调(SFT)、直接偏好优化(DPO)以及统一偏好优化(UPO)等改进的强化学习方法,模型在各类任务上的表现得到进一步提升。

从模型配置来看,ERNIE-4.5-300B-A47B-Base作为文本MoE基础模型,具备54层网络结构,64个查询头和8个键值头,包含64个文本专家(每次激活8个)和64个视觉专家(每次激活8个),上下文长度达到131072 tokens,支持超长文本处理。值得注意的是,该基础模型仅支持文本补全功能,在评估时需使用vLLM/FastDeploy中的completionAPI而非chat_completion

在实际应用中,ERNIE 4.5提供了灵活的部署选项。开发者可通过Hugging Face的transformers库(4.54.0及以上版本)直接调用模型,也可使用vLLM(0.10.2版本,不含0.11.0)进行高效部署,支持16卡80G GPU部署或8卡FP8量化部署,满足不同场景的算力需求。

ERNIE 4.5的推出将对AI行业产生多方面影响。在技术层面,其异构MoE架构和多模态训练方法为大模型效率优化提供了新范式;在应用层面,超长上下文处理能力和多模态理解能力将推动智能客服、内容创作、数据分析等场景的体验升级;在产业层面,高效的训练和推理方案降低了大模型的应用门槛,有助于加速AI技术在各行业的落地。

随着ERNIE 4.5的开源发布(采用Apache 2.0许可证),百度不仅展示了其在大模型领域的技术实力,也为全球开发者提供了一个强大的研究和应用平台。未来,随着模型的持续优化和生态的不断完善,ERNIE 4.5有望在自然语言处理和多模态智能领域发挥更大价值,推动AI技术向更智能、更高效的方向发展。

【免费下载链接】ERNIE-4.5-300B-A47B-Base-PT项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-300B-A47B-Base-PT

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 6:43:25

从0到1:MediaPipe Hands镜像让手势识别开发简单高效

从0到1:MediaPipe Hands镜像让手势识别开发简单高效 你是否曾为实现一个高精度的手势识别功能而苦恼?模型下载失败、环境依赖复杂、推理速度慢、可视化效果差——这些问题常常让开发者在项目初期就望而却步。尤其是在没有GPU支持的边缘设备上&#xff0…

作者头像 李华
网站建设 2026/4/17 19:36:05

从0开始学手势识别:MediaPipe Hands镜像新手入门指南

从0开始学手势识别:MediaPipe Hands镜像新手入门指南 1. 学习目标与背景介绍 在人机交互日益智能化的今天,手势识别正成为连接人类动作与数字世界的桥梁。无论是虚拟现实、智能家居控制,还是无障碍辅助系统,精准的手势感知能力都…

作者头像 李华
网站建设 2026/4/18 9:44:04

亲测MediaPipe Hands镜像:彩虹骨骼效果惊艳,手势识别超简单

亲测MediaPipe Hands镜像:彩虹骨骼效果惊艳,手势识别超简单 最近在探索人机交互方向的技术实现时,偶然接触到一款名为 “AI 手势识别与追踪” 的 CSDN 星图镜像。这款镜像基于 Google 的 MediaPipe Hands 模型构建,主打高精度手部…

作者头像 李华
网站建设 2026/4/18 3:50:14

MediaPipe Pose实战:构建智能舞蹈教学系统

MediaPipe Pose实战:构建智能舞蹈教学系统 1. 引言:AI 人体骨骼关键点检测的现实价值 随着人工智能在视觉领域的深入发展,人体姿态估计(Human Pose Estimation)已成为智能健身、虚拟试衣、动作捕捉乃至人机交互等场景…

作者头像 李华
网站建设 2026/4/18 3:49:26

健身动作分析系统搭建实战:AI骨骼检测完整指南

健身动作分析系统搭建实战:AI骨骼检测完整指南 1. 引言:为什么需要AI驱动的健身动作分析? 随着智能健身设备和居家锻炼的普及,用户对动作规范性反馈的需求日益增长。传统方式依赖教练肉眼观察,主观性强且难以实时纠正…

作者头像 李华
网站建设 2026/4/18 3:50:29

AI动作捕捉优化:MediaPipe Pose低延迟方案

AI动作捕捉优化:MediaPipe Pose低延迟方案 1. 引言:实时动作捕捉的工程挑战 在虚拟现实、健身指导、动画制作和人机交互等应用场景中,实时人体姿态估计是核心技术之一。传统基于深度相机或多传感器融合的动作捕捉系统成本高、部署复杂&…

作者头像 李华