百度ERNIE 4.5：300B参数MoE大模型全新体验-程序员充电站

百度ERNIE 4.5：300B参数MoE大模型全新体验

【免费下载链接】ERNIE-4.5-300B-A47B-Base-PT项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-300B-A47B-Base-PT

百度ERNIE系列大模型迎来重大升级，正式推出采用MoE（Mixture of Experts，混合专家）架构的ERNIE 4.5，其基础模型ERNIE-4.5-300B-A47B-Base-PT以3000亿总参数规模和470亿激活参数的配置，为自然语言处理领域带来新的技术突破。

近年来，大语言模型正朝着"更大规模、更高效率、更强能力"的方向快速演进。随着参数规模从千亿向万亿级跨越，传统密集型模型面临着计算资源消耗与性能提升之间的平衡难题。MoE架构通过将模型参数分散到多个"专家"子网络中，仅在推理时激活部分专家，有效解决了这一矛盾，已成为当前大模型技术的重要发展方向。百度此次推出的ERNIE 4.5正是这一技术趋势的重要实践。

ERNIE 4.5的核心优势体现在三大技术创新上。首先是多模态异构MoE预训练技术，通过设计异构MoE结构和模态隔离路由机制，实现了文本与视觉模态的联合训练，同时采用路由正交损失和多模态 token 平衡损失，确保两种模态在训练过程中互不干扰、相互增强。这一设计使模型能够同时处理文本理解生成、图像理解和跨模态推理任务，显著提升了多模态信息处理能力。

其次是高效可扩展的基础设施。ERNIE 4.5采用异构混合并行和分层负载均衡策略，结合节点内专家并行、内存高效的流水线调度、FP8混合精度训练和细粒度重计算方法，实现了高效的预训练吞吐量。在推理方面，创新的多专家并行协作方法和卷积码量化算法，支持4位/2位无损量化，配合PD解聚与动态角色切换技术，大幅提升了MoE模型的推理性能。这些技术突破使ERNIE 4.5能够在多种硬件平台上实现高性能推理。

第三是特定模态的后训练优化。为满足实际应用需求，ERNIE 4.5针对不同模态进行了专项微调：语言模型（LLM）优化通用语言理解与生成能力，视觉语言模型（VLM）专注视觉语言理解并支持思考与非思考两种模式。通过监督微调（SFT）、直接偏好优化（DPO）以及统一偏好优化（UPO）等改进的强化学习方法，模型在各类任务上的表现得到进一步提升。

从模型配置来看，ERNIE-4.5-300B-A47B-Base作为文本MoE基础模型，具备54层网络结构，64个查询头和8个键值头，包含64个文本专家（每次激活8个）和64个视觉专家（每次激活8个），上下文长度达到131072 tokens，支持超长文本处理。值得注意的是，该基础模型仅支持文本补全功能，在评估时需使用vLLM/FastDeploy中的completionAPI而非chat_completion。

在实际应用中，ERNIE 4.5提供了灵活的部署选项。开发者可通过Hugging Face的transformers库（4.54.0及以上版本）直接调用模型，也可使用vLLM（0.10.2版本，不含0.11.0）进行高效部署，支持16卡80G GPU部署或8卡FP8量化部署，满足不同场景的算力需求。

ERNIE 4.5的推出将对AI行业产生多方面影响。在技术层面，其异构MoE架构和多模态训练方法为大模型效率优化提供了新范式；在应用层面，超长上下文处理能力和多模态理解能力将推动智能客服、内容创作、数据分析等场景的体验升级；在产业层面，高效的训练和推理方案降低了大模型的应用门槛，有助于加速AI技术在各行业的落地。

随着ERNIE 4.5的开源发布（采用Apache 2.0许可证），百度不仅展示了其在大模型领域的技术实力，也为全球开发者提供了一个强大的研究和应用平台。未来，随着模型的持续优化和生态的不断完善，ERNIE 4.5有望在自然语言处理和多模态智能领域发挥更大价值，推动AI技术向更智能、更高效的方向发展。

【免费下载链接】ERNIE-4.5-300B-A47B-Base-PT项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-300B-A47B-Base-PT

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

从0到1：MediaPipe Hands镜像让手势识别开发简单高效

从0到1：MediaPipe Hands镜像让手势识别开发简单高效你是否曾为实现一个高精度的手势识别功能而苦恼？模型下载失败、环境依赖复杂、推理速度慢、可视化效果差——这些问题常常让开发者在项目初期就望而却步。尤其是在没有GPU支持的边缘设备上&#xff0…

李华

从0开始学手势识别：MediaPipe Hands镜像新手入门指南

从0开始学手势识别：MediaPipe Hands镜像新手入门指南 1. 学习目标与背景介绍在人机交互日益智能化的今天，手势识别正成为连接人类动作与数字世界的桥梁。无论是虚拟现实、智能家居控制，还是无障碍辅助系统，精准的手势感知能力都…

李华

亲测MediaPipe Hands镜像：彩虹骨骼效果惊艳，手势识别超简单

亲测MediaPipe Hands镜像：彩虹骨骼效果惊艳，手势识别超简单最近在探索人机交互方向的技术实现时，偶然接触到一款名为 “AI 手势识别与追踪” 的 CSDN 星图镜像。这款镜像基于 Google 的 MediaPipe Hands 模型构建，主打高精度手部…

李华

MediaPipe Pose实战：构建智能舞蹈教学系统

MediaPipe Pose实战：构建智能舞蹈教学系统 1. 引言：AI 人体骨骼关键点检测的现实价值随着人工智能在视觉领域的深入发展，人体姿态估计（Human Pose Estimation）已成为智能健身、虚拟试衣、动作捕捉乃至人机交互等场景…

李华

健身动作分析系统搭建实战：AI骨骼检测完整指南

健身动作分析系统搭建实战：AI骨骼检测完整指南 1. 引言：为什么需要AI驱动的健身动作分析？ 随着智能健身设备和居家锻炼的普及，用户对动作规范性反馈的需求日益增长。传统方式依赖教练肉眼观察，主观性强且难以实时纠正…

李华

AI动作捕捉优化：MediaPipe Pose低延迟方案

AI动作捕捉优化：MediaPipe Pose低延迟方案 1. 引言：实时动作捕捉的工程挑战在虚拟现实、健身指导、动画制作和人机交互等应用场景中，实时人体姿态估计是核心技术之一。传统基于深度相机或多传感器融合的动作捕捉系统成本高、部署复杂&…

李华