GLM-4.5-Air-FP8开源：轻量智能体基座高效部署指南-程序员充电站

GLM-4.5-Air-FP8开源：轻量智能体基座高效部署指南

【免费下载链接】GLM-4.5-Air-FP8GLM-4.5系列模型是专为智能体设计的基座模型。GLM-4.5拥有3550亿总参数和320亿活跃参数，而GLM-4.5-Air采用更紧凑的设计，总参数为1060亿，活跃参数为120亿。GLM-4.5模型统一了推理、编程和智能体能力，以满足智能体应用的复杂需求。项目地址: https://ai.gitcode.com/zai-org/GLM-4.5-Air-FP8

导语

智谱AI近日宣布开源GLM-4.5-Air-FP8模型，这是一款针对智能体(Agent)应用优化的轻量级基座模型，以1060亿总参数和120亿活跃参数的紧凑设计，结合FP8量化技术，显著降低了高性能大模型的部署门槛。

行业现状

随着大语言模型技术的快速发展，智能体应用已成为AI领域的重要发展方向。然而，传统大模型往往面临参数规模庞大、部署成本高昂、推理效率不足等问题，限制了其在实际场景中的广泛应用。根据行业调研，超过60%的企业在部署大模型时面临硬件资源不足的挑战，而模型效率与性能的平衡成为开发者的核心诉求。近期，FP8量化技术凭借其在精度与效率间的出色平衡，逐渐成为大模型部署的主流选择。

产品/模型亮点

1. 专为智能体设计的混合推理架构

GLM-4.5-Air-FP8作为GLM-4.5系列的轻量版本，采用了创新的混合推理模式，提供"思考模式"和"非思考模式"两种运行状态。前者适用于复杂推理和工具使用场景，后者则针对即时响应需求优化，这种灵活切换机制使模型能根据任务复杂度动态调整计算资源消耗。

2. FP8量化带来的部署优势

相比传统BF16精度，FP8版本在保持59.8分综合性能（12项行业标准基准测试）的同时，显著降低了显存占用和计算需求。根据官方数据，GLM-4.5-Air-FP8仅需2张H100或1张H200 GPU即可实现基本推理，而完整支持128K上下文长度也仅需4张H100或2张H200 GPU，硬件门槛降低约50%。

3. 多框架支持与便捷部署

模型提供了对主流推理框架的全面支持，包括Hugging Face Transformers、vLLM和SGLang。开发者可通过简单命令快速启动服务，例如使用SGLang部署FP8版本仅需指定模型路径和张量并行大小等关键参数，极大简化了部署流程。

4. 商业友好的开源许可

GLM-4.5-Air-FP8采用MIT开源许可，允许商业使用和二次开发，为企业级应用提供了灵活的集成选项。同时提供的基础模型、混合推理模型等多个版本，满足不同场景的需求。

行业影响

GLM-4.5-Air-FP8的开源将加速智能体技术的普及应用。对于中小企业和开发者而言，这一轻量级高效模型显著降低了智能体开发的技术门槛和硬件成本；对于行业生态，FP8量化技术的成熟应用可能推动更多模型采用类似优化策略，形成高效部署的行业标准；在垂直领域，该模型在推理、编程和智能体能力的统一，有望催生更多创新应用，特别是在自动化办公、智能客服和代码辅助等场景。

结论/前瞻

GLM-4.5-Air-FP8的开源标志着大模型技术向高效化、实用化迈出重要一步。通过平衡性能与效率，结合灵活的部署选项和商业友好的许可策略，该模型为智能体应用的规模化落地提供了新的可能性。未来，随着硬件支持的完善和优化技术的进步，轻量级智能体基座模型有望成为企业级AI应用的主流选择，推动人工智能从实验室走向更广泛的产业实践。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考