news 2026/4/18 10:51:08

GLM-4.5-Air-FP8开源:1060亿参数智能体基座高效登场

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GLM-4.5-Air-FP8开源:1060亿参数智能体基座高效登场

GLM-4.5-Air-FP8开源:1060亿参数智能体基座高效登场

【免费下载链接】GLM-4.5-Air-FP8GLM-4.5系列模型是专为智能体设计的基座模型。GLM-4.5拥有3550亿总参数和320亿活跃参数,而GLM-4.5-Air采用更紧凑的设计,总参数为1060亿,活跃参数为120亿。GLM-4.5模型统一了推理、编程和智能体能力,以满足智能体应用的复杂需求。项目地址: https://ai.gitcode.com/zai-org/GLM-4.5-Air-FP8

导语:Zhipu AI正式开源GLM-4.5-Air-FP8模型,以1060亿总参数、120亿活跃参数的紧凑设计,结合FP8量化技术,在保持高性能的同时显著降低部署门槛,为智能体应用开发提供新选择。

行业现状:智能体(Agent)已成为大语言模型应用的重要发展方向,其需要模型具备推理决策、工具使用和持续学习等综合能力。当前行业面临两难:高性能模型通常参数规模庞大、部署成本高昂,而轻量级模型又难以满足复杂任务需求。据行业报告显示,超过60%的企业在智能体开发中面临计算资源瓶颈,如何在性能与效率间取得平衡成为关键挑战。

模型亮点

  1. 混合架构设计:GLM-4.5-Air采用1060亿总参数与120亿活跃参数的MoE(混合专家)架构,在保持模型能力的同时优化计算效率。相比同级别模型,其推理速度提升约40%,特别适合需要快速响应的智能体场景。

  2. FP8量化技术突破:作为开源的FP8版本,该模型将存储需求降低50%以上,同时通过优化的量化算法将精度损失控制在可接受范围。在标准 benchmarks 测试中,GLM-4.5-Air-FP8取得59.8分的成绩,仅比BF16版本低约3%,但硬件需求大幅降低。

  3. 双推理模式:创新支持"思考模式"和"非思考模式"切换。前者适用于复杂推理与工具调用场景,通过内部思维链提升任务完成质量;后者针对简单问答需求,以更快速度生成响应,满足不同智能体应用场景的灵活需求。

  4. 开源生态支持:基于MIT许可开源,可商用且支持二次开发。已集成至transformers、vLLM和SGLang等主流框架,开发者可通过简单配置实现部署,最低仅需2张H100显卡即可运行基础功能。

行业影响:GLM-4.5-Air-FP8的开源有望加速智能体技术的普及应用。对企业而言,其高效部署特性可将智能体开发成本降低30%-50%;对开发者生态,统一的推理与工具使用接口将简化智能体构建流程。值得注意的是,该模型在代码生成、逻辑推理等关键能力上表现突出,可能推动金融分析、智能运维等专业领域的自动化应用落地。

结论/前瞻:随着GLM-4.5-Air-FP8的开源,大语言模型正从"参数竞赛"转向"效率优化"新阶段。这种兼顾性能与部署成本的设计思路,或将成为智能体基座的主流发展方向。未来,随着硬件优化与量化技术的进一步成熟,千亿级参数模型有望在更广泛的边缘设备上应用,推动智能体从实验室走向实际生产环境。

【免费下载链接】GLM-4.5-Air-FP8GLM-4.5系列模型是专为智能体设计的基座模型。GLM-4.5拥有3550亿总参数和320亿活跃参数,而GLM-4.5-Air采用更紧凑的设计,总参数为1060亿,活跃参数为120亿。GLM-4.5模型统一了推理、编程和智能体能力,以满足智能体应用的复杂需求。项目地址: https://ai.gitcode.com/zai-org/GLM-4.5-Air-FP8

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 13:42:40

腾讯开源Hunyuan-7B:256K上下文智能体部署新体验

腾讯开源Hunyuan-7B:256K上下文智能体部署新体验 【免费下载链接】Hunyuan-7B-Instruct-GPTQ-Int4 腾讯开源Hunyuan-7B-Instruct-GPTQ-Int4大语言模型,支持混合推理模式与256K超长上下文,优化智能体任务性能,采用GQA与多量化格式实…

作者头像 李华
网站建设 2026/4/18 8:38:59

想给客户做卡通形象?这个工具效率翻倍

想给客户做卡通形象?这个工具效率翻倍 你有没有遇到过这样的情况:客户想要一个专属卡通形象,但找画师成本高、周期长,沟通反复修改又耗时耗力?现在,AI 技术正在悄悄改变这一现状。借助“unet person image…

作者头像 李华
网站建设 2026/4/18 8:15:34

MGeo模型推理耗时分析:瓶颈定位与加速建议

MGeo模型推理耗时分析:瓶颈定位与加速建议 MGeo 是阿里开源的一款专注于中文地址领域实体对齐的语义匹配模型,能够高效判断两个地址是否指向同一地理位置。该模型在真实业务场景中表现出色,尤其适用于电商、物流、地图服务等需要高精度地址去…

作者头像 李华
网站建设 2026/4/18 7:48:33

重大更新!NHANES 预测模型功能上新,这次我们解决了多模型比较的难题

又又又更新啦!大家期待已久的功能再升级——浙中医药大学郑卫军老师团队打造的 NHANES 一站式平台,本次上线了 预测模型 多模型比较模块!本次更新支持在同一数据集下并行构建多个预测模型并进行性能对比:可将多个模型的 ROC 曲线…

作者头像 李华
网站建设 2026/4/18 0:40:12

百度网盘免登录高速下载终极指南:告别繁琐流程的全新体验

百度网盘免登录高速下载终极指南:告别繁琐流程的全新体验 【免费下载链接】baiduwp-php A tool to get the download link of the Baidu netdisk / 一个获取百度网盘分享链接下载地址的工具 项目地址: https://gitcode.com/gh_mirrors/ba/baiduwp-php 还在为…

作者头像 李华
网站建设 2026/4/18 8:37:30

GLM-Z1-9B:90亿参数轻量模型性能开源新王者

GLM-Z1-9B:90亿参数轻量模型性能开源新王者 【免费下载链接】GLM-4-9B-0414 项目地址: https://ai.gitcode.com/zai-org/GLM-4-9B-0414 导语:GLM-Z1-9B凭借90亿参数在开源轻量模型领域实现性能突破,重新定义中小模型的效率与能力边界…

作者头像 李华