news 2026/5/16 8:38:34

常用的大语言模型有什么

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
常用的大语言模型有什么

目前常用的大语言模型(Large Language Models, LLMs)主要包括以下几类,涵盖开源与闭源、学术与商业用途的代表性模型:


1.OpenAI 系列

  • GPT-3 / GPT-3.5:广泛用于 ChatGPT(免费版)等应用。
  • GPT-4 / GPT-4 Turbo:性能更强,支持多模态(如 GPT-4V),上下文窗口更大(最高达 128K tokens)。
  • GPT-4o(2024年发布):更快、更便宜,支持实时语音和视觉交互。

注:OpenAI 模型为闭源,通过 API 或 ChatGPT 使用。


2.Anthropic 系列(Claude)

  • Claude 2 / Claude 2.1:强调安全性和长上下文(支持 200K tokens)。
  • Claude 3 系列(2024年发布):
    • Claude 3 Haiku(轻量快速)
    • Claude 3 Sonnet(平衡性能与成本)
    • Claude 3 Opus(最强性能,对标 GPT-4)

支持多模态(如图像理解),部分版本可通过 API 使用。


3.Google 系列(Gemini / PaLM)

  • PaLM / PaLM 2:Google 早期大模型,用于 Bard(现升级为 Gemini)。
  • Gemini 系列(2023年底发布):
    • Gemini Nano(设备端运行)
    • Gemini Pro(通用用途,API 可用)
    • Gemini Ultra(最强版本,对标 GPT-4)

Gemini 原生支持多模态,整合进 Google Workspace 和 Android。


4.Meta(Facebook)系列(Llama)——开源代表

  • Llama(2023年7月):开源,需申请许可。
  • Llama 2:可商用(部分限制),性能接近 GPT-3.5。
  • Llama 3(2024年4月发布):
    • 支持 8B 和 70B 参数版本
    • 上下文长度达 8K tokens
    • 性能显著提升,接近 Claude 3 Sonnet / GPT-3.5+
  • Llama 3.1 / 3.2(2024年下半年及2025年陆续发布):进一步优化推理、多语言和工具调用能力。

Llama 系列是当前最流行的开源基础模型,广泛用于微调和本地部署。


5.Mistral AI(法国)—— 高效开源模型

  • Mistral 7B:小而强,性能优于 Llama 2 13B。
  • Mixtral 8x7B:稀疏 MoE(Mixture of Experts)架构,效果接近 GPT-3.5。
  • Mistral Large(闭源):对标 GPT-4,支持多语言。
  • Mistral Small / Medium:面向不同应用场景的商用模型。

Mistral 模型以高性价比和推理效率著称,支持商业使用。


6.中国主流大模型

  • 通义千问(Qwen)(阿里云):
    • Qwen-1.5 / Qwen2 / Qwen2.5 / Qwen3(持续迭代)
    • 开源版本(如 Qwen-Max、Qwen-Plus、Qwen-Turbo)覆盖不同场景
    • 支持多模态(Qwen-VL)、代码(Qwen-Coder)、数学(Qwen-Math)
  • DeepSeek(深度求索)
    • DeepSeek-V2 / V3,支持 MoE 架构
    • DeepSeek-Coder 系列在代码任务上表现优异
  • GLM 系列(智谱 AI):
    • GLM-4(2024年发布),支持多模态和 Agent 能力
    • 开源 GLM-3、GLM-Edge 等
  • Moonshot(月之暗面)
    • 支持超长上下文(最高 128K–256K tokens)
  • 百川智能(Baichuan)
    • Baichuan2-7B/13B,开源可商用

7.其他值得关注的模型

  • Command系列(Cohere):面向企业 NLP 任务。
  • Phi 系列(Microsoft):小型但高效,适合边缘设备(如 Phi-3-mini 仅 3.8B 参数,性能媲美 Llama 2 7B)。
  • Yi 系列(零一万物):Yi-34B 在多个基准测试中表现优异。

选择建议:

  • 想本地部署/微调→ 选Llama 3QwenMistral等开源模型。
  • 追求最强性能→ 用GPT-4oClaude 3 OpusGemini Ultra
  • 注重中文能力QwenGLM-4DeepSeek表现优秀。
  • 低成本/高效率Mistral 7BPhi-3Claude 3 Haiku
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/14 10:19:45

遵循 “选型-规划-规范安装-严格验证” 全协议读卡器模块支持多种卡片类型(EM/Mifare/CPU卡等)和输出协议(RS485/韦根等),适用于梯控、门禁等场景。故障排查应优先检测电源和通讯状态。

前言:全协议读卡器模块支持多种卡片类型(EM/Mifare/CPU卡等)和输出协议(RS485/韦根等),适用于梯控、门禁等场景。关键使用要点包括:采用屏蔽线缆(RVVP40.5mm)、保持与干扰…

作者头像 李华
网站建设 2026/4/23 15:28:13

6 种方式读取 Springboot 的配置,老鸟都这么玩(原理+实战)

从配置文件中获取属性应该是SpringBoot开发中最为常用的功能之一,但就是这么常用的功能,仍然有很多开发者在这个方面踩坑。 我整理了几种获取配置属性的方式,目的不仅是要让大家学会如何使用,更重要的是弄清配置加载、读取的底层…

作者头像 李华
网站建设 2026/5/12 21:27:54

Unity3D 智慧城市管理平台

基于 Unity3D 引擎开发智慧城市数据可视化大屏,涵盖人口、环境、能源、交通、医疗和财政六大模块,通过 SQL Server 实现数据读写与实时更新,支持日期、时间、天气等信息展示,并提供第一人称漫游和 3D POI 交互功能。 Unity3D 智慧…

作者头像 李华
网站建设 2026/5/4 16:28:01

平衡二叉搜索树:AVL树和红黑树

AVL 树 简介 avl树是一种平衡二叉树,通过“平衡因子”来实现左右两侧高度差的平衡,只允许平衡因子取值为0、1、-1,相对于红黑树,avl树更接近“绝对平衡”,但是对于旋转子树的处理要相对繁琐一些 插入方法 如果正好…

作者头像 李华
网站建设 2026/5/2 1:42:50

2026年基因数据开发者防讼攻略:软件测试从业者专业指南

一、内容热度解析:软件测试从业者的关注焦点 2026年软件测试公众号的热点内容高度专业化,聚焦AI工具评测、实战案例与合规优化,这些主题阅读量平均提升35%以上,且分享率超行业均值40%。热度最高类型包括: AI与自动化测…

作者头像 李华
网站建设 2026/5/14 13:10:04

AI应用架构师经验谈:半导体研究智能体系统容错设计

AI应用架构师经验谈:半导体研究智能体系统容错设计 引言:半导体研究的“容错刚需” 在晶圆制造车间,一片8英寸晶圆的成本约为3-5万美元,而一道蚀刻工艺的失败,可能让整批晶圆报废。传统半导体研究依赖工程师经验调整…

作者头像 李华