保姆级教程：大模型的数据单元Token是什么？3分钟极速入门LLM基础（非常详细），建议收藏！-程序员充电站

随着大模型的兴起，大模型的其中一个核心概念，同时也是Deepseek、豆包、Chatgpt等大模型的计费单位——“Token”，本文将以通俗易懂的语言讲解Token的具体含义及重要性。

1. 什么是 Token

我在[3分钟学习大模型（LLM）基础 - 1 | 大语言模型是什么]文中提到“大模型（LLM）的本质是一个庞大数学公式”。而数学公式只认数字，其本身无法处理中文、英文、图像视频等输入信息。

大模型之所以能够理解和响应人类语言，是因为将文字、图像等信息传入数学公式前的一个特殊步骤——拆分（Tokenization，又称“Token化”）。

以文本为例，当文本传给大模型时，大模型会先拿一把“剪刀”，把输入的文字切成一个个小碎片，然后给每个碎片编上一个数字号码。最终进入大模型数学公式的，其实是这些数字号码。而这些数字号码代表的碎片，即大模型处理人类输入的数据单元，就是Token。

如图所示，输入文本“Artificial Intelligence”时，大模型将文本拆分和编号。

2. Token能与中文或英文换算吗？

前面提到Token常作为大模型的计费单位使用。事实上，目前市面上几乎所有的大模型（国内的Deepseek、豆包；国外的Chatgpt、Gemini等）都是以Token为单位收费，而不是以使用次数或者输入的中文/英文字数。

因此，有一个很多关注费用的人很想知道的问题：1个中文汉字/英文单词/图像/视频需要多少Token呢？

很遗憾，答案是不确定。由于“拆分”过程的策略是由大模型的开发者指定，不同大模型的拆分策略往往存在差异。此外，不同的使用情境也会导致Token对应人类文本的大小变化。

这里只能提供一个粗略参考数值，具体Token花费以大模型结算结果为准：

英文文本：平均而言，1 个 Token 约等于 0.75 个英文单词。
中文文本：1个Token近似于一个中文汉字（中文字符）。
图片/视频：受分辨率、视频时长等因素影响较大，难以估算。

3. Token的重要性

了解Token 的定义和原理，对我们日常使用大模型有重大的指导和优化效果。

💰 第一：Token的使用经济学
由于大量的大模型使用Token作为计费单位，输入大模型的废话越多，Token消耗的越多，用户花费的钱也会增加。

因此，对任务清晰的认知可以减少与大模型的讨论和互动；简明扼要的表达（提示词）可以减少输入字数。这些都是让大模型使用节省Token，同时节省用户钱包的方式。

🧠 第二：Token的数量限制
每个大模型都有一个“上下文窗口”（Context Window），也就是单次请求能够处理的最大Token数量。一旦对话长度超出限制，大模型会自动丢弃较早的Token，导致上下文的缺失。

可以通过适当对长文档进行总结、及时新建对话窗口等方式确保大模型能保留关键信息，保证大模型的效能。

🔧第三：AI开发者的Token拆分选择

对大模型的开发者而言，Token拆分策略的选择对大模型的准确率、成本、可扩展性等影响巨大。

如何结合使用情境，在性能与成本间作出取舍和兼顾，选择最合适的Token拆分策略，是创造大模型的一大关键。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

九头蛇 Hydra 工具使用详解：登录爆破神器指南，从新手到精通，看这篇就够！