AIGC大语言模型之词元和嵌入向量-程序员充电站

AIGC大语言模型之词元和嵌入向量

AIGC大语言模型之词元和嵌入向量
前言
总结

前言

词元和嵌入向量是人工智能生成内容（AIGC）中使用LLM的两个核心概念。

一、LLM的分词

1、分词器

是在模型处理文本之前，分词器会将文本分解成词或者子词。这个是根据特定的方法和训练过程进行的。

2、分词器如何分解文本

3、开源分词器

分词器/库	核心思想/算法	标志性特点	主要使用者
OpenAI BPE(tiktoken)	Byte-level BPE	直接在字节流上操作，高效压缩	GPT-2,GPT-3,GPT-4,GPT-40, GPT-5
SentencePiece	BPE, Unigram	语言无关，无需预分词，空格视为	LLaMA, T5,多语言模型
WordPiece	Max-Likelihood	需要预分词，词中片段用 ## 标记	BERT 及其家族
Hugging Facetokenizers	BPE, WordPiece,Unigram…	集大成者，高性能Rust 实现，完整流水线	Hugging Face 生态所有模型

4、词级、子词级、字符级与字节级分词

# 导入 SentencePiece 库：用于无监督训练子词（BPE/Unigram）模型以及后续编码/解码 import sentencepiece as spm def train(input_file, vocab_size, model_name, model_type, character_coverage): """ 重要说明（官方参数文档可查）： https://github.com/google/sentencepiece/blob/master/doc/options.md 参数含义： - input_file: 原始语料文件路径（每行一句，SentencePiece 会做 Unicode NFKC 规范化） 支持多文件逗号拼接：'a.txt,b.txt' - vocab_size: 词表大小，如 8000 / 16000 / 32000 - model_name: 模型前缀名，最终会生成 <model_name>.model 和 <model_name>.vocab - model_type: 模型类型：unigram（默认）/ bpe / char / word 注意：若使用 word，需要你在外部先分好词（预分词） - character_coverage: 覆盖的字符比例 * 中文/日文等字符集丰富语言建议 0.9995 * 英文等字符集小的语言建议 1.0 """ # 这里使用“字符串命令”式的调用来指定训练参数 # 固定 4 个特殊符号的 id：<pad>=0, <unk>=1, <bos>=2, <eos>=3 # 这与下游 Transformer 常用配置一致，便于对齐 input_argument = ( '--input=%s ' '--model_prefix=%s ' '--vocab_size=%s ' '--model_type=%s ' '--character_coverage=%s ' '--pad_id=0 --unk_id=1 --bos_id=2 --eos_id=3 ' ) # 将传入参数填充到命令字符串 cmd = input_argument % (input_file, model_name, vocab_size, model_type, character_coverage) # 开始训练；会在当前工作目录下生成 <model_name>.model / <model_name>.vocab spm.SentencePieceTrainer.Train(cmd) # ===== 英文分词器配置 ===== en_input = 'data/data.txt' # 英文语料：一行一句 en_vocab_size = 32000 # 词表大小：翻译任务常见为 16k/32k en_model_name = 'eng' # 输出前缀：会生成 eng.model / eng.vocab en_model_type = 'bpe' # 使用 BPE（也可尝试 unigram） en_character_coverage = 1.0 # 英文字符集小 → 用 1.0 train(en_input, en_vocab_size, en_model_name, en_model_type, en_character_coverage)

总结

https://chensongpoixs.github.io/

29、可激发电路与电气网络综合研究

可激发电路与电气网络综合研究可激发电路的特性与原理可激发电路在生物学中处于核心地位，其核心特性是电流 - 电压关系的局部超敏感性，即在特定的时间和幅度范围内，小的电流变化会被大幅放大。这种特性可以通过动态输入电导这一基本概念来量化，它实际上是在给定电压和时…

李华

通过LobeChat实现多模型切换的智能路由逻辑

通过LobeChat实现多模型切换的智能路由逻辑在今天的企业AI应用中，一个越来越常见的挑战是：如何在性能、成本与数据安全之间找到平衡？我们见过太多团队一开始全量使用GPT-4处理所有请求——体验确实惊艳，但账单也令人咋舌。更糟糕…

李华

当电子离开理想世界：新模型重构 Landauer 理论，探测真实条件下的弹道电子

来源：ScienceAI编辑：&在经典物理中，电子穿过金属导线的路径就像一场拥挤的通勤：无数次碰撞、阻力与能量损失。但在某些量子材料中，它们似乎找到了捷径——弹道输运（ballistic transport）&am…

李华

ComfyUI与Apple Silicon集成：M系列芯片原生运行

ComfyUI与Apple Silicon集成：M系列芯片原生运行在创意工作者越来越依赖生成式AI的今天，一台静音、节能、无需外接电源的MacBook Air能否流畅运行Stable Diffusion这类重型模型？答案是肯定的——只要将ComfyUI与Apple Silicon深度结合。这不…

李华

LobeChat与百度搜索结合提升知识问答准确性

LobeChat与百度搜索结合提升知识问答准确性在构建智能对话系统时，我们常常面临一个棘手的问题：大模型虽然“能说会道”，但回答的内容却可能似是而非。比如用户问：“2024年巴黎奥运会中国拿了多少金牌？”——如果仅依…

李华