对话优化标记器的潜力：一种将 LLM 推理效率提高 10% 的方法-程序员充电站

概述

LLM 的计算资源和能耗与模型中的标记数成正比增长。为了减少标记符的数量，设计高效的标记符生成器非常重要。目前许多标记化器都是针对静态、结构化语料库（如书籍和网络文本）进行优化的。然而，聊天机器人是 LLM 在实践中的主要应用，主要是具有不同输入和输出格式的对话文本。

针对这一空白，本研究重新设计了 “对话优化标记符号化器”。具体地说，我们使用真实世界的聊天数据 LMSYS Chat 1M 重新训练了几种 LLM 的标记化器。

结果表明，标记符号的减少量最高可达 10%，甚至更多，这表明了提高能效的潜力。另一方面，对训练语料的影响有限，预计对模型性能的负面影响也很小。

建议采用的方法

本研究探讨了能否针对会话数据优化现有的标记符号生成器，以减少标记符号数量和推理过程中的能耗成本。

作为该方法的第一步，LMSYS Chat 1M 语料库的 80% 用于训练，20% 用于评估。然后建立三种类型的标记化器，仅使用用户输入、仅使用模型响应或同时使用用户输入和模型响应进行重新标记化。为确保公平比较，重新训练使用的算法和设置与每个模型的原始标记化器相同。

生育率"（每个词的标记数）和 "标记减少率 "用于评估。作为文本压缩效率的一项指标，"生字率 "尤其有用。与原始标记器相比，重新标记的模型在减少标记总数方面表现出一致的趋势。在回复方面的优化尤其有效，这也与聊天回复占大部分文本的情况相符。

结论是，这些设计可以在不影响模型通用性的情况下对标记符进行实际改进。

实验

本研究通过三项实验测试了对话优化标记符的有效性。

在第一个实验中，对八个 LLM 模型（GPT-4、GPT-4o、DeepSeek-R1、LLaMA-3.1、Gemma-2、Mistral-7B、BLOOM 和 Phi-4）中现有标记符的性能进行了评估。结果表明，所有模型在对话数据上的标记效率（生育率）都有所下降，这表明有必要进行优化。

接下来的实验证实，重新训练的标记符号生成器可以比原始标记符号生成器减少 5-10% 或更多的标记符号。其中，Gemma-2、Mistral-7B 和 BLOOM 的改进幅度超过了 10%，而针对具体语言的分析也表明，在英语和西班牙语等数据量大的语言中，减少幅度更为明显。

最后一项实验研究了重新训练的标记符对传统训练数据（C4 语料库）的影响。在大多数模型中，标记数只增加了 1-2%，而在某些模型中，标记数在某些情况下反而减少了。这表明，引入会话优化并不会明显降低模型的通用性。

23、实例负载均衡流量管理指南

实例负载均衡流量管理指南在负载均衡的管理过程中，我们需要掌握多种操作，包括对池、池成员、健康监视器和监听器的管理，以及如何构建一个完整的负载均衡器。下面将详细介绍相关的操作步骤和命令。 1. 池管理 1.1 列出所有池在命令行界面（CLI）中，使用以下命令列出所…

李华

8、使用 Linux 网桥构建虚拟网络基础设施

使用 Linux 网桥构建虚拟网络基础设施在 OpenStack 云环境中构建网络资源之前，需要对网络插件进行定义和配置。ML2 插件提供了一个通用框架，允许多个驱动程序相互协作。下面将详细介绍如何在 controller01 和 compute01 主机上配置 Linux 网桥 ML2 驱动和代理。 1. 配置网…

李华

16、网络安全与访问控制：从安全组到角色访问控制

网络安全与访问控制：从安全组到角色访问控制 1. 端口安全与允许地址对管理端口安全是网络安全的重要组成部分。当端口安全扩展启用时，可以在创建或更新端口期间，通过相应设置 port_security_enabled 属性，来启用或禁用单个端口的端口安全。启用端口安全后，默认的反欺…

李华

5步诊断法：彻底解决WSL环境中Open-Interpreter无法连接本地模型的难题

5步诊断法：彻底解决WSL环境中Open-Interpreter无法连接本地模型的难题【免费下载链接】open-interpreter Open Interpreter 工具能够让大型语言模型在本地执行如Python、JavaScript、Shell等多种编程语言的代码。项目地址: https://gitcode.com/GitHub_Trending…

李华

NVIDIA DALI GPU数据预处理优化：7大实战策略提升深度学习训练效率

NVIDIA DALI GPU数据预处理优化：7大实战策略提升深度学习训练效率【免费下载链接】DALI NVIDIA/DALI: DALI 是一个用于数据预处理和增强的 Python 库，可以用于图像，视频和音频数据的处理和增强，支持多种数据格式和平台&#xff0…

李华

概述