news 2026/4/21 6:12:18

百万 Token 也能无损压缩?C3 模型用“级联压缩”重新定义长上下文挑战

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
百万 Token 也能无损压缩?C3 模型用“级联压缩”重新定义长上下文挑战

【编者按】百万级别 Token 的输入,正在成为大型语言模型(LLMs)长上下文任务中的计算与内存“噩梦”。DeepSeekOCR 凭借“上下文光学压缩”技术实现了 10 倍 Token 压缩率,引发全网热议。但透过现象看本质,高压缩率的秘密,真的在于“图像化”吗?

作者 | 刘帆帆

出品丨作者投稿

DeepSeekOCR 的成功让许多人误以为“视觉编码”是压缩的关键。然而,研究团队经过深入分析发现,高压缩率的核心其实源自 Latent Tokens(潜在 Token)本身——这是一种比离散文本 Token 更高效、密度更高的信息载体。

基于这一洞察,作者所在的研究团队提出了一种直击本质的全新路径:Context Cascade Compression (C3,上下文级联压缩)。

将两种路径进行对比:

  • DeepSeek OCR 路径: 文本 → 图像 → 视觉 Token → 语言模型(引入了布局、噪点、视觉编码器等无关干扰)

  • C3 路径: 文本 → 文本 Latent Tokens → 语言模型(纯粹、无损、直接)

具体来说,一个小型 LLM 作为第一级,通过将长上下文压缩成一组潜在 token(例如,长度为 32 或 64),实现高比例的文本 token 到潜在 token 的压缩。一个大型 LLM 作为第二级,然后对这个压缩的上下文执行解码任务。

这一设计也验证了近期热门论文《LANGUAGE MODELS ARE INJECTIVE AND HENCE INVERTIBLE》中关于「LLM 本质是无损压缩」的论断。

实验表明,在 20 倍压缩比(文本 token 数量是潜在 token 数量的 20 倍)下,C3 实现了 98% 的解码准确率,而 DeepSeek OCR 大约为60%。当我们进一步将压缩比增加到 40 倍时,准确率仍保持在约 93%。这表明在上下文压缩领域,C3 压缩比光学字符压缩展示了更优越的性能和可行性。

目前模型与代码现已开源:

  • 原文:https://arxiv.org/pdf/2511.15244

  • 代码:https://github.com/liufanfanlff/C3-Context-Cascade-Compression

  • 模型:https://huggingface.co/liufanfanlff/C3-Context-Cascade-Compression

架构

在介绍 C3 之前,先带大家来了解一下 DeepSeek-OCR 的工作原理。DeepSeek-OCR 采用了一种创新的"视觉压缩"思路,这种方法的优势在于利用了视觉编码器强大的特征提取能力,但也面临着图像布局复杂性、低分辨率下的模糊等固有限制。C3 提出了一个更直接的压缩思路:跳过视觉中介,没有中间商赚差价,直接在文本域进行压缩。其核心架构包括:

1.双 LLM 级联设计

  • 小型 LLM(算力消耗低)作为压缩编码器,压缩上下文信息。

  • 大型 LLM(推理生成能力强)作为解码器执行下游任务。

2.压缩机制

  • 引入可学习的"上下文查询"(Context Query)嵌入

  • 将长文本压缩为固定长度的潜在token(如32或64个)。

  • 完全保留预训练 LLM 的语言压缩能力

性能表现

在 Fox 基准测试中,C3 展现出显著优势:

  • 在约 20 倍压缩时,C3 保持 98.4% 精度,而D eepSeek-OCR 降至59.1%

  • 即使在极限的 40 倍压缩率下(32 个潜在 token),C3 仍能维持 93% 以上的重建精度

独特的"遗忘模式":更接近人类记忆

研究还发现了 C3 的一个有趣特性:当压缩率过高导致信息损失时,错误往往集中在文本末尾,呈现序列性信息衰减。这与光学压缩方法的"全局模糊"不同,反而更类似人类记忆的渐进式遗忘过程。

这种特性使得 C3 在实际应用中更具可预测性——重要信息可以优先放置在文本前部,确保关键内容的完整保留。

测试

无论是在长英文文本还是中文古文上均做到了近乎完美的压缩还原

甚至对于 LLM 一直难以处理的乱序文本也能精准还原

应用前景

1. 超长上下文处理:C3 可作为现有 LLM 的"前端压缩器",将百万级 token 的输入(如整本书籍、大型代码库)压缩到可处理范围,降低计算成本。

2. 多模态:级连轻量级 VLM 和 LLM,轻量级 VLM 作为视觉 encoder 进行信息压缩,处理视觉信息丰富的长文档等。

3. 下一代模型的基础组件 :C3 的编码-解码架构可直接应用于扩散语言模型和潜在自回归模型,将可变长度文本转换为固定长度潜在表示。

这是一个在有限的人力、算力与数据背景下诞生的“小而美”项目。

目前 C3 的代码与权重开源,希望开源社区的研究者们能接过这一棒,激发出C3 的巨大潜能。

推荐阅读:

独立开发者的AGI焦虑,何处有解?

亏700亿美元、预算大砍30%、推迟两款头显:改名才4年,Meta元宇宙彻底“退烧”了?

一键清空Win11所有AI!开发者“整活”,一行命令秒清Copilot、Recall,开源狂揽1.7k星!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 5:35:10

5 年了,Rust 终于在 Linux 内核中“转正”了!

整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)在 Linux 内核世界,很少有技术路线能像 Rust 一样,引发如此长期、激烈且公开的争论。有人视它为内核安全的“破局钥匙”,有人则认为这是对既有工程秩序的冒险挑战。围…

作者头像 李华
网站建设 2026/4/18 7:39:23

Windows 11精简终极指南:从系统构建到性能优化的完整方案

Windows 11精简终极指南:从系统构建到性能优化的完整方案 【免费下载链接】tiny11builder Scripts to build a trimmed-down Windows 11 image. 项目地址: https://gitcode.com/GitHub_Trending/ti/tiny11builder 在当今数字化环境中,系统性能直接…

作者头像 李华
网站建设 2026/4/20 19:29:32

图像立体化技术:基于深度信息的智能建模方法解析

图像立体化技术:基于深度信息的智能建模方法解析 【免费下载链接】ImageToSTL This tool allows you to easily convert any image into a 3D print-ready STL model. The surface of the model will display the image when illuminated from the left side. 项目…

作者头像 李华
网站建设 2026/4/18 5:41:56

面向未来:鸿蒙Stage模型、ArkUI与Flutter的深度交互新范式

前言:当“新鸿蒙”遇见“Flutter” 随着鸿蒙系统(HarmonyOS)向Stage模型、ArkUI 声明式开发范式的全面迁移,以及 OpenHarmony 社区的蓬勃发展,鸿蒙Flutter的融合开发也迎来了新的机遇与挑战。 传统的混合开发往往停留…

作者头像 李华
网站建设 2026/4/18 5:35:13

超精简Windows 11镜像制作完全指南:三步打造轻量级系统

超精简Windows 11镜像制作完全指南:三步打造轻量级系统 【免费下载链接】tiny11builder Scripts to build a trimmed-down Windows 11 image. 项目地址: https://gitcode.com/GitHub_Trending/ti/tiny11builder 还在为Windows 11的臃肿体积和缓慢启动而烦恼吗…

作者头像 李华
网站建设 2026/4/17 23:37:35

B站视频转文字终极指南:3步轻松提取视频内容为可编辑文本

B站视频转文字终极指南:3步轻松提取视频内容为可编辑文本 【免费下载链接】bili2text Bilibili视频转文字,一步到位,输入链接即可使用 项目地址: https://gitcode.com/gh_mirrors/bi/bili2text 还在为手动记录视频内容而烦恼吗&#x…

作者头像 李华