论文阅读：KDD 2025 MathWriting: A Dataset For Handwritten Mathematical Expression Recognition-程序员充电站

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2404.10690

https://www.doubao.com/chat/36292583815805442

论文翻译：https://whiffe.github.io/Paper_Translation/Dataset/MathWriting%EF%BC%9A%E7%94%A8%E4%BA%8E%E6%89%8B%E5%86%99%E6%95%B0%E5%AD%A6%E8%A1%A8%E8%BE%BE%E5%BC%8F%E8%AF%86%E5%88%AB%E7%9A%84%E6%95%B0%E6%8D%AE%E9%9B%86%20—%20MathWriting_%20A%20Dataset%20For%20Handwritten%20Mathematical%20Expression%20Recognition.html

速览

1. 一段话总结

MathWriting是目前最大的在线手写数学表达式数据集，包含23万个人工手写样本和40万个合成样本，提供对应的原始LATEX表达式及标准化版本，支持在线和离线手写数学表达式识别任务，兼容CROHME等数据集格式；通过OCR、CTC Transformer、PaLI等模型的基准测试，验证了数据集的有效性，其中PaLIGemma模型表现最优（验证集CER 3.95、测试集EM 69），合成数据的加入能显著提升模型识别性能，该数据集为相关领域研究提供了丰富且高质量的数据支持。

2. 思维导图

## 数据集概述 - 核心定位：最大在线手写数学表达式数据集 - 数据规模：人工23万+合成40万样本，共65万样本 - 核心构成：手写墨迹+LATEX表达式（原始+标准化） - 适用场景：在线/离线手写数学表达式识别 - 兼容性：支持InkML格式，可与CROHME等数据集联用 ## 数据集构建 - 数据来源：95%源自Wikipedia，5%补充生成（覆盖稀缺场景） - 数据收集：2016-2019年6次采集，150+设备，含手机/平板+手指/触控笔 - 合成数据：基于Wikipedia未用表达式，通过边界框+单个符号墨迹生成 - 数据集拆分：train（23万）、valid（1.6万）、test（0.8万）、symbols、synthetic（39.6万） - 标签标准化：解决LATEX语法非唯一性、印刷与手写差异等问题 ## 数据集特征 - 标签：45.7万唯一标准化标签，覆盖拉丁字母、希腊字母、矩阵等254种令牌 - 墨迹：单样本中位数14笔、350个点、书写时间6.03秒，采样率差异大 - 优势：样本量是CROHME的3.9倍，标签数4.5倍，覆盖更多科学领域表达式 ## 模型实验 - 测试模型：OCR、CTC Transformer（35M参数）、PaLI（700M参数）、PaLIGemma（3B参数） - 评价指标：字符错误率（CER）、精确匹配率（EM）、≤1距离匹配率 - 最优结果：PaLIGemma（valid-CER 3.95、valid-EM 80；test-CER 5.97、test-EM 69） - 关键发现：合成数据使测试集CER降低10%，在线模型（含时间信息）优于离线OCR ## 局限与展望 - 局限：不支持完整手写文档识别、非数学文本识别，部分稀有令牌难识别 - 展望：优化合成数据生成、增加领域上下文信息、结合语言模型提升性能

3. 详细总结

一、数据集核心信息

项目	详情
名称	MathWriting
定位	目前最大的在线手写数学表达式（HME）数据集
总规模	65万样本（人工23万+合成39.6万），总大小2.9GB，含1.5MB精简版本
数据构成	每样本含：手写墨迹（序列点+时间戳）、原始LATEX标签、标准化LATEX标签
授权协议	知识共享署名-非商业性使用-相同方式共享4.0国际许可（CC BY-NC-SA 4.0）
获取地址	Github（含代码示例）+ 谷歌云存储（完整/精简数据集）

二、数据集构建细节

数据来源与收集
- 标签来源：95%来自Wikipedia的LATEX表达式，5%人工生成（补充嵌套分数、孤立字母等稀缺场景）
- 收集方式：通过内部Android应用，150+种设备（主流为Google PixelBook等，51万样本来自该设备），采用手指或触控笔书写
- 收集周期：2016-2019年，共6次采集，每次2-3周，无个人身份信息
合成数据生成
- 目的：弥补人工数据表达式长度限制（合成样本90分位长度68字符，人工训练集51字符），提升标签多样性
- 方法：基于Wikipedia未用LATEX表达式，通过LATEX编译器生成DVI文件→提取边界框→填充单个符号墨迹
- 特点：无重复表达式，符号来自人工样本，支持自定义合成数据集扩展
数据集拆分规则
- 拆分类型：train（人工23万）、valid（人工1.6万）、test（人工0.8万）、symbols（合成辅助）、synthetic（39.6万）
- 拆分逻辑：早期按书写者拆分，后期按标签拆分；valid与train标签交集55%，test与train交集仅8%，保障泛化性测试
标签标准化
- 解决问题：LATEX语法非唯一性（如\frac{1}{2}与1\over 2统一）、印刷与手写差异（如加粗/斜体移除）、视觉歧义（如\left/\right移除）
- 局限：纯语法层面标准化，无法处理语义歧义（如cos与c.o.s区分）

三、数据集关键特征

标签统计
- 唯一标准化标签：45.7万（人工6.1万+合成39.6万）
- 令牌种类：254种，含拉丁字母、希腊字母、矩阵、微积分符号等，覆盖量子力学、线性代数等多领域
- 与CROHME对比：样本量3.9倍，标签数4.5倍，共享4.7万标签，新增矩阵等令牌
墨迹统计
指标 10分位中位数 90分位
笔画数 5 14 39
点数 131 350 1069
书写时间（秒） 1.88 6.03 16.42
宽高比 1.32 3.53 9.85
- 特点：设备差异导致采样率不同（9.4-260点/秒），人工样本时间戳从0开始，合成样本无此限制

指标	10分位	中位数	90分位
笔画数	5	14	39
点数	131	350	1069
书写时间（秒）	1.88	6.03	16.42
宽高比	1.32	3.53	9.85

四、模型实验与结果

实验设置
- 测试集：MathWriting的test拆分
- 评价指标：字符错误率（CER，越低越好）、精确匹配率（EM，越高越好）、≤1距离匹配率（越高越好）
基准模型性能

模型	参数量	是否用时间信息	valid-CER	valid-EM	test-CER	test-EM
OCR（Document AI）	-	否（离线）	6.50	64%	7.17	53%
CTC Transformer	35M	是（在线）	4.52	71%	5.49	60%
PaLI	700M	是（混合）	4.47	76%	5.95	64%
PaLIGemma	3B	是（混合）	3.95	80%	5.97	69%

关键发现
- 合成数据价值：移除合成数据后，CTC Transformer的valid-CER升至4.64，test-CER升至6.2，分别上升2.6%和12.9%
- 错误原因：相似字符混淆（如z与2）、结构排列错误（下标/上标遗漏）
- 模型优势：含时间信息的在线/混合模型显著优于离线OCR，大参数量VLM模型（PaLIGemma）表现最佳

五、局限与未来方向

局限性
- 适用范围：仅支持单LATEX公式识别，不支持完整手写文档、非数学文本识别
- 数据偏差：部分令牌（如\ni）出现频率低，识别难度大；合成数据结构较规整，与人工手写差异存在
未来方向
- 数据优化：改进合成数据生成（调整边界框位置/大小），增加领域上下文信息
- 模型优化：结合数学表达式语言模型，探索更优标签标准化方案
- 功能扩展：基于边界框信息开发字符分割功能，支持手写表达式编辑

4. 关键问题

问题1：MathWriting数据集相比主流的CROHME23数据集，核心优势是什么？

答案：① 规模更大：样本量65万，是CROHME23（16.4万）的3.9倍；唯一标签45.7万，是CROHME23（10.2万）的4.5倍；② 覆盖更广：含254种令牌（CROHME23仅105种），新增矩阵等符号，支持量子力学、线性代数等更多科学领域；③ 多场景兼容：支持在线识别（原始墨迹+时间戳）和离线识别（墨迹栅格化），采用InkML格式，可与CROHME23直接联用；④ 数据多样性更高：人工样本占比38%（CROHME23仅10%），合成数据无重复表达式，弥补人工数据长度和场景限制。

问题2：MathWriting数据集中的标签标准化主要解决了哪些问题，存在什么局限？

答案：① 解决的核心问题：a. LATEX语法非唯一性（如\frac{1}{2}与1\over 2统一为\frac{1}{2}）；b. 印刷与手写的不可兼容差异（如加粗、斜体、精确间距等无法通过手写体现的格式移除）；c. 视觉歧义（如\left/\right等尺寸修饰符移除，避免模型误判）；d. 同义词冗余（如\le与\leq统一）。② 局限性：仅能处理语法层面的标准化，无法解决语义歧义（如Wikipedia中cos可能是三角函数\cos或字母组合，无法通过语法规则区分）；部分标准化选择（如将\binom转为2元素矩阵）可能转移识别负担到下游流程。

问题3：在MathWriting数据集上，不同类型模型的表现差异及关键原因是什么？

答案：① 表现差异（按test-EM排序）：PaLIGemma（69%）> PaLI（64%）> CTC Transformer（60%）> OCR（53%），CER则相反，PaLIGemma最优（5.97），OCR最差（7.17）。② 关键原因：a. 是否利用时间信息：OCR为离线模型，仅处理栅格化图像，无书写顺序和速度信息，性能最差；CTC Transformer、PaLI、PaLIGemma均利用时间信息，在线/混合识别更适配手写数学表达式的二维结构；b. 模型架构与参数量：大参数量VLM模型（PaLIGemma 3B参数）能更好捕捉图像与文本的关联，优于传统CTC Transformer（35M参数）；c. 数据适配性：OCR的文本令牌器不适配LATEX表达式，而专门训练的模型（如CTC Transformer、PaLI）针对数学符号优化，性能更优。