总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
https://arxiv.org/pdf/2404.10690
https://www.doubao.com/chat/36292583815805442
论文翻译:https://whiffe.github.io/Paper_Translation/Dataset/MathWriting%EF%BC%9A%E7%94%A8%E4%BA%8E%E6%89%8B%E5%86%99%E6%95%B0%E5%AD%A6%E8%A1%A8%E8%BE%BE%E5%BC%8F%E8%AF%86%E5%88%AB%E7%9A%84%E6%95%B0%E6%8D%AE%E9%9B%86%20—%20MathWriting_%20A%20Dataset%20For%20Handwritten%20Mathematical%20Expression%20Recognition.html
速览
1. 一段话总结
MathWriting是目前最大的在线手写数学表达式数据集,包含23万个人工手写样本和40万个合成样本,提供对应的原始LATEX表达式及标准化版本,支持在线和离线手写数学表达式识别任务,兼容CROHME等数据集格式;通过OCR、CTC Transformer、PaLI等模型的基准测试,验证了数据集的有效性,其中PaLIGemma模型表现最优(验证集CER 3.95、测试集EM 69),合成数据的加入能显著提升模型识别性能,该数据集为相关领域研究提供了丰富且高质量的数据支持。
2. 思维导图
## 数据集概述 - 核心定位:最大在线手写数学表达式数据集 - 数据规模:人工23万+合成40万样本,共65万样本 - 核心构成:手写墨迹+LATEX表达式(原始+标准化) - 适用场景:在线/离线手写数学表达式识别 - 兼容性:支持InkML格式,可与CROHME等数据集联用 ## 数据集构建 - 数据来源:95%源自Wikipedia,5%补充生成(覆盖稀缺场景) - 数据收集:2016-2019年6次采集,150+设备,含手机/平板+手指/触控笔 - 合成数据:基于Wikipedia未用表达式,通过边界框+单个符号墨迹生成 - 数据集拆分:train(23万)、valid(1.6万)、test(0.8万)、symbols、synthetic(39.6万) - 标签标准化:解决LATEX语法非唯一性、印刷与手写差异等问题 ## 数据集特征 - 标签:45.7万唯一标准化标签,覆盖拉丁字母、希腊字母、矩阵等254种令牌 - 墨迹:单样本中位数14笔、350个点、书写时间6.03秒,采样率差异大 - 优势:样本量是CROHME的3.9倍,标签数4.5倍,覆盖更多科学领域表达式 ## 模型实验 - 测试模型:OCR、CTC Transformer(35M参数)、PaLI(700M参数)、PaLIGemma(3B参数) - 评价指标:字符错误率(CER)、精确匹配率(EM)、≤1距离匹配率 - 最优结果:PaLIGemma(valid-CER 3.95、valid-EM 80;test-CER 5.97、test-EM 69) - 关键发现:合成数据使测试集CER降低10%,在线模型(含时间信息)优于离线OCR ## 局限与展望 - 局限:不支持完整手写文档识别、非数学文本识别,部分稀有令牌难识别 - 展望:优化合成数据生成、增加领域上下文信息、结合语言模型提升性能3. 详细总结
一、数据集核心信息
| 项目 | 详情 |
|---|---|
| 名称 | MathWriting |
| 定位 | 目前最大的在线手写数学表达式(HME)数据集 |
| 总规模 | 65万样本(人工23万+合成39.6万),总大小2.9GB,含1.5MB精简版本 |
| 数据构成 | 每样本含:手写墨迹(序列点+时间戳)、原始LATEX标签、标准化LATEX标签 |
| 授权协议 | 知识共享署名-非商业性使用-相同方式共享4.0国际许可(CC BY-NC-SA 4.0) |
| 获取地址 | Github(含代码示例)+ 谷歌云存储(完整/精简数据集) |
二、数据集构建细节
- 数据来源与收集
- 标签来源:95%来自Wikipedia的LATEX表达式,5%人工生成(补充嵌套分数、孤立字母等稀缺场景)
- 收集方式:通过内部Android应用,150+种设备(主流为Google PixelBook等,51万样本来自该设备),采用手指或触控笔书写
- 收集周期:2016-2019年,共6次采集,每次2-3周,无个人身份信息
- 合成数据生成
- 目的:弥补人工数据表达式长度限制(合成样本90分位长度68字符,人工训练集51字符),提升标签多样性
- 方法:基于Wikipedia未用LATEX表达式,通过LATEX编译器生成DVI文件→提取边界框→填充单个符号墨迹
- 特点:无重复表达式,符号来自人工样本,支持自定义合成数据集扩展
- 数据集拆分规则
- 拆分类型:train(人工23万)、valid(人工1.6万)、test(人工0.8万)、symbols(合成辅助)、synthetic(39.6万)
- 拆分逻辑:早期按书写者拆分,后期按标签拆分;valid与train标签交集55%,test与train交集仅8%,保障泛化性测试
- 标签标准化
- 解决问题:LATEX语法非唯一性(如
\frac{1}{2}与1\over 2统一)、印刷与手写差异(如加粗/斜体移除)、视觉歧义(如\left/\right移除) - 局限:纯语法层面标准化,无法处理语义歧义(如
cos与c.o.s区分)
- 解决问题:LATEX语法非唯一性(如
三、数据集关键特征
- 标签统计
- 唯一标准化标签:45.7万(人工6.1万+合成39.6万)
- 令牌种类:254种,含拉丁字母、希腊字母、矩阵、微积分符号等,覆盖量子力学、线性代数等多领域
- 与CROHME对比:样本量3.9倍,标签数4.5倍,共享4.7万标签,新增矩阵等令牌
- 墨迹统计
指标 10分位 中位数 90分位 笔画数 5 14 39 点数 131 350 1069 书写时间(秒) 1.88 6.03 16.42 宽高比 1.32 3.53 9.85 - 特点:设备差异导致采样率不同(9.4-260点/秒),人工样本时间戳从0开始,合成样本无此限制
四、模型实验与结果
- 实验设置
- 测试集:MathWriting的test拆分
- 评价指标:字符错误率(CER,越低越好)、精确匹配率(EM,越高越好)、≤1距离匹配率(越高越好)
- 基准模型性能
| 模型 | 参数量 | 是否用时间信息 | valid-CER | valid-EM | test-CER | test-EM |
|---|---|---|---|---|---|---|
| OCR(Document AI) | - | 否(离线) | 6.50 | 64% | 7.17 | 53% |
| CTC Transformer | 35M | 是(在线) | 4.52 | 71% | 5.49 | 60% |
| PaLI | 700M | 是(混合) | 4.47 | 76% | 5.95 | 64% |
| PaLIGemma | 3B | 是(混合) | 3.95 | 80% | 5.97 | 69% |
- 关键发现
- 合成数据价值:移除合成数据后,CTC Transformer的valid-CER升至4.64,test-CER升至6.2,分别上升2.6%和12.9%
- 错误原因:相似字符混淆(如z与2)、结构排列错误(下标/上标遗漏)
- 模型优势:含时间信息的在线/混合模型显著优于离线OCR,大参数量VLM模型(PaLIGemma)表现最佳
五、局限与未来方向
- 局限性
- 适用范围:仅支持单LATEX公式识别,不支持完整手写文档、非数学文本识别
- 数据偏差:部分令牌(如
\ni)出现频率低,识别难度大;合成数据结构较规整,与人工手写差异存在
- 未来方向
- 数据优化:改进合成数据生成(调整边界框位置/大小),增加领域上下文信息
- 模型优化:结合数学表达式语言模型,探索更优标签标准化方案
- 功能扩展:基于边界框信息开发字符分割功能,支持手写表达式编辑
4. 关键问题
问题1:MathWriting数据集相比主流的CROHME23数据集,核心优势是什么?
答案:① 规模更大:样本量65万,是CROHME23(16.4万)的3.9倍;唯一标签45.7万,是CROHME23(10.2万)的4.5倍;② 覆盖更广:含254种令牌(CROHME23仅105种),新增矩阵等符号,支持量子力学、线性代数等更多科学领域;③ 多场景兼容:支持在线识别(原始墨迹+时间戳)和离线识别(墨迹栅格化),采用InkML格式,可与CROHME23直接联用;④ 数据多样性更高:人工样本占比38%(CROHME23仅10%),合成数据无重复表达式,弥补人工数据长度和场景限制。
问题2:MathWriting数据集中的标签标准化主要解决了哪些问题,存在什么局限?
答案:① 解决的核心问题:a. LATEX语法非唯一性(如\frac{1}{2}与1\over 2统一为\frac{1}{2});b. 印刷与手写的不可兼容差异(如加粗、斜体、精确间距等无法通过手写体现的格式移除);c. 视觉歧义(如\left/\right等尺寸修饰符移除,避免模型误判);d. 同义词冗余(如\le与\leq统一)。② 局限性:仅能处理语法层面的标准化,无法解决语义歧义(如Wikipedia中cos可能是三角函数\cos或字母组合,无法通过语法规则区分);部分标准化选择(如将\binom转为2元素矩阵)可能转移识别负担到下游流程。
问题3:在MathWriting数据集上,不同类型模型的表现差异及关键原因是什么?
答案:① 表现差异(按test-EM排序):PaLIGemma(69%)> PaLI(64%)> CTC Transformer(60%)> OCR(53%),CER则相反,PaLIGemma最优(5.97),OCR最差(7.17)。② 关键原因:a. 是否利用时间信息:OCR为离线模型,仅处理栅格化图像,无书写顺序和速度信息,性能最差;CTC Transformer、PaLI、PaLIGemma均利用时间信息,在线/混合识别更适配手写数学表达式的二维结构;b. 模型架构与参数量:大参数量VLM模型(PaLIGemma 3B参数)能更好捕捉图像与文本的关联,优于传统CTC Transformer(35M参数);c. 数据适配性:OCR的文本令牌器不适配LATEX表达式,而专门训练的模型(如CTC Transformer、PaLI)针对数学符号优化,性能更优。