news 2026/4/18 8:27:02

论文阅读:KDD 2025 MathWriting: A Dataset For Handwritten Mathematical Expression Recognition

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文阅读:KDD 2025 MathWriting: A Dataset For Handwritten Mathematical Expression Recognition

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2404.10690

https://www.doubao.com/chat/36292583815805442

论文翻译:https://whiffe.github.io/Paper_Translation/Dataset/MathWriting%EF%BC%9A%E7%94%A8%E4%BA%8E%E6%89%8B%E5%86%99%E6%95%B0%E5%AD%A6%E8%A1%A8%E8%BE%BE%E5%BC%8F%E8%AF%86%E5%88%AB%E7%9A%84%E6%95%B0%E6%8D%AE%E9%9B%86%20—%20MathWriting_%20A%20Dataset%20For%20Handwritten%20Mathematical%20Expression%20Recognition.html

速览

1. 一段话总结

MathWriting是目前最大的在线手写数学表达式数据集,包含23万个人工手写样本和40万个合成样本,提供对应的原始LATEX表达式及标准化版本,支持在线和离线手写数学表达式识别任务,兼容CROHME等数据集格式;通过OCR、CTC Transformer、PaLI等模型的基准测试,验证了数据集的有效性,其中PaLIGemma模型表现最优(验证集CER 3.95、测试集EM 69),合成数据的加入能显著提升模型识别性能,该数据集为相关领域研究提供了丰富且高质量的数据支持。


2. 思维导图

## 数据集概述 - 核心定位:最大在线手写数学表达式数据集 - 数据规模:人工23万+合成40万样本,共65万样本 - 核心构成:手写墨迹+LATEX表达式(原始+标准化) - 适用场景:在线/离线手写数学表达式识别 - 兼容性:支持InkML格式,可与CROHME等数据集联用 ## 数据集构建 - 数据来源:95%源自Wikipedia,5%补充生成(覆盖稀缺场景) - 数据收集:2016-2019年6次采集,150+设备,含手机/平板+手指/触控笔 - 合成数据:基于Wikipedia未用表达式,通过边界框+单个符号墨迹生成 - 数据集拆分:train(23万)、valid(1.6万)、test(0.8万)、symbols、synthetic(39.6万) - 标签标准化:解决LATEX语法非唯一性、印刷与手写差异等问题 ## 数据集特征 - 标签:45.7万唯一标准化标签,覆盖拉丁字母、希腊字母、矩阵等254种令牌 - 墨迹:单样本中位数14笔、350个点、书写时间6.03秒,采样率差异大 - 优势:样本量是CROHME的3.9倍,标签数4.5倍,覆盖更多科学领域表达式 ## 模型实验 - 测试模型:OCR、CTC Transformer(35M参数)、PaLI(700M参数)、PaLIGemma(3B参数) - 评价指标:字符错误率(CER)、精确匹配率(EM)、≤1距离匹配率 - 最优结果:PaLIGemma(valid-CER 3.95、valid-EM 80;test-CER 5.97、test-EM 69) - 关键发现:合成数据使测试集CER降低10%,在线模型(含时间信息)优于离线OCR ## 局限与展望 - 局限:不支持完整手写文档识别、非数学文本识别,部分稀有令牌难识别 - 展望:优化合成数据生成、增加领域上下文信息、结合语言模型提升性能

3. 详细总结

一、数据集核心信息
项目详情
名称MathWriting
定位目前最大的在线手写数学表达式(HME)数据集
总规模65万样本(人工23万+合成39.6万),总大小2.9GB,含1.5MB精简版本
数据构成每样本含:手写墨迹(序列点+时间戳)、原始LATEX标签、标准化LATEX标签
授权协议知识共享署名-非商业性使用-相同方式共享4.0国际许可(CC BY-NC-SA 4.0)
获取地址Github(含代码示例)+ 谷歌云存储(完整/精简数据集)
二、数据集构建细节
  1. 数据来源与收集
    • 标签来源:95%来自Wikipedia的LATEX表达式,5%人工生成(补充嵌套分数、孤立字母等稀缺场景)
    • 收集方式:通过内部Android应用,150+种设备(主流为Google PixelBook等,51万样本来自该设备),采用手指或触控笔书写
    • 收集周期:2016-2019年,共6次采集,每次2-3周,无个人身份信息
  2. 合成数据生成
    • 目的:弥补人工数据表达式长度限制(合成样本90分位长度68字符,人工训练集51字符),提升标签多样性
    • 方法:基于Wikipedia未用LATEX表达式,通过LATEX编译器生成DVI文件→提取边界框→填充单个符号墨迹
    • 特点:无重复表达式,符号来自人工样本,支持自定义合成数据集扩展
  3. 数据集拆分规则
    • 拆分类型:train(人工23万)、valid(人工1.6万)、test(人工0.8万)、symbols(合成辅助)、synthetic(39.6万)
    • 拆分逻辑:早期按书写者拆分,后期按标签拆分;valid与train标签交集55%,test与train交集仅8%,保障泛化性测试
  4. 标签标准化
    • 解决问题:LATEX语法非唯一性(如\frac{1}{2}1\over 2统一)、印刷与手写差异(如加粗/斜体移除)、视觉歧义(如\left/\right移除)
    • 局限:纯语法层面标准化,无法处理语义歧义(如cosc.o.s区分)
三、数据集关键特征
  1. 标签统计
    • 唯一标准化标签:45.7万(人工6.1万+合成39.6万)
    • 令牌种类:254种,含拉丁字母、希腊字母、矩阵、微积分符号等,覆盖量子力学、线性代数等多领域
    • 与CROHME对比:样本量3.9倍,标签数4.5倍,共享4.7万标签,新增矩阵等令牌
  2. 墨迹统计
    指标10分位中位数90分位
    笔画数51439
    点数1313501069
    书写时间(秒)1.886.0316.42
    宽高比1.323.539.85
    • 特点:设备差异导致采样率不同(9.4-260点/秒),人工样本时间戳从0开始,合成样本无此限制
四、模型实验与结果
  1. 实验设置
    • 测试集:MathWriting的test拆分
    • 评价指标:字符错误率(CER,越低越好)、精确匹配率(EM,越高越好)、≤1距离匹配率(越高越好)
  2. 基准模型性能
模型参数量是否用时间信息valid-CERvalid-EMtest-CERtest-EM
OCR(Document AI)-否(离线)6.5064%7.1753%
CTC Transformer35M是(在线)4.5271%5.4960%
PaLI700M是(混合)4.4776%5.9564%
PaLIGemma3B是(混合)3.9580%5.9769%
  1. 关键发现
    • 合成数据价值:移除合成数据后,CTC Transformer的valid-CER升至4.64,test-CER升至6.2,分别上升2.6%和12.9%
    • 错误原因:相似字符混淆(如z与2)、结构排列错误(下标/上标遗漏)
    • 模型优势:含时间信息的在线/混合模型显著优于离线OCR,大参数量VLM模型(PaLIGemma)表现最佳
五、局限与未来方向
  1. 局限性
    • 适用范围:仅支持单LATEX公式识别,不支持完整手写文档、非数学文本识别
    • 数据偏差:部分令牌(如\ni)出现频率低,识别难度大;合成数据结构较规整,与人工手写差异存在
  2. 未来方向
    • 数据优化:改进合成数据生成(调整边界框位置/大小),增加领域上下文信息
    • 模型优化:结合数学表达式语言模型,探索更优标签标准化方案
    • 功能扩展:基于边界框信息开发字符分割功能,支持手写表达式编辑

4. 关键问题

问题1:MathWriting数据集相比主流的CROHME23数据集,核心优势是什么?

答案:① 规模更大:样本量65万,是CROHME23(16.4万)的3.9倍;唯一标签45.7万,是CROHME23(10.2万)的4.5倍;② 覆盖更广:含254种令牌(CROHME23仅105种),新增矩阵等符号,支持量子力学、线性代数等更多科学领域;③ 多场景兼容:支持在线识别(原始墨迹+时间戳)和离线识别(墨迹栅格化),采用InkML格式,可与CROHME23直接联用;④ 数据多样性更高:人工样本占比38%(CROHME23仅10%),合成数据无重复表达式,弥补人工数据长度和场景限制。

问题2:MathWriting数据集中的标签标准化主要解决了哪些问题,存在什么局限?

答案:① 解决的核心问题:a. LATEX语法非唯一性(如\frac{1}{2}1\over 2统一为\frac{1}{2});b. 印刷与手写的不可兼容差异(如加粗、斜体、精确间距等无法通过手写体现的格式移除);c. 视觉歧义(如\left/\right等尺寸修饰符移除,避免模型误判);d. 同义词冗余(如\le\leq统一)。② 局限性:仅能处理语法层面的标准化,无法解决语义歧义(如Wikipedia中cos可能是三角函数\cos或字母组合,无法通过语法规则区分);部分标准化选择(如将\binom转为2元素矩阵)可能转移识别负担到下游流程。

问题3:在MathWriting数据集上,不同类型模型的表现差异及关键原因是什么?

答案:① 表现差异(按test-EM排序):PaLIGemma(69%)> PaLI(64%)> CTC Transformer(60%)> OCR(53%),CER则相反,PaLIGemma最优(5.97),OCR最差(7.17)。② 关键原因:a. 是否利用时间信息:OCR为离线模型,仅处理栅格化图像,无书写顺序和速度信息,性能最差;CTC Transformer、PaLI、PaLIGemma均利用时间信息,在线/混合识别更适配手写数学表达式的二维结构;b. 模型架构与参数量:大参数量VLM模型(PaLIGemma 3B参数)能更好捕捉图像与文本的关联,优于传统CTC Transformer(35M参数);c. 数据适配性:OCR的文本令牌器不适配LATEX表达式,而专门训练的模型(如CTC Transformer、PaLI)针对数学符号优化,性能更优。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 10:05:43

Windows Defender终极卸载指南:释放系统性能的完整解决方案

Windows Defender终极卸载指南:释放系统性能的完整解决方案 【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https://gitcode.com/gh_mirror…

作者头像 李华
网站建设 2026/4/17 15:49:14

联想AI突围战:高光数据下的隐忧,杨元庆的“背水一战”?

在AI技术风起云涌的当下,联想作为传统硬件巨头,其AI转型之路看似高歌猛进,实则暗流涌动,充满了挑战与隐忧。联想近期公布的2025/26财年第二财季(也就是2025年第三季度)财报,虽然营收同比增长15%…

作者头像 李华
网站建设 2026/4/18 8:20:55

中小企业降本增效:SenseVoiceSmall免费部署实战指南

中小企业降本增效:SenseVoiceSmall免费部署实战指南 1. 为什么中小企业需要智能语音识别? 你有没有遇到过这样的情况:客服录音堆成山,没人有时间听;会议开了一小时,整理纪要却要花两小时;短视…

作者头像 李华
网站建设 2026/4/18 7:46:23

Figma中文界面解决方案:3步彻底告别语言障碍的设计神器

Figma中文界面解决方案:3步彻底告别语言障碍的设计神器 【免费下载链接】figmaCN 中文 Figma 插件,设计师人工翻译校验 项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN 您是否曾经在Figma中迷失在英文菜单的海洋中?面对"C…

作者头像 李华
网站建设 2026/4/18 11:02:27

本地运行超丝滑!Qwen-Image-Layered部署后体验大幅提升

本地运行超丝滑!Qwen-Image-Layered部署后体验大幅提升 你有没有遇到过这种情况:好不容易生成了一张满意的AI图像,结果想换个背景色就得从头再来一遍?或者想把图中某个元素单独调亮一点,却只能整体修改、反复重试&…

作者头像 李华
网站建设 2026/4/18 11:03:11

终极指南:如何用APK Editor Studio轻松修改Android应用

终极指南:如何用APK Editor Studio轻松修改Android应用 【免费下载链接】apk-editor-studio Powerful yet easy to use APK editor for PC and Mac. 项目地址: https://gitcode.com/gh_mirrors/ap/apk-editor-studio APK Editor Studio是一款功能强大的免费A…

作者头像 李华