news 2026/6/10 1:49:30

全球首次突破异形框定位难题,百度开源全新OCR模型 PaddleOCR-VL-1.5

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
全球首次突破异形框定位难题,百度开源全新OCR模型 PaddleOCR-VL-1.5

1月29日,百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型以仅0.9B参数的轻量架构,在全球权威文档解析评测榜单OmniDocBench V1.5中取得全球综合性能第一成绩,整体精度达到94.5%,超过Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型。

值得关注的是,PaddleOCR-VL-1.5 全球首次实现OCR模型的“异形框定位”能力,使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,首次让“歪文档”实现稳定、可规模化解析。该技术解决了传统OCR模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题,可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。

PaddleOCR-VL-1.5 基于文心大模型进行开发,在 OmniDocBench V1.5多个关键指标上取得领先表现。其中,表格结构理解(92.8 分)和阅读顺序预测(95.8 分)两项核心指标上均位列第一,分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型 2–5 分不等。在文档阅读顺序预测任务中,其版面逻辑解析错误率仅为同类其他模型约一半。这表明,PaddleOCR-VL-1.5 在复杂文档结构还原与版面逻辑理解方面具备更高稳定性,在合同、财报等高复杂度业务场景中拥有更高可用性。



2025年10月16日,百度首次发布并开源 PaddleOCR-VL模型,在 OmniDocBench V1.5 榜单中取得全球SOTA成绩,并连续五天登顶 HuggingFace全球模型总趋势榜与ModelScope全球模型总趋势榜双榜第一。

相比于上代,在功能层面,PaddleOCR-VL-1.5 进一步集成印章识别、文本检测与识别等任务能力,关键指标持续领跑;同时针对特殊场景与多语种识别进行系统优化,在生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升,并新增对藏语、孟加拉语等语种的支持。模型还支持跨页表格自动合并与跨页段落标题识别,有效解决长文档解析中的结构断裂问题。

近半年来,全球主流模型厂商密集布局 OCR 领域。1月27日,深度求索发布新一代 OCR 模型 DeepSeek-OCR-2,引入“因果流查询”机制,并将语言模型融入视觉编码,在OmniDocBench V1.5中实现91.09%精度。与此同时,Mistral AI、字节跳动、腾讯等企业也相继推出新一代 OCR 模型,行业竞争持续加剧。

业内分析认为,随着大模型加速进入金融、政务、制造等高复杂度业务流程,文档解析能力正从“能用”走向“稳定可规模化落地”。PaddleOCR-VL-1.5 在精度、复杂场景适应性与工程化能力上的系统突破,有望进一步降低产业应用门槛,推动 OCR 技术在真实生产环境中的深度落地。

目前,PaddleOCR-VL-1.5 已全面开源,开发者可通过GitHub、Hugging Face获取,并在 PaddleOCR 官网进行在线体验或通过百度智能云千帆平台调用API接口。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 22:55:21

基于SpringBoot的房屋租售系统毕业论文+PPT(附源代码+演示视频)

文章目录一、项目简介1.1 运行视频1.2 🚀 项目技术栈1.3 ✅ 环境要求说明1.4 包含的文件列表前台运行截图后台运行截图项目部署源码下载一、项目简介 项目基于SpringBoot框架,前后端分离架构,后端为SpringBoot前端Vue。基于SpringBoot的房屋…

作者头像 李华
网站建设 2026/6/10 11:09:39

掌握大数据领域Lambda架构的性能测试方法

掌握大数据领域Lambda架构的性能测试方法 关键词:Lambda架构、性能测试、批处理层、速度层、服务层、吞吐量、数据一致性 摘要:本文从Lambda架构的核心原理出发,结合生活场景类比,详细拆解大数据场景下Lambda架构的性能测试方法。…

作者头像 李华
网站建设 2026/6/3 16:20:17

【课程设计/毕业设计】基于springboot的智慧旅游系统基于springboot+vue智慧旅游服务平台网站系统【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/4 20:17:52

【计算机毕业设计案例】基于Springboot+Uniapp的农产品管理与销售微信小程序基于springboot的农产品管理与销售APP的设计与实现(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/10 9:18:20

弗吉尼亚大学团队突破:让AI从混乱动态场景中重建完美静态世界

当你举起手机拍摄房间时,总有人或宠物在镜头前晃来晃去,让你很难得到一张完美的空间照片。现在,弗吉尼亚大学的研究团队开发出了一项神奇的技术,能够从这些充满动态元素的视频中,自动提取出完美的静态场景。这项名为Wi…

作者头像 李华
网站建设 2026/6/10 11:12:35

Java毕设项目推荐-基于springboot+vue的java的中医养生知识科普分享系统的设计和实现基于java的中医养生系统的设计和实现【附源码+文档,调试定制服务】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华