人工智能实战:RAG 图片与扫描 PDF 怎么处理?从 OCR 乱码到版面解析、图片证据与多模态索引
一、问题场景:文本 PDF 能答,扫描件和图片文档全错
企业知识库里有大量非结构化资料:
1. 扫描 PDF 2. 图片版合同 3. 截图 4. 手册图片 5. 带图表的报告 6. 盖章文件普通 RAG 管道通常假设:
文件 → 提取文本 → 切分 → 向量化但扫描 PDF 没有可提取文本,只能 OCR。
OCR 又经常出现:
1. 识别错字 2. 表格错乱 3. 页眉页脚污染 4. 多栏顺序错乱 5. 图片中的关键信息丢失 6. 印章和签名无法理解我见过一个合同问答系统。
用户问:
这份合同的付款期限是多少?系统回答错了。
排查发现:
付款期限在扫描 PDF 的图片中 OCR 把“30日内”识别成“3O日内”本文解决的问题是: