苏州西交利物浦技术转移中心

文档图像识别与信息提取

项目背景

文档识别（包括扫描文档、拍照文档以及手写文档）是把扫描或者拍照文档图像中的文字识别出来，转为电子文本，便于计算机处理和理解。随着国家数字化转型的推进，文档识别作为其中一项关键技术具有广阔的应用前景，比如档案的数字化、手机拍照文档图像中的关键信息提取（产品说明书）、拍照文档多语言的翻译等。

简介

目前在一些规则的文档图像上市面上已经有很多识别效果较好的产品，但是面对光照、弯曲等文档下识别效果还不佳，此外，对于给定文档即使识别出来之后的自动提取出信息也是一个有必要的工作，比如发票上的金额、单位等信息，以及这些信息之间的关系，这也是目前技术的难点所在。

合作

合作方式产业合作、面谈
项目负责人王秋峰

技术优势

（1）面对低分辨率图像，我们采用生成对抗网络（Generative Adversarial Network）技术进行分辨率提升，获得清晰可识别的文字图像；
（2）面对弯曲的拍照文档，我们采用基于极坐标的框架下一阶段的弯曲矫正方法，文档图像提取和矫正进行端到端的训练，效果更佳；
（3）手写中文文档识别技术，我们采用过分割（Over-Segmentation）的技术结合贝叶斯推理进行识别，结合语言模型等上下文信息进行识别和推理，相比于目前的大部分识别方法，我们可以获得每个识别字符的位置和对应的置信度，可解释性高。

应用场景

文档图像数字化、文档图像信息自动抽取

对应课题

无

知识产权

1、基于关键点引导的拍照文档弯曲矫正方法及设备 CN116740720B
2、基于互联网检索的中文文档识别方法 CN109684928B