AI中国网 https: //www.cnaiplus.com
使用表格文字识别技术,对个人、商品、公示内容等纸质信息登记表进行识别,快速实现表格内容的电子化,用于登记信息的结构化整理和统计,大幅度降低信息电子化工作的人力录入成本,提升信息管理的便捷性
一.平台接入
此步骤比较简单,不多阐述。可参照之前文档:
二.分析接口文档
1.打开API文档页面,分析接口要求
(1)接口描述
对图片中的表格文字内容进行提取和识别,结构化输出表头、表尾及每个单元格的文字内容。支持识别常规表格及含合并单元格表格,并可选择以JSON或Excel形式进行返回。
(2)请求说明
需要用到的信息有:
Body中放置请求参数,参数详情如下:
本接口为异步接口,分为两个API:提交请求接口、获取结果接口。这里有一个关键参数:is_sync,取值为“false”,需通过获取结果接口获取识别结果;取值为“true”,同步返回识别结果,无需调用获取结果接口。当然,能一次搞定的绝不用两次,只需设置该参数为“true”即可。
(3)返回参数
返回示例
2.获取access_token
三.识别结果
1.
识别结果:
2.
识别结果:
3.
识别结果:
4.
识别结果:
结论:
识别结果方面:
采用不同形式的复杂表格进行测试,识别结果比较准确,能够大大减少信息录入工作。
处理速度方面:
每张图片处理时间在3-5s,可以接受。
源码共享
四.
五.意见建议
1.整体识别效果还是不错的,识别结果的精确度还有待提高,细节处理还可以更完善。比如复杂表格识别文字串行,个别文字丢失或错误等。
2.对表格中有手写体文字的识别效果不好,建议增加对手写输入的识别。
AI中国网 https: //www.cnaiplus.com
本文网址: