文档理解
简介
文档理解是来也智能文档处理平台提供的综合性AI能力,利用平台上已有的OCR、NLP原子能力以及深度学习模型,能够协助机器人理解文档,对文档进行分类、比对、关键信息提取。
文档类型
我们把业务中的数据分为结构化、半结构化、非结构化三类,以下是他们的一些特点:
- 结构化
- 文档版面样式固定,不同样本之间没有版式差异
- 例如办理业务的信息收集表,样式都是固定的,需要用户在空白处填写信息
- 半结构化
- 文档版面样式相对固定,不同样本需要提取相同的内容,但是提取内容出现的位置可能不同
- 例如公司从不同供应商采购货物的送货单,每个供应商都会有自己的格式,但是送货单上都会有订单号、商品的信息等
- 非结构化
- 文档没有显著的版面样式,虽然要提取相同的内容,但是可能会使用不同的表达方式
- 例如合同、简历等几乎都是用纯文本表达的文档
功能简介
目前,我们把文档理解中的能力,按照任务类型划分为分类、抽取、比对3种类型,每个AI能力的适用场景为:
- 文档分类
- 通过标注少量数据即可训练出一个文档分类模型,可以对文档进行分类推荐。
- 适用于对整个文档进行分类,也支持对文档的每一页进行分类推荐。
- 自训练抽取
- 通过标注数据即可训练处一个文档抽取模型,对文档进行关键信息提取。
- 我们提供了2种训练方式
- 单据自训练适用于处理训练数据较少、文档为结构化或半结构化的场景,例如送货单、非标准化票据等。
- 文档自训练适用于处理训练数据较多的场景,也非常适合处理非结构化的文档,例如合同、招标公告、简历等。
- 文档比对
- 适用于比对电子版合同和实际签署纸质合同扫描件,快速定位差异,提升法务人员工作效率。