跳到主要内容
版本:latest

文档理解

简介

文档理解是来也智能文档处理平台提供的综合性AI能力,利用平台上已有的OCR、NLP原子能力以及深度学习模型,能够协助机器人理解文档,对文档进行分类、比对、关键信息提取。

文档类型

我们把业务中的数据分为结构化、半结构化、非结构化三类,以下是他们的一些特点:

  • 结构化
    • 文档版面样式固定,不同样本之间没有版式差异
    • 例如办理业务的信息收集表,样式都是固定的,需要用户在空白处填写信息
  • 半结构化
    • 文档版面样式相对固定,不同样本需要提取相同的内容,但是提取内容出现的位置可能不同
    • 例如公司从不同供应商采购货物的送货单,每个供应商都会有自己的格式,但是送货单上都会有订单号、商品的信息等
  • 非结构化
    • 文档没有显著的版面样式,虽然要提取相同的内容,但是可能会使用不同的表达方式
    • 例如合同、简历等几乎都是用纯文本表达的文档

功能简介

目前,我们把文档理解中的能力,按照任务类型划分为分类、抽取、比对3种类型,每个AI能力的适用场景为:

  • 文档分类
    • 通过标注少量数据即可训练出一个文档分类模型,可以对文档进行分类推荐。
    • 适用于对整个文档进行分类,也支持对文档的每一页进行分类推荐。
  • 自训练抽取
    • 通过标注数据即可训练处一个文档抽取模型,对文档进行关键信息提取。
    • 我们提供了2种训练方式
      • 单据自训练适用于处理训练数据较少、文档为结构化或半结构化的场景,例如送货单、非标准化票据等。
      • 文档自训练适用于处理训练数据较多的场景,也非常适合处理非结构化的文档,例如合同、招标公告、简历等。
  • 文档比对
    • 适用于比对电子版合同和实际签署纸质合同扫描件,快速定位差异,提升法务人员工作效率。