跳到主要内容
版本:latest

文档抽取

业务场景描述

文档抽取是来也智能文档处理平台提供的开箱即用的智能文档理解能力,能协助用户完成文档关键信息的智能提取,实现将非结构化的长文本转换为结构化数据。

文档抽取提供的模型,是算法工程师通过文档理解功能训练出来的,并做了一些针对性优化。比如英文发票模型,其实是通过单页抽取模型功能训练出来的,并加入了大量的语义特征。

我们知道,RPA机器人能够按照预先设计好的规则,模拟人工处理流程中机械性、重复性的任务,协助完成大量“规则较为固定、重复性较高、附加值较低”的工作。对于一些涉及到文档处理的流程,还是需要大量人工介入。 以下面三个业务场景为例:

在政府、国有企业的红头文件归档场景中,档案管理员需要将文件扫描成电子版,并按照归档要求将红头文件的相关信息(如文件标题、发文号、发文机关等)录入档案系统。

在某设备销售企业的招投标监控场景中,商机拓展专员需要每天浏览各种不同的招标网站,获取最新的招标公告,对招标信息进行初步筛选,将招标公告的信息录入CRM系统中,如果企业的资质符合招标公告的要求,由销售员工进一步联系客户,进行投标等后续操作。

在单位招聘场景中,HR/人事专员在收到简历后,需要将员工信息录入到企业人才库。

在上述三个业务场景中,RPA能够处理流程中机械性、重复性的任务,但是却不能智能提取文档中的关键信息。以招标公告为例,RPA机器人可以去不同网站上抓取招标公告,但是如果没有AI能力的协助,业务人员依旧需要阅读抓取到的所有招标公告,将公告的信息手动提取到CRM系统中。

在流程中加入文档抽取AI能力,能够协助业务人员快速处理业务文档,提高工作效率,将业务人员从重复机械的阅读、打字工作中解脱出来,投入到更多的高杠杆工作中。

特点

文档抽取具有以下几个特点:

  • 智能提取:文档抽取的结果不完全来自原始文档,模型对不同的字段有不同的处理方式。如模型对归属地的抽取结果进行了地址结构化,招标公告中的业务类型来自于分类模型。
  • 简单易用:通过不同颜色的标注抽取结果,如果抽取结果来自原文,支持点击抽取结果快速定位。
  • 多种格式:支持.jpeg、.jpg、.png、.bmp、.tiff、.pdf、.doc、.docx格式。

使用方法

文字版

新建模型

1 登录Mage平台,从以下路径 预训练AI能力/文本理解/文档抽取 进入文档抽取模型页面。

docExt1

2 新建一个文档理解模型,根据业务需求选择OCR引擎和文档类型。

docExt2

抽取测试

1 点击文档抽取模型的测试,进入模型的测试页面。

docExt3

2 如果需要测试样本,可以点击获取测试样本获取;如果不需要,可跳过此步骤。

docExt4

3 上传一篇文档,点击开始测试,获取抽取结果。

注意:当文件页数过多时,请耐心等待,页面上会实时展示抽取进度。

抽取结果

不同的文档类型对应了不同的文档抽取模型,测试完成后可视化页面将展示当前模型支持的所有字段的抽取结果。

docExt6

结果主要有3种情况:

  • 原文抽取
    • 抽取结果来自于测试文档的原文
    • 支持点击列表中的字段内容后,更新文档预览视图并高亮对应的标注区域
  • 非原文抽取
    • 抽取结果来自于模型对于测试文档的理解,可能使用了分类模型、归一化处理等
    • 在文档预览区没有标注,点击列表中的字段内容后,文档预览视图不会更新
  • 未抽取到
    • 抽取结果为**-**
    • 模型没有在测试文档中抽取到当前字段

模型抽取字段

类型:招标公告

序号字段名key
1业务类型business_type
2项目名称project_name
3发布日期publish_time
4招标人tenderee
5资金来源funding_source
6归属地project_location
7招标范围project_scope
8工期project_schedule
9建设规模construct_scale
10投资额investment
11企业资质enterprise_qualification
12人员资质personnel_qualification
13业绩资格performance_qualification
14企业信用等级要求enterprise_credit_rating
15接受联合体joint_bid
16投标截止日期bid_deadline

类型:红头文件

序号字段名key
1文件版头header
2发文字号issue_number
3文件标题title
4主送机关main_delivery_agency
5附件attachment
6发文机关issue_agency
7行文时间write_time
8发放范围issue_scope
9签发人signer
10签发人职务signer_position
11主题词keywords
12抄送机关copy_delivery_agency
13印制机关print_agency
14印发时间print_time
15份数copies
16发送机关send_agency
17报送机关report_agency
18分送机关distribute_agency
19密级secret_level
20紧急程度emergency_level
21同号文件顺序号sequence_number

类型:简历

序号字段名key
1姓名name
2电话phone
3邮箱email
4籍贯native_place
5专业major
6学历education
7毕业院校graduate_school
8个人技能personal_skills
9工作经历work_experience

类型:合同

序号字段名key
1标的类型type_of_goods
2项目编号project_number
3项目名称project_name
4合同编号contract_number
5合同名称contract_name
6甲方party_a
7乙方party_b
8签订日期signing_date
9合同总价-大写contract_sum_in_words
10合同总价-小写contract_sum_in_nums
11币种currency
12交货日期delivery_date
13交货地点delivery_place
14账号-乙方account_of_party_b
15开户名-乙方account_name_of_party_b
16开户行-乙方account_bank_of_party_b
17付款条款payment_terms

类型:英文发票

序号字段名key
1发票号码invoice_number
2发行人名称vendor_name
3发行人地址vendor_address
4发票开具日期invoice_issued_date
5发票到期日invoice_due_date
6付款条件payment_terms
7产品明细description
8数量明细quantity
9单价明细unit_price
10总额明细subtotal
11货币类型currency
12税额合计tax_amount
13应付总额total_amount_due

类型:英文采购单

序号字段名key
1PO单号po_num
2下单日期po_date
3交货日期delivery_date
4供应商代码vendor_code
5供应商名称vendor_name
6供应商地址vendor_address
7供应商邮箱vendor_email
8供应商电话vendor_phone
9客户代码customer_code
10客户名称customer_name
11客户地址customer_address
12客户购买人customer_buyer_name
13客户收货名称customer_delivery_name
14客户收货地址customer_delivery_address
15客户收货邮箱customer_delivery_email
16客户收货电话customer_delivery_phone
17客户收单名称customer_billing_name
18客户收单地址customer_billing_address
19客户收单邮箱customer_billing_email
20客户收单电话customer_billing_phone
21币种currency
22付款条件payment_term
23产品行号line_number
24产品名称item_name
25产品料号item_code
26产品型号item_type
27产品描述item_description
28产品单位item_unit
29产品数量item_quantity
30产品单价item_unit_price
31产品折扣item_discount
32产品总额明细item_amount
33产品约定交付时间item_delivery_date
34总金额total