文档抽取
业务场景描述
文档抽取是来也智能文档处理平台提供的开箱即用的智能文档理解能力,能协助用户完成文档关键信息的智能提取,实现将非结构化的长文本转换为结构化数据。
文档抽取提供的模型,是算法工程师通过文档理解功能训练出来的,并做了一些针对性优化。比如英文发票模型,其实是通过单页抽取模型功能训练出来的,并加入了大量的语义特征。
我们知道,RPA机器人能够按照预先设计好的规则,模拟人工处理流程中机械性、重复性的任务,协助完成大量“规则较为固定、重复性较高、附加值较低”的工作。对于一些涉及到文档处理的流程,还是需要大量人工介入。 以下面三个业务场景为例:
在政府、国有企业的红头文件归档场景中,档案管理员需要将文件扫描成电子版,并按照归档要求将红头文件的相关信息(如文件标题、发文号、发文机关等)录入档案系统。
在某设备销售企业的招投标监控场景中,商机拓展专员需要每天浏览各种不同的招标网站,获取最新的招标公告,对招标信息进行初步筛选,将招标公告的信息录入CRM系统中,如果企业的资质符合招标公告的要求,由销售员工进一步联系客户,进行投标等后续操作。
在单位招聘场景中,HR/人事专员在收到简历后,需要将员工信息录入到企业人才库。
在上述三个业务场景中,RPA能够处理流程中机械性、重复性的任务,但是却不能智能提取文档中的关键信息。以招标公告为例,RPA机器人可以去不同网站上抓取招标公告,但是如果没有AI能力的协助,业务人员依旧需要阅读抓取到的所有招标公告,将公告的信息手动提取到CRM系统中。
在流程中加入文档抽取AI能力,能够协助业务人员快速处理业务文档,提高工作效率,将业务人员从重复机械的阅读、打字工作中解脱出来,投入到更多的高杠杆工作中。
特点
文档抽取具有以下几个特点:
- 智能提取:文档抽取的结果不完全来自原始文档,模型对不同的字段有不同的处理方式。如模型对归属地的抽取结果进行了地址结构化,招标公告中的业务类型来自于分类模型。
- 简单易用:通过不同颜色的标注抽取结果,如果抽取结果来自原文,支持点击抽取结果快速定位。
- 多种格式:支持.jpeg、.jpg、.png、.bmp、.tiff、.pdf、.doc、.docx格式。
使用方法
文字版
新建模型
1 登录Mage平台,从以下路径 预训练AI能力/文本理解/文档抽取 进入文档抽取模型页面。
2 新建一个文档理解模型,根据业务需求选择OCR引擎和文档类型。
抽取测试
1 点击文档抽取模型的测试,进入模型的测试页面。
2 如果需要测试样本,可以点击获取测试样本获取;如果不需要,可跳过此步骤。
3 上传一篇文档,点击开始测试,获取抽取结果。
注意:当文件页数过多时,请耐心等待,页面上会实时展示抽取进度。
抽取结果
不同的文档类型对应了不同的文档抽取模型,测试完成后可视化页面将展示当前模型支持的所有字段的抽取结果。
结果主要有3种情况:
- 原文抽取
- 抽取结果来自于测试文档的原文
- 支持点击列表中的字段内容后,更新文档预览视图并高亮对应的标注区域
- 非原文抽取
- 抽取结果来自于模型对于测试文档的理解,可能使用了分类模型、归一化处理等
- 在文档预览区没有标注,点击列表中的字段内容后,文档预览视图不会更新
- 未抽取到
- 抽取结果为**-**
- 模型没有在测试文档中抽取到当前字段
模型抽取字段
类型:招标公告
序号 | 字段名 | key |
---|---|---|
1 | 业务类型 | business_type |
2 | 项目名称 | project_name |
3 | 发布日期 | publish_time |
4 | 招标人 | tenderee |
5 | 资金来源 | funding_source |
6 | 归属地 | project_location |
7 | 招标范围 | project_scope |
8 | 工期 | project_schedule |
9 | 建设规模 | construct_scale |
10 | 投资额 | investment |
11 | 企业资质 | enterprise_qualification |
12 | 人员资质 | personnel_qualification |
13 | 业绩资格 | performance_qualification |
14 | 企业信用等级要求 | enterprise_credit_rating |
15 | 接受联合体 | joint_bid |
16 | 投标截止日期 | bid_deadline |
类型:红头文件
序号 | 字段名 | key |
---|---|---|
1 | 文件版头 | header |
2 | 发文字号 | issue_number |
3 | 文件标题 | title |
4 | 主送机关 | main_delivery_agency |
5 | 附件 | attachment |
6 | 发文机关 | issue_agency |
7 | 行文时间 | write_time |
8 | 发放范围 | issue_scope |
9 | 签发人 | signer |
10 | 签发人职务 | signer_position |
11 | 主题词 | keywords |
12 | 抄送机关 | copy_delivery_agency |
13 | 印制机关 | print_agency |
14 | 印发时间 | print_time |
15 | 份数 | copies |
16 | 发送机关 | send_agency |
17 | 报送机关 | report_agency |
18 | 分送机关 | distribute_agency |
19 | 密级 | secret_level |
20 | 紧急程度 | emergency_level |
21 | 同号文件顺序号 | sequence_number |
类型:简历
序号 | 字段名 | key |
---|---|---|
1 | 姓名 | name |
2 | 电话 | phone |
3 | 邮箱 | |
4 | 籍贯 | native_place |
5 | 专业 | major |
6 | 学历 | education |
7 | 毕业院校 | graduate_school |
8 | 个人技能 | personal_skills |
9 | 工作经历 | work_experience |
类型:合同
序号 | 字段名 | key |
---|---|---|
1 | 标的类型 | type_of_goods |
2 | 项目编号 | project_number |
3 | 项目名称 | project_name |
4 | 合同编号 | contract_number |
5 | 合同名称 | contract_name |
6 | 甲方 | party_a |
7 | 乙方 | party_b |
8 | 签订日期 | signing_date |
9 | 合同总价-大写 | contract_sum_in_words |
10 | 合同总价-小写 | contract_sum_in_nums |
11 | 币种 | currency |
12 | 交货日期 | delivery_date |
13 | 交货地点 | delivery_place |
14 | 账号-乙方 | account_of_party_b |
15 | 开户名-乙方 | account_name_of_party_b |
16 | 开户行-乙方 | account_bank_of_party_b |
17 | 付款条款 | payment_terms |
类型:英文发票
序号 | 字段名 | key |
---|---|---|
1 | 发票号码 | invoice_number |
2 | 发行人名称 | vendor_name |
3 | 发行人地址 | vendor_address |
4 | 发票开具日期 | invoice_issued_date |
5 | 发票到期日 | invoice_due_date |
6 | 付款条件 | payment_terms |
7 | 产品明细 | description |
8 | 数量明细 | quantity |
9 | 单价明细 | unit_price |
10 | 总额明细 | subtotal |
11 | 货币类型 | currency |
12 | 税额合计 | tax_amount |
13 | 应付总额 | total_amount_due |
类型:英文采购单
序号 | 字段名 | key |
---|---|---|
1 | PO单号 | po_num |
2 | 下单日期 | po_date |
3 | 交货日期 | delivery_date |
4 | 供应商代码 | vendor_code |
5 | 供应商名称 | vendor_name |
6 | 供应商地址 | vendor_address |
7 | 供应商邮箱 | vendor_email |
8 | 供应商电话 | vendor_phone |
9 | 客户代码 | customer_code |
10 | 客户名称 | customer_name |
11 | 客户地址 | customer_address |
12 | 客户购买人 | customer_buyer_name |
13 | 客户收货名称 | customer_delivery_name |
14 | 客户收货地址 | customer_delivery_address |
15 | 客户收货邮箱 | customer_delivery_email |
16 | 客户收货电话 | customer_delivery_phone |
17 | 客户收单名称 | customer_billing_name |
18 | 客户收单地址 | customer_billing_address |
19 | 客户收单邮箱 | customer_billing_email |
20 | 客户收单电话 | customer_billing_phone |
21 | 币种 | currency |
22 | 付款条件 | payment_term |
23 | 产品行号 | line_number |
24 | 产品名称 | item_name |
25 | 产品料号 | item_code |
26 | 产品型号 | item_type |
27 | 产品描述 | item_description |
28 | 产品单位 | item_unit |
29 | 产品数量 | item_quantity |
30 | 产品单价 | item_unit_price |
31 | 产品折扣 | item_discount |
32 | 产品总额明细 | item_amount |
33 | 产品约定交付时间 | item_delivery_date |
34 | 总金额 | total |