跳到主要内容
版本:V3.5

业务场景描述

通用票据识别、通用卡证识别能够处理固定版式的半结构化数据,这些版式在各个政策文件里被定义为全国统一的标准。票据和卡证识别能够很好的处理这些数据,完成OCR识别和字段抽取的任务。
国家制定版式规范是为了统一管理,在企业单位的生产经营/事业单位的社会服务过程中,也会有类似的管理需求,会在企事业单位内部形成各式各样、具有业务特色的模板。自定义模板功能可以通过配置规则,抽取到这些模板中的数据。
我们可以通过几个成功案例来了解典型的使用场景:

  • 某电力单位财务部门制定了成本报销审批表、项目拨款审批表、退费拨款审批表、差旅费报销单等一系列财务单据的格式,员工发起内部审批时,需要上传这些单据。

    • 在使用RPA+AI前,财务人员需要人工核对单据与审批系统上的金额是否一致
    • 在使用RPA+AI后,自定义模板从单据上自动抽取关键字段,通过RPA比对抽取字段与审批系统金额是否一致,从而实现端到端的智能自动化。
  • 某制造业厂商代工商用电器,将国内生产的电器贴牌后销往国外。在发货过程中会产生发货单等单据。发货单和国内的发票内容基本相同,但由于国外没有税务监制的发票样式,通常每家公司的发货单格式都不相同。通过自定义模板可以实现识别并抽取单号、日期、收货人、货品等信息,将发货信息数字化到企业的ERP系统中。

  • 某疫苗厂商接收全国各地事业单位、医疗机构、部队的订单,新增客户和年审时需要审核这些单位的资质。审核资质过程中需要使用6种不同的AI能力,其中事业单位法人证目前Mage无法提供开箱即用的AI能力处理。通过配置自定义模板,能够抽取统一社会信用代码、名称、住所、有效期等信息,与OA系统中填报的信息进行比对。

自定义模板和信息抽取的适用场景

自定义模板和信息抽取功能都能够做抽取的任务,那么我们如何确定什么情况下选择什么能力呢?
从原理上看,信息抽取功能是通过上下文信息抽取,考虑文本特征;自定义模板功能是通过位置信息抽取,考虑位置特征。

我们看两个示例数据:
1)上市公司年报。股东名称、计划减持数量、计划减持比例这3个字段在文档中出现了多次,每次都在相同上下文中出现。即:

[@股东名称]本次拟减持其所持有的公司股份不超过[@计划减持数量]股,占公司总股本的[@计划减持比例]

p9p7Yb

这类数据我们可以认为更适合用信息抽取功能处理。举一反三,除了上市公司的公开年报之外,还有以下几种典型场景。

  • 从公文中抽取密级、发文机关、发文字号、主题分类、公文日期等。
  • 从合同中抽取客户名称、金额、签约时间等。
  • 从标书中抽取项目名称、业务类别、开标地址、资质、招标人等。
  • 从判决书中抽取原告、被告、使用法律、犯罪事实、罚款金额等。
  • 从药品说明书抽取药品名称、用药频次、计量等。

2)企业内部的发货单。如果想要抽取购买方公司名,需要使用自定义模板。通过购买方关键词向下搜索,获取到第一个条目。这个抽取任务更多的是利用向下搜索这个位置信息完成的。

eDWoyi

更多快速判断的方法:

  • 如果从非结构化的长文本中抽取字段,使用信息抽取。
  • 如果希望通过上下文模糊匹配抽取字段,使用使用信息抽取。
  • 如果从半结构化的票据(特别是票据中有表格)中抽取字段,使用自定义模板。
  • 如果需要根据位置关系定位字段值,使用自定义模板。
  • 如果抽取的字段值跟定位关键词的位置关系,在不同的文档中有轻微偏移,使用自定义模板。

特点

  • 灵活:能够处理固定版面的票据、单据。企业可以根据自己业务快速定制AI能力。
  • 简单:每个步骤都配有引导,无代码完成数据管理->标注->配置->评测->上线的全流程,手把手的教你如何打造一个可用于生产环境(即准确率符合预期)的机器人。

使用方法

视频版

RPA示例代码

下载示例代码压缩包:自定义模板识别

文字版

跟着本教程一步一步操作,30min学会如何使用自定义模板!

创建模型

1)登录Mage平台,点击自定义模板识别菜单。 FOmG1y

2)下载示例文件到本地 KzvLeP

3)新建一个自定义模板识别模型 Tu7jQ2

4)创建一个名为『费用账单』的模型 7tIB1B

5)点击开始配置 Ho2D0S

新建字段

6)进入后会看到『工作进度引导』,点击第一个流程,去新建字段 ESY4OU

7)查看步骤2)下载的示例文件,通过新建字段按钮,列出希望模型从文件中提取的所有字段 HYolJb

上传数据

8)此时工作进度列表显示『新建字段』流程已经完成,我们进入第二个流程『上传数据』 JL5eZl

9)通过添加数据按钮,将步骤2)下载的示例文件上传到平台 1IRmiF

标注数据 & 构建评测集

10)此时工作进度列表显示『上传数据』流程已经完成,我们进入第三个流程『标注数据』 KdCt3w

11)点击去标注按钮,开始标注 MNWpFA

12)进入后,左上角会提示标注方法,即:将鼠标置于图片上,移动到要标注的字段值的区域,点击后滑动框选字段值。 I16IIh

13)滑动框选后,系统会自动弹出标注弹窗,你可以在这个弹窗里修改标注结果(OCR识别错误的时候修改,没错不用修改)、选择字段,最后点击确认,保存标注内容。
注意:一个字段是可以被标注多次的。 GmXJyZ

14)以此类推,标注完所有字段后,系统会提示把这个图片加入到评测集,点击打开,用来一会儿评估模型的效果。 zt4DQq

15)然后点下一个,继续标完所有数据。标完的数据会显示为已标注的状态。
虽然标注有点花时间,但标完一次之后,以后不管模型做了什么修改,你都可以用这次标注的数据评测准确率。真的比每次修改模型之后,肉眼去看效果有没有提升方便多了。
PkucMe

16)全部标注完之后,回到数据列表,所有数据的状态都变成了已标注,也都被加入到了评测集。 jqadzd

新建版本

17)回到工作进度引导,发现『标注数据』和『构建评测集』都完成了,点击『新建版本』进入下一步操作。 V8l6zF

18)通过新建版本按钮创建一个名为『1』的版本,然后点击配置规则,来指定如何从图片里抽取到想要的字段。 BaaHwc

配置规则

19)通过【购买方】向下搜索,第一个条目就是购买方名称。 FfGiVY

20)点击『开始测试』,能看到识别结果。 F9WbQ9

21)通过【购买方】向下搜索,开启一键匹配多值,获取到向下搜索的所有条目,然后选择第二个结果输出。 juhsUk HpNTGA

22)以此类推,配置所有规则。 aYFrYq c8Ehjk gnq6lE NkwS9q

23)点击开始测试,发现有一个字段错了 5faYl5

24)没关系,我们配置一个正则把【电话:】这几个字过滤掉 fVef0w W2CqOA

25)回到字段页面,把『购买方电话』这个字段的类型改成刚创建的『电话号码』正则 DPL2kC

26)重新测试一下,发现准确率到了100% JV6KQr

27)点击其他图片,发现都是100% Vkg7MA

评测规则

28)回到工作进度引导,发现『配置规则』完成了,点击『评测规则』进入下一步操作。 1N6ma7

29)点击评测按钮,过一会儿就看到准确率更新了。 iAZuZU

30)点击准确率,可以下载评测报告。报告有4个sheet,可以从不同维度查看模型的效果。 s2lvmz

发布版本

31)所有步骤都完成后,就可以发布版本了。 rtRyl2

32)点击『发布』按钮即可。 EZP8n2

33)发布完,在外层的测试器,可以体验效果。 RuIBOf uY5lsn

后处理

在字段类型页面里新建枚举词表,填写【字段类型名称】及【枚举值】,在枚举值中列举全部可能出现的输出结果,点击【确定】完成新建。 Rfjkvk

新建字段,字段类型选择刚才创建好的枚举词表,应用后即可对抽取结果进行智能纠错。 Bgodo