跳到主要内容
版本:latest

版面分析

业务场景描述

传统的文字识别能力可以提取图片上的文字,并按照一定规律(如从左至右、从上至下)输出识别结果。但是,当图片出现比较复杂的排列结构时,如分栏、图文混排,固定规律的输出会造成结果不可读,影响接下来的流程。

版面分析是UiBot Mage提供的图片理解原子能力,模型将检测和分析图片中的内容,将文档分割成不同的版面区域,并返回每个区域的类型、位置、内容、以及置信度。

特点

  • 简单易用:通过不同颜色的标注区域切分结果,支持原文标注和可视化结果双向快速定位。
  • 多种格式:支持jpeg, jpg, png, pdf, bmp, tiff格式等文档。

使用方法

文字版

新建模型

1 登录Mage平台,从以下路径 预训练AI能力/图片理解/版面分析 进入版面分析模型页面。 ocrLayout1

2 新建一个版面分析模型,根据需求选择OCR引擎。 ocrLayout2

版面分析测试

1 选择版面分析模型,点击右上角版面分析测试,进入模型的测试页面。 ocrLayout3

2 上传一张图片,点击开始测试,获取测试结果。

  • 支持根据区域类型进行内容筛选
  • 点击下载当前测试结果的内容
  • 点击JSON结果查看更详细的结果 ocrLayout4

区域类型

版面分析模型支持以下19种类型的分析:

序号类型名称key
1文档标题article_title
2层级标题paragraph_heading
3段落paragraph
4表格标题table_title
5全框表格full_line_table
6缺线表格wireless_table
7表格注释table_annotation
8图片标题picture_title
9图片picture
10图片注释picture_annotation
11页面注释page_annotation
12页眉page_header
13页脚page_footer
14列表list
15印章seal
16二维码qr_code
17签名handwritten_signature
18Logologo
19其他other