跳到主要内容

PDF表格识别

命令说明

将 PDF 指定的页码通过 Laiye Intelligent Document Processing 通用表格识别,识别结果返回 JSON 格式。在识别多页过程中如果其中一页失败则整个识别会返回错误,且会消耗配额

命令原型

jsonRet = Mage.PDFOCRTable(config, path,password,all_pg_state,page_cfg,sleepTime,time)

命令参数

参数必选类型默认值说明
configTrueexpression{}Laiye Intelligent Document Processing 的调用配置
pathTruepath'''C:\Users'''PDF文件路径
passwordTruestring""PDF文件密码,无密码不需要填写
all_pg_stateTruebooleanFalse当全部页码设为"是",则识别全部且指定页码输入无效。设为否时,可指定页码识别
page_cfgTrueexpression[[1,2]]支持正整数和数组格式,如输入2,则识别第2页;如输入[1,3,5],则识别第1,3,5页;如输入[1,[6,9],4],则识别1,4页和第6到第9页。当识别全部页码设为"是",则识别指定页码的输入失效。超出PDF页码总数的部分会报错,页码重叠部分仅识别1次
sleepTimeTruenumber10000识别PDF每页的间隔时长(以毫秒为单位),默认10000毫秒(10秒)。识别页数较多,间隔较短可能会导致调用频率超限错误
timeTruenumber30000指定等待时间(以毫秒为单位),如果超出该时间,则引发异常。默认30000毫秒(30秒)

返回结果

jsonRet,将命令运行后的结果赋值给此变量。

运行实例

/**********************PDF表格识别**********************
命令原型:
jsonRet = Mage.PDFOCRTable({}, '''C:\Users''',"",false,[[1,2]],10000,30000)
入参:
config--mage配置,需配置Pubkey和Secret.Type:Dict
path--待识别图片的PDF文件路径.Type:String
password--密码.无密码则不需要填写.Type:String
all_pg_state--是否识别全部页.Type:Bool
page_cfg--识别指定页码.Type:List
sleepTime--间隔时间.默认单位:毫秒.Type:Int
time--超时时间.默认单位:毫秒.Type:Int
出参:
jsonRet:函数调用的输出保存到的变量
注意事项:
需要获取mage对应的Key/Secret和URL
****************************************************/
Dim path='''''' // 待识别PDF的路径
Dim jsonRet="" // 输出结果

jsonRet = Mage.PDFOCRTable({"Pubkey":"SXX2ZbKqndP5QGhVyZM30eqh","Secret":"zidgGiVY5JzxoYMH2BB6o7YxBS97Xyv6","Url":"https://demo.laiye.com:8082"}, path,"",false,[[1,2]],10000,30000)
TracePrint(jsonRet)

可视化样例