文档标注
本章将讲解:文档标注的作用,以及如何使用文档标注中的各项功能。
基本概念
使用平台上的文档功能,我们可以对保存在文档库中的文档进行打标签操作,进而利用这些标签提升文档检索的效率,但在这项基础操作中,标签数据均需要手动创建。针对这一点,平台提供了文档标注功能,用户能够利用它们实现标签数据的自动生成,进而实现自动打标签操作。
使用文档标注功能,需要我们手动创建文档标注的任务。在文档标注页面,我们可以根据需要创建不同的文档标注任务。目前,平台提供三种任务:正文提取、关键词提取以及实体抽取。
note
在对文档的正文内容执行关键词提取和实体抽取任务之前,需要先执行正文提取任务。
正文提取
使用正文提取功能,我们可以把文档库中文档的正文内容提取出来,保存到正文这一默认标签中,方便后续使用。
在文档标注页面创建一个正文提取任务。
在这个任务中配置要执行正文提取的文档数据范围。目前正文提取任务仅对文档类型为
LOCAL_UPLOAD
且文档格式为pdf
的文档提供支持,所以系统会将这两项限制配置为默认条件。在此基础上,用户可以添加条件,进一步筛选文档,缩小正文提取任务的执行范围。
note
目前正文提取仅对字数小于500字的pdf
文档生效。
利用新增条件,以及添加一组或关系,我们可以更精确得进行文档筛选。
如果我们在文档库内创建了自定义标签。这些自定义标签也会出现在系统提供的下拉列表中,以供我们设置筛选条件。
右上方的跳过已执行数据开关默认状态为打开,这意味着如果该任务被多次执行,已经执行过的文档将被忽略。
我们可以保存配置以待下次补充更多的条件,或者点击立即执行,此时系统将自动保存这些配置并开始执行正文提取任务。
关键词提取
关键词提取任务支持从文档的标题或正文中自动提取出多个关键词,并且依照规则配置,将提取的关键词结果保存至文档库内的标签中。
在文档标注页面创建一个关键词提取任务。
在这个任务中配置要执行关键词提取的文档数据范围。文档库的默认标签和用户自定义标签都将出现在系统提供的下拉列表中,我们可以根据需要来配置。关键词提取任务将仅仅对满足这些配置条件的文档执行提取操作。
配置关键词提取的规则,目前系统支持从文档的标题或正文中进行关键词提取,同时我们可以自定义想要提取的最大关键词的个数。如果引擎层提取结果超过了自定义个数,将根据算法排序之后,返回topN的提取结果。
我们可以将关键词提取的结果保存至系统提供的默认标签标题关键词或正文关键词中,当然,我们也可以将提取结果保存到我们自定义的标签中。
note
关键词提取仅支持对文本类型的标签进行赋值操作。同时,如果标签已经关联了实体,则不应该对其使用关键词提取,建议使用实体抽取。
- 完成了条件配置和规则配置后,我们可以保存配置以待下次继续补充更多的条件或规则,也可以直接点击立即执行,系统将自动保存这些配置并开始执行关键词提取任务。
实体抽取
实体抽取任务能够利用词库中的实体数据去过滤文档,进而从文档中抽取出实体,并且依照规则配置,将抽取的实体结果保存至文档库内的标签中。
在文档标注页面创建一个实体抽取任务。
在这个任务中配置要执行实体抽取的文档数据范围。文档库的默认标签和用户自定义标签都将出现在系统提供的下拉列表中,我们可以根据需要来配置。实体抽取任务将仅仅对满足这些配置条件的文档执行抽取操作。
配置实体抽取的规则。首先需要配置实体抽取的对象,系统可以分别从文档的标题和正文中抽取实体,另外,也可以从关键词提取的结果中再次抽取实体。
然后配置实体抽取结果的保存位置,这里的位置就是指文档库中的标签。如果作为目标位置的标签关联了实体,那么当标签被选中,这些实体会自动出现在其左侧的实体选择框中。此外,我们也可以在实体选择框中利用输入联想功能手动选择实体。实体抽取任务会使用实体选择框中的实体数据(包含实体值和泛化说法)去匹配文档,如果匹配成功,那么相应的实体值就会被填入标签中。
完成了条件配置和规则配置后,我们可以保存配置以待下次继续补充更多的条件或规则,也可以直接点击立即执行,系统将自动保存这些配置并开始执行实体抽取任务。
任务执行
点击立即执行后,我们可以在任务中心查看任务的执行状态,任务完成后,各项任务的结果数据将按照自定义配置被填入文档库内的标签中。我们可以进入文档库去查看,并进行人工审核或优化。