跳到主要内容
版本:V2.8

文本分类

业务场景描述

文本分类是UiBot Mage平台提供的定制化文本理解能力,可以按照一定的规则将一段文本分到指定的类别。

举例来说,业务人员现在有若干条昨日的新闻标题,希望AI能协助判断这些新闻是什么类型,然后分发到相应的板块。

新闻标题类别
央行万亿资金落地,缘何未激起楼市“躁动水花”金融
连续29个跌停刷新A股记录的ST保千里打开跌停,可否抄底?金融
如果勇士今年夺得总冠军,是不是就算建立了王朝?体育
NBA历史排名前十都有谁?体育

此时,开发者就可以使用文本分类快速完成上述需求。

基础版VS智能版的区别

文本分类提供了2种分类方法,基础版提供基于用户定义的关键词进行分类,智能版提供预训练模型从用户上传的样本中学习规律进行分类。

基础版

基础版模型会使用用户预先定义关键词对测试文本进行严格匹配,实现文本分类。基础版适用于文本中有显著的关键词来对文本进行归类,有如下特点:

  • 开发者需要预先设定所有需要辨别的分类。
  • 每个分类可以有多个特征,特征之间是的关系。
  • 每个特征可以由若干个关键词组成的关键词组来定义,关键词之间是的关系。
  • 模型用每个分类下的所有关键词组进行严格匹配,一旦匹配成功,后续的关键词组将会被跳过,即一个分类下最多只会返回一组关键词组。

举例来说,用户创建了2个分类A和B,并添加了4个关键词组。

分类特征关键词组
A特征xO1,O2,O3
特效yO1,O2,O4
B特征iO2,O3,O4
特征jO2,O3,O5

当分类文本为"O1O2O3"时,匹配上了特征x的所有关键词,所以分类文本的类别为A。

当分类文本为"O1O2O3O4"时,匹配上了特征x、i的所有关键词,特征y因为在特征x后面会被跳过,所以分类文本的类别为A、B。

智能版

因为语言表达是多样的,所以很多时候在表达一个意思的时候,不同人会使用不同的表达方式。人工归纳总结所有特征显而易见是不可行的,所以就需要AI模型来学习样本中的特征,当用户再用类似的表达时,就能够识别其含义然后归入到正确的分类中。

智能版提供预训练模型,模型从用户上传的样本中学习规律,进行分类。智能版适用于分类需求比较复杂、不好归纳的场景,有如下特点:

  • 开发者需要预先设定所有需要辨别的分类,至少创建两个类别才可进行训练。
  • 需要开发者提供一些训练数据来训练一个语义理解模型。
  • 模型的分类结果,会为测试文本和每个类别的匹配度打一个与之对应的分数,这个分数称为置信度。
  • 可以将分类错误的测试文本加入训练集,持续优化模型的效果。

使用方法

基础版

1 登录平台后从以下路径 定制化AI能力/文本理解/文本分类 进入文本分类模型列表。

2 点击新建文本分类模型,创建一个基础版文本分类模型。 keywords-1

3 点击模型的设置,可以查看到该分类器的pubkey和secret。在UiBot Creator中使用该抽取器的服务时,需要输入这两个key。

4 点击模型的打开,进入模型配置页面。

5 点击添加分类,设置分类名、关键词组、备注等信息。

  • 可以设置多个关键词组,关键词组之间是的关系
  • 一组关键词组包含的关键词是的关系
  • 支持通过快捷键回车快速添加关键词组

keywords-2

6 点击训练模型,模型训练完毕后会自动生效。

7 点击文本分类测试,输入测试文本,测试效果是否满足预期。

keywords-3

智能版

1 登录平台后从以下路径 定制化AI能力/文本理解/文本分类 进入文本分类模型列表。

2 点击新建文本分类模型,创建一个智能版的文本分类模型。

model-1

3 点击模型的设置,可以查看到该分类器的pubkey和secret。在UiBot Creator中使用该抽取器的服务时,需要输入这两个key。

4 点击模型的打开,进入模型配置页面。

  • 可以通过页面提供的示例文件先熟悉分类功能
  • 后续操作将基于示例文件中的长文本分类示例进行引导

model-2

5 点击添加分类,创建所有需要辨别的分类。

  • 支持通过快捷键回车快速添加

model-3

6 点击每个分类 操作 下的上传样本,为每个分类添加训练样本。

model-4

7 点击训练模型,模型训练完毕后会自动生效。

  • 至少创建两个类别才可进行训练

8 点击文本分类测试,输入测试文本,测试效果是否满足预期。

model-5

常见问题

智能版如何优化模型效果?

  1. 提供优质训练样本,避免同一个样本在多个分类的训练样本中同时出现。
  2. 单个训练样本不建议超过1000字。
  3. 所有类别的训练样本的数量尽量均衡,避免数量差异过大。
  4. 实际使用中,将分类错误的样本加入训练集,重新训练模型。