文本分类
业务场景描述
文本分类是UiBot Mage平台提供的定制化文本理解能力,可以按照一定的规则将一段文本分到指定的类别。
举例来说,业务人员现在有若干条昨日的新闻标题,希望AI能协助判断这些新闻是什么类型,然后分发到相应的板块。
新闻标题 | 类别 |
---|---|
央行万亿资金落地,缘何未激起楼市“躁动水花” | 金融 |
连续29个跌停刷新A股记录的ST保千里打开跌停,可否抄底? | 金融 |
如果勇士今年夺得总冠军,是不是就算建立了王朝? | 体育 |
NBA历史排名前十都有谁? | 体育 |
此时,开发者就可以使用文本分类快速完成上述需求。
基础版VS智能版的区别
文本分类提供了2种分类方法,基础版提供基于用户定义的关键词进行分类,智能版提供预训练模型从用户上传的样本中学习规律进行分类。
基础版
基础版模型会使用用户预先定义关键词对测试文本进行严格匹配,实现文本分类。基础版适用于文本中有显著的关键词来对文本进行归类,有如下特点:
- 开发者需要预先设定所有需要辨别的分类。
- 每个分类可以有多个特征,特征之间是或的关系。
- 每个特征可以由若干个关键词组成的关键词组来定义,关键词之间是且的关系。
- 模型用每个分类下的所有关键词组进行严格匹配,一旦匹配成功,后续的关键词组将会被跳过,即一个分类下最多只会返回一组关键词组。
举例来说,用户创建了2个分类A和B,并添加了4个关键词组。
分类 | 特征 | 关键词组 |
---|---|---|
A | 特征x | O1,O2,O3 |
特效y | O1,O2,O4 | |
B | 特征i | O2,O3,O4 |
特征j | O2,O3,O5 |
当分类文本为"O1O2O3"时,匹配上了特征x的所有关键词,所以分类文本的类别为A。
当分类文本为"O1O2O3O4"时,匹配上了特征x、i的所有关键词,特征y因为在特征x后面会被跳过,所以分类文本的类别为A、B。
智能版
因为语言表达是多样的,所以很多时候在表达一个意思的时候,不同人会使用不同的表达方式。人工归纳总结所有特征显而易见是不可行的,所以就需要AI模型来学习样本中的特征,当用户再用类似的表达时,就能够识别其含义然后归入到正确的分类中。
智能版提供预训练模型,模型从用户上传的样本中学习规律,进行分类。智能版适用于分类需求比较复杂、不好归纳的场景,有如下特点:
- 开发者需要预先设定所有需要辨别的分类,至少创建两个类别才可进行训练。
- 需要开发者提供一些训练数据来训练一个语义理解模型。
- 模型的分类结果,会为测试文本和每个类别的匹配度打一个与之对应的分数,这个分数称为置信度。
- 可以将分类错误的测试文本加入训练集,持续优化模型的效果。
使用方法
基础版
1 登录平台后从以下路径 定制化AI能力/文本理解/文本分类 进入文本分类模型列表。
2 点击新建文本分类模型,创建一个基础版文本分类模型。
3 点击模型的设置,可以查看到该分类器的pubkey和secret。在UiBot Creator中使用该抽取器的服务时,需要输入这两个key。
4 点击模型的打开,进入模型配置页面。
5 点击添加分类,设置分类名、关键词组、备注等信息。
- 可以设置多个关键词组,关键词组之间是或的关系
- 一组关键词组包含的关键词是且的关系
- 支持通过快捷键回车快速添加关键词组
6 点击训练模型,模型训练完毕后会自动生效。
7 点击文本分类测试,输入测试文本,测试效果是否满足预期。
智能版
1 登录平台后从以下路径 定制化AI能力/文本理解/文本分类 进入文本分类模型列表。
2 点击新建文本分类模型,创建一个智能版的文本分类模型。
3 点击模型的设置,可以查看到该分类器的pubkey和secret。在UiBot Creator中使用该抽取器的服务时,需要输入这两个key。
4 点击模型的打开,进入模型配置页面。
- 可以通过页面提供的示例文件先熟悉分类功能
- 后续操作将基于示例文件中的长文本分类示例进行引导
5 点击添加分类,创建所有需要辨别的分类。
- 支持通过快捷键回车快速添加
6 点击每个分类 操作 下的上传样本,为每个分类添加训练样本。
7 点击训练模型,模型训练完毕后会自动生效。
- 至少创建两个类别才可进行训练
8 点击文本分类测试,输入测试文本,测试效果是否满足预期。
常见问题
智能版如何优化模型效果?
- 提供优质训练样本,避免同一个样本在多个分类的训练样本中同时出现。
- 单个训练样本不建议超过1000字。
- 所有类别的训练样本的数量尽量均衡,避免数量差异过大。
- 实际使用中,将分类错误的样本加入训练集,重新训练模型。