跳到主要内容
版本:1.4.0

待标注

本章节将讲解:待标注的操作以及最佳工作流程。

1. 背景

当你的机器人已经“上岗”服务之后,一个重要的问题是,机器人如何持续优化自己的知识体系,让自己变地更加“聪明”。这里,就需要开发者结合上线之后的真实对话记录来教育机器人。

那我们的业务运营人员就是机器人的老师,机器人做了回答之后,针对这些回答首先要给机器人的响应判卷,然后让机器人订正这些错题。

主要的机器人教育工作场所是在「优化-标注与审核」页面。

这里判断的过程就是标注,主要在「待标注」界面操作;让机器人订正错题就是将错题加入机器人的知识里,即将订正的结果加入意图触发,在「已标注」页面工作。

2. 操作说明

点击“筛选”按钮,则会展开相关筛选条件,可以选择处理来源为“日志语句”或“重新标注”的。

filter-zh-v1.0

note

日志语句:指未标注过的数据,不包含“机器人测试”的数据

重新标注:在已标注页面被打回需要返工重新标注的部分,已在意图中的相似问题不会出现在这里

  1. 筛选字段和字段值:

    1. 待标注语料来源:“日志语句”或“重新标注”,仅能单选
    2. 询问时间为对应时间段,格式举例 “2021-09-12 → 2021-09-15” ,可以选择日期区间段。
    3. 识别意图分数位0-1的之间,最多两位小数,如 “0.5 ~ 0.85” 。
    4. 识别意图可以选择选择多个意图或单个意图,含无意图
    5. 语料上限100000条,不可修改,超出审核数量之后按照时间顺序,时间较久的自动删除
  2. 操作交互逻辑:

    1. 筛选 点击“筛选”按钮后,展示筛选框。
      • 如果未进行筛选操作,点击“筛选”按钮,展开筛选框
      • 如果筛选框已展示时,点击“筛选”按钮,筛选框依然保留,不收起
      • 如果已进行筛选操作,点击“筛选”按钮时,筛选框中展示的筛选条件为当前筛选条件
      • 记录当前用户对该机器人的历史筛选条件,只要未清空,再次进入当前页面时,依然保持上一次的筛选条件
    2. 确定 设置筛选条件后,点击“确定”按钮,根据新设置的筛选条件进行筛选和展示,筛选框保留
    3. 收起 设置筛选条件后,点击“收起”按钮,筛选框收起,页面保持不变;再次点击筛选,依旧展示“收起”前的筛选条件
    4. 清空条件 点击清空条件,清除筛选条件,页面恢复未筛选状态,筛选框保留
  3. 标注卡片页面主要操作,按时间由近到远的展示在待标注语句列表,卡片内容包括:

    1. 用户语句 用户发送的真实语句,可以编辑用户语句,也支持编辑为句式,编辑后的语句会将原始语句直接覆盖,不能修改为空

    query-edit-zh-v1.0

    1. 识别意图 真实日志中机器人识别的意图和打分,如果是兜底则意图名称为“-”
      • 回复内容:展示真实日志对应意图的第一条回复内容
    2. 推荐意图 根据当前机器人状态计算出的推荐至多top6的意图(指除识别意图之外的意图中,识别意图分数较高的)
      • 点击意图名称,可以出现意图详情编辑,供查看详情和做相关修改
    3. 正确 标注对应意图为正确意图,点击后当前语句进入已标注数据页面
    4. 其他意图 点击后弹窗展示意图名称列表,支持搜索意图名称(包括自定义意图和预设的系统意图)或新建意图,选取后还需要点击确认是库内问题还是库外问题

      库内问题,指用户提问时机器人已有的意图;库外问题,指用户提问之后新建的意图

    more-intent&creat-zh-v1.0

    1. 新建意图 点击后,可以新增对应的意图,主要用于用户语句是业务知识但在机器人中没有对应意图的情况,这时需要新建

      如果发现用户的语句应当属于机器人中尚未创建的意图,或晚于该消息之后创建的意图,则应该新建意图或选择对应新建的意图,并标注为库外,因为消息进入机器人的时候,机器人并没有相关知识。

    2. 语意不明 点击后当前语句消失,进入已标注数据,通常用于用户输入无意义词句,表情,符号,纯字母数字等情况
    3. 忽略 点击后当前语句消失,进入已标注数据,通常用于一次性处理的问题,用户提问比较特殊且在可以预见的将来凭经验不会再次出现
  4. 批量处理:可以批量选中当前页面的待标注内容,标注为语义不明、忽略、以及意图识别结果正确;页面可以点击取消批量处理操作。

    multi-select-control-zh-v1.0

  5. 设置:可以勾选标注后,召回意图与标注意图不一致的,即机器人召回错误的快速添加到意图触发中。

    auto-add-set-zh-v1.0

    note

    意图触发的生效需要点击生效和“训练与发布”进行训练和发布机器人。

3. 工作流程建议

为了更高效的进行机器人的批改和教育工作,这里对较为成熟的机器人有一些分门别类的处理建议。可以将用户说法按照置信度分为三个类型:

  • 高置信度的用户说法。这代表机器人对这个用户说法已经识别的很准确了。这也意味着机器人不需要再学习这些用户说法了。

  • 中置信度的用户说法。这代表机器人对这个用户说法还不是那么确定,需要开发者“教育”。

  • 低置信度的用户说法。这代表机器人对这个用户说法很陌生,此时,很有可能这类用户说法代表的意图并不在机器人现有的知识系统中。

相应的,可以使用标注页面的筛选来进行相关处理,我们可以自行设置这批处理的识别意图分数区间段,来帮助我们的标注工作更迅速。

  1. 低分快速排除,可以筛选设置0.00-0.01的分数区间段,批量标注其中表情、符号、字母、链接等情况为语义不明。
  2. 高分极速确认,可以筛选设置0.90-1.00的分数区间,因为此部分分数极高,所以可以快速浏览意图正误批量确认。
  3. 次高分数段逐步处理,可以按每0.1或0.05的区间段逐渐向下处理,比如( 0.8-0.9 → 0.7-0.8 → 0.6-0.7 )。
  4. 在处理机器人应答分数较低的用户语句时,可以新开一个页面用于搜索意图,有助于提高工作效率。