大语言模型，实现智能客服知识库自动扩写功能（客服电话语音导航内容）

知识网 • 2023-06-04 14:03:09 • 科普 • 阅读 100

突然之间，大语言模型纷纷涌现，各厂商经过短暂观望之后，纷纷向最佳应用实践战场之一的智能客服领域出手。首先落地的场景就是知识库自动扩写，这也是AIGC能力在智能客服最直观的落地应用场景之一。本文作者对智能客服知识库自动扩写功能进行了分析，一起来看一下吧。

大语言模型“忽如一夜春风来”，作为最佳应用实践战场之一的智能客服领域，各厂商经过短暂的观望之后纷纷出手。首先落地的场景就是知识库自动扩写，这也是AIGC能力在智能客服最直观最简单的落地应用场景之一。

一、AI训练师的“神器”？

智能客服领域的一个难点在于知识领域是狭窄的，AI机器人必须被限定于企业账户级的知识库中。

而智能客服中的知识库，就是一个限定领域内的企业私有知识库，如果不配置外接知识库的情况下，AI文本和语音机器人都会在此知识库范围内进行问答。

所以智能客服机器人的智能化程度，受制于这个知识库的完善。

运营较好的企业，会进行大量的知识库维护工作，帮助机器人校准回答水平。

对于重度的智能客服AI机器人使用者，这是一项高度依赖人力的工作，必须配备专职的AI训练师岗位进行话术流程搭建，知识库维护工作。

AI训练师的常见工作流程包括：分析客户话术流程需求，设计话术流程模板，搭建话术知识库，测试话术流程，配合上线、收集运营数据反馈调优等。

既有对产品大量的操作性工作，也包括大量的客户沟通。其中对知识库的编写，是最费时费力的工作之一。

有经验的AI训练师会借助积累的通用知识库，领域知识库和常用模板，来达到快速冷启动的目的。

而对话术中的详细知识点进行针对性地扩写，是绕不开的一个工作。

借助大模型能力，协助AI训练师进行知识库扩写，就是为了解决她们的效率问题。

二、AI谈谈实现方案

如何通过大语言模型，实现智能客服知识库的自动扩写，听听AI的建议。

知识点自动扩写通过大语言模型的实现方案要考虑：

选定知识库和知识点：从现有知识库中选定需要扩充的知识点，如概念、实体等。这决定了扩充内容的范围和方向。收集相关语料：通过各种方式收集与选定知识点相关的语料，如网页数据、文献数据、问答数据等。语料规模和质量直接影响生成文本的效果。选择语言模型：选择一个合适的预训练语言模型，如BERT、GPT-3、Transformer等。不同模型适用不同类型和规模的数据，模型性能也不同。设计定制模板：根据扩充目标设计定制模板，如概念解释模板、问答模板、例句模板等。模板的设计指导和规范了语言模型的生成过程。构建生成框架：构建一个生成框架，将语言模型、语料和定制模板有机结合，使其协同工作完成文本生成任务。框架的关键是输入与输出的有效衔接。生成多样化文本：在框架中生成多个候选扩充文本，这些文本需尽量保证多样性以提高选择空间。评估和筛选：采用自动评估与人工评估相结合的方式对生成文本进行评估和筛选，选择内容丰富、准确度高和最符合要求的文本。添加到知识库：将选择出的扩充文本添加到对应的知识点下，以实现知识点的详细描述和内容扩充。持续监测与优化：持续监测已添加扩充文本的有效性，并收集用户反馈意见。根据反馈进行生成框架的优化，不断提高扩充质量。重复迭代：对更多知识点重复上述步骤，逐渐实现知识库的广度和深度扩充。

在实现中需要注重语料和模板的选用，框架的设计，生成文本的筛选，以及优化机制的构建等方面。良好的设计可以大大提高自动扩充的效率与效果。同时，人工参与也是关键，特别是在评估选文本和优化框架中。

总之，知识点自动扩充需要构建一个涵盖语言模型、语料、模板的动态框架，利用多轮迭代不断优化和改进，最终实现高质量的知识扩展。

知识点扩充的技能也可以用于实现相似问句的自动生成。实现方法可以包括：

构建知识图谱：收集与给定知识点相关的所有信息，构建知识图谱，包括相关概念、实体、事件等及其关系。知识图谱提供了生成相似问句所需的丰富语境信息。设计问句模板：分析给定知识点相关的典型问句，设计多个问句模板（包含实体槽位）以指导生成过程。不同模板代表不同的问句角度和表达方式。填充实体槽位：利用知识图谱为每个模板的实体槽位填入相关实体或概念，形成多个问句候选项。实体的替换会产生相似但表达不同的问句。评分与筛选：根据问句的语义相似度、流畅度以及其它标准对候选问句进行评分，选择最优的若干个问句。然后可以人工选取最佳的几个问句。迭代优化：分析选取的问句以及人工反馈，对知识图谱和问句模板进行优化修正，以产生更高质量的问句候选项，实现迭代提高。持续生成：对更多知识点重复上述步骤，通过累积的知识图谱和模板库持续生成更丰富的相似问句，实现自动问句扩充。

总体来说，要实现相似问句的自动生成，需要构建问句生成框架，框架基于知识图谱和问句模板，可以填充实体生成候选问句，并通过评分、筛选和优化不断改进，最终产生高质量的相似问句，实现知识点的问句扩充。

核心实现逻辑完全类型，其中的填充实体槽位是实现相似问句自动生成的关键步骤之一。主要的实现方法有：

实体提取：从相关语料中提取与知识点对应的实体，如概念实体、名词实体等。这需要利用实体识别与链接技术实现。实体候选：根据模板中的槽位类型，从提取的实体中选择与槽位匹配的实体候选项。每个槽位可能对应多个候选实体。实体组合：根据不同的槽位，从其对应的实体候选项中选取若干个实体，进行所有槽位的实体组合，形成完整的问句内容。相关度排序：对所有实体组合生成的问句，计算其与知识点的相关度或相似度，并进行排序。相关度越高的问句被赋予更高的生成概率。beam search：在生成过程中，根据相关度对实体组合的问句进行beam search，只追踪相关度较高的Top-K个组合，扩展它们生成更多候选问句。这可以提高生成质量。随机选择：在一定概率下，从实体候选项中随机选择填入实体，而不是选择相关度最高的选项。这可以增加生成结果的diversity。人工干预：如果自动生成的实体组合问句不满意，可以人工指定某些实体入选或移出，人工干预结果与自动生成结果融合，改进生成质量。

所以，填充实体槽位的关键在于从相关语料中抽取实体候选项，然后根据相关度、beam search以及随机机制等策略选择若干实体入槽，形成完整的问句。人工也可以参与其中，与自动生成结果融合，不断优化和改进。

通过上述方法，可以为每个模板的实体槽位填充多个实体选项，产生多个相似但略有差异的问句。这为后续评分筛选提供了丰富的候选空间，有助于选取最优的问句，达到问句扩充的目的。填充实体槽位是实现高质量相似问句生成的关键环节。

知识点：

diversity增强和beam search策略都是用于提高语言模型生成文本的多样性，从而产生更丰富的多样化文本。

diversity增强指在文本生成过程中，人为地增加一定的随机性或噪声，以鼓励语言模型产生更加多样的表达，而不是单一的序列。常用的方法是：

随机采样：从语言模型的输出分布中随机采样，而不是直接选择概率最高的输出。这会使得最终的输出序列更加随机。噪声注入：在文本生成的中间节点向输出序列注入一定的噪声或随机token，这会促使后续生成更加多样。重启机制：当生成过程进入”过于确定”的状态时，允许重新开始生成（restart），这可以使整体的生成结果更加多样。

Beam search策略是一种启发式搜索算法，它在解空间中维护多个候选解，而不是直接选择单一的最优解。在文本生成中，会追踪语言模型的多个可选输出序列，并在后续生成中继续扩展这些序列，最终选择其中概率最高的序列作为输出结果。

与直接生成单一输出序列相比，beam search策略会产生更加多样的候选序列。通过控制beam的宽度，可以决定追踪的序列数目，实现对输出多样性的控制。

所以，总体来说，diversity增强会通过引入噪声或随机性主动干预生成过程，提高输出的多样性;而beam search策略则是通过追踪并扩展多个可选序列，为最终输出结果提供更丰富的选择空间。

两者的目的都是鼓励语言模型产生更加多样的表达，以此来获得更丰富的candidate文本。这为知识扩充的选取阶段提供更广泛的内容选择空间，有助于最终选择更加符合要求和高质量的文本，实现扩充效果的提高。对生成文本的diversity控制和提高是知识扩充研究的一条重要途径。

当然借助大模型实现，未必需要关注模型和算法具体实现。

三、对正则表达式的扩写

针对机器人知识库常用的正则表达式的自动扩写，也可以通过大语言模型进行自动扩写。需要考虑的内容包括：

深入解析问句正则表达式：利用正则表达式解析技术深入理解其表达的语义与信息，提取关键词、概念、变化范围等，准确把握其表达意图。构建正则模板：根据解析结果设计多个正则表达式模板，代表不同的问句表达形式和角度。模板中包含可替换的词汇或符号作为槽位。填充词汇/变换：根据实际语境，为正则模板的槽位填入相关词汇或变换模板中的符号，形成新的正则表达式。词汇/符号的替换将产生语义相似但结构略变的新的正则表达式。组合生成：将不同的正则模板按照一定策略组合，并为不同模板的槽位填入词汇/变换模板，形成更复杂的正则表达式，代表更广泛的问句形式。评分与选择：对所有生成的正则表达式问句，根据语义相关度、复杂度等标准进行评分，选择最优的若干个表达式。然后人工选取其中最佳的几个表达式。优化与提高：分析选取的结果和人工反馈，优化正则模板、词汇列表和变换策略，产生更高质量的候选正则表达式，不断提高生成效果。

所以，要实现对正则表达式问句的正则表达式相似问句生成，关键是要深入理解正则表达式的语义，设计正则模板并通过填充词汇和变换模板产生候选表达式。然后通过评分选择、优化提高，最终生成高质量的相似正则表达式，达到问句的扩充要求。

四、实例：知识库扩写生成测试

1）相似问的AI自动生成

我从实际的AI机器人知识库中，随机抽取了几个场景的问题，拿来让AI测试下自动扩写生成。（Q为原句，A为AI扩写的内容，每次生成5句备选）

Q：黑金卡免费停车卡为什么不能马上使用？

A：

为什么开通了黑金卡免费停车服务后不能直接使用？申请黑金卡免费停车卡后为何要过一段时间才能正常使用？开通黑金卡专属免费停车服务为何需要等待一定时间才能使用？享有黑金卡免费停车权益为什么首次使用要待一段时间？黑金卡停车卡申请下来为什么不能立即启用使用？

Q：高端领军人才怎么申请人才公寓？

A：

高端领军人才如何申请人才公寓的资格？高端领军人才申请入住人才公寓需要满足什么条件？高端领军人才想申请人才公寓，需要准备什么申请材料？高端领军人才申请人才公寓的流程和步骤是什么？高端领军人才要申请人才公寓，需要符合什么要求和标准？

Q：你是真人嘛？你是不是机器人？

A：

你是人工智能聊天机器人吗？你是真实的人类用户还是AI系统产生的效果？我们现在的交谈对话是和真人进行的还是和机器人系统？我现在与之交流的对象是人类用户还是人工智能聊天机器人？我们此刻的对话是在跟真人对话还是在跟聊天机器人对话？

2）正则表达式相似问

A：

Q：别打|别再|别给我打|不要打|不要再打|联系过|不要联系|不要再联系|天天打|一直打|老是打|

A：

3）带有组合关系的正则表达式（且

赞 (0)

知识网

0

生成海报

大语言模型，实现智能客服知识库自动扩写功能（客服电话语音导航内容）
上一篇 2023年06月04日

中国旅游日，跟着李白、杜甫、徐霞客去旅行（徐霞客是旅行家吗）
下一篇 2023年06月04日

相关推荐

玩家必看教程“雀神麻将有挂的吗是真的吗吗知乎”(确实是有挂)_抖音推荐" target="_blank" rel="bookmark">玩家必看教程“雀神麻将有挂的吗是真的吗吗知乎”(确实是有挂)_抖音推荐" data-original="http://www.lycdw.com/css/1.jpg" /> 科普

玩家必看教程“雀神麻将有挂的吗是真的吗吗知乎”(确实是有挂)_抖音推荐

知识网
科普 2024年10月27日
000

玩家必看教程“星星麻将有挂吗”(确实是有挂)_抖音推荐" target="_blank" rel="bookmark">玩家必看教程“星星麻将有挂吗”(确实是有挂)_抖音推荐" data-original="http://www.lycdw.com/css/1.jpg" /> 科普

玩家必看教程“星星麻将有挂吗”(确实是有挂)_抖音推荐

知识网
科普 2024年10月27日
000

玩家必看教程“手机麻将有挂的吗知乎推荐下载”(确实是有挂)_抖音推荐" target="_blank" rel="bookmark">玩家必看教程“手机麻将有挂的吗知乎推荐下载”(确实是有挂)_抖音推荐" data-original="http://www.lycdw.com/css/1.jpg" /> 科普

玩家必看教程“手机麻将有挂的吗知乎推荐下载”(确实是有挂)_抖音推荐

知识网
科普 2024年10月27日
000

玩家必看教程“手机麻将有挂的吗知乎推荐一下”(确实是有挂)_抖音推荐" target="_blank" rel="bookmark">玩家必看教程“手机麻将有挂的吗知乎推荐一下”(确实是有挂)_抖音推荐" data-original="http://www.lycdw.com/css/1.jpg" /> 科普

玩家必看教程“手机麻将有挂的吗知乎推荐一下”(确实是有挂)_抖音推荐

知识网
科普 2024年10月27日
000

玩家必看教程“手机麻将有挂的吗知乎下载安卓”(确实是有挂)_抖音推荐" target="_blank" rel="bookmark">玩家必看教程“手机麻将有挂的吗知乎下载安卓”(确实是有挂)_抖音推荐" data-original="http://www.lycdw.com/css/1.jpg" /> 科普

玩家必看教程“手机麻将有挂的吗知乎下载安卓”(确实是有挂)_抖音推荐

知识网
科普 2024年10月27日
000

玩家必看教程“微悦内蒙古麻将有挂吗”(确实是有挂)_抖音推荐" target="_blank" rel="bookmark">玩家必看教程“微悦内蒙古麻将有挂吗”(确实是有挂)_抖音推荐" data-original="http://www.lycdw.com/css/1.jpg" /> 科普

玩家必看教程“微悦内蒙古麻将有挂吗”(确实是有挂)_抖音推荐

知识网
科普 2024年10月27日
000

玩家必看教程“功夫麻将有挂吗知乎”(确实是有挂)_抖音推荐" target="_blank" rel="bookmark">玩家必看教程“功夫麻将有挂吗知乎”(确实是有挂)_抖音推荐" data-original="http://www.lycdw.com/css/1.jpg" /> 科普

玩家必看教程“功夫麻将有挂吗知乎”(确实是有挂)_抖音推荐

知识网
科普 2024年10月27日
000

玩家必看教程“手机麻将有挂的吗安全吗知乎推荐”(确实是有挂)_抖音推荐" target="_blank" rel="bookmark">玩家必看教程“手机麻将有挂的吗安全吗知乎推荐”(确实是有挂)_抖音推荐" data-original="http://www.lycdw.com/css/1.jpg" /> 科普

玩家必看教程“手机麻将有挂的吗安全吗知乎推荐”(确实是有挂)_抖音推荐

知识网
科普 2024年10月27日
000

玩家必看教程“天乐联盟麻将有挂吗知乎最新”(确实是有挂)_抖音推荐" target="_blank" rel="bookmark">玩家必看教程“天乐联盟麻将有挂吗知乎最新”(确实是有挂)_抖音推荐" data-original="http://www.lycdw.com/css/1.jpg" /> 科普

玩家必看教程“天乐联盟麻将有挂吗知乎最新”(确实是有挂)_抖音推荐

知识网
科普 2024年10月27日
000

玩家必看教程“微信里面的四川麻将有挂吗”(确实是有挂)_抖音推荐" target="_blank" rel="bookmark">玩家必看教程“微信里面的四川麻将有挂吗”(确实是有挂)_抖音推荐" data-original="http://www.lycdw.com/css/1.jpg" /> 科普

玩家必看教程“微信里面的四川麻将有挂吗”(确实是有挂)_抖音推荐

知识网
科普 2024年10月27日
000