大语言模型,实现智能客服知识库自动扩写功能(客服电话语音导航内容)

突然之间,大语言模型纷纷涌现,各厂商经过短暂观望之后,纷纷向最佳应用实践战场之一的智能客服领域出手。首先落地的场景就是知识库自动扩写,这也是AIGC能力在智能客服最直观的落地应用场景之一。本文作者对智能客服知识库自动扩写功能进行了分析,一起来看一下吧。

大语言模型“忽如一夜春风来”,作为最佳应用实践战场之一的智能客服领域,各厂商经过短暂的观望之后纷纷出手。首先落地的场景就是知识库自动扩写,这也是AIGC能力在智能客服最直观最简单的落地应用场景之一。

一、AI训练师的“神器”?

智能客服领域的一个难点在于知识领域是狭窄的,AI机器人必须被限定于企业账户级的知识库中。

而智能客服中的知识库,就是一个限定领域内的企业私有知识库,如果不配置外接知识库的情况下,AI文本和语音机器人都会在此知识库范围内进行问答。

所以智能客服机器人的智能化程度,受制于这个知识库的完善。

运营较好的企业,会进行大量的知识库维护工作,帮助机器人校准回答水平。

对于重度的智能客服AI机器人使用者,这是一项高度依赖人力的工作,必须配备专职的AI训练师岗位进行话术流程搭建,知识库维护工作。

AI训练师的常见工作流程包括:分析客户话术流程需求,设计话术流程模板,搭建话术知识库,测试话术流程,配合上线、收集运营数据反馈调优等。

既有对产品大量的操作性工作,也包括大量的客户沟通。其中对知识库的编写,是最费时费力的工作之一。

有经验的AI训练师会借助积累的通用知识库,领域知识库和常用模板,来达到快速冷启动的目的。

而对话术中的详细知识点进行针对性地扩写,是绕不开的一个工作。

借助大模型能力,协助AI训练师进行知识库扩写,就是为了解决她们的效率问题。

二、AI谈谈实现方案

如何通过大语言模型,实现智能客服知识库的自动扩写,听听AI的建议。

知识点自动扩写通过大语言模型的实现方案要考虑:

选定知识库和知识点:从现有知识库中选定需要扩充的知识点,如概念、实体等。这决定了扩充内容的范围和方向。收集相关语料:通过各种方式收集与选定知识点相关的语料,如网页数据、文献数据、问答数据等。语料规模和质量直接影响生成文本的效果。选择语言模型:选择一个合适的预训练语言模型,如BERT、GPT-3、Transformer等。不同模型适用不同类型和规模的数据,模型性能也不同。设计定制模板:根据扩充目标设计定制模板,如概念解释模板、问答模板、例句模板等。模板的设计指导和规范了语言模型的生成过程。构建生成框架:构建一个生成框架,将语言模型、语料和定制模板有机结合,使其协同工作完成文本生成任务。框架的关键是输入与输出的有效衔接。生成多样化文本:在框架中生成多个候选扩充文本,这些文本需尽量保证多样性以提高选择空间。评估和筛选:采用自动评估与人工评估相结合的方式对生成文本进行评估和筛选,选择内容丰富、准确度高和最符合要求的文本。添加到知识库:将选择出的扩充文本添加到对应的知识点下,以实现知识点的详细描述和内容扩充。持续监测与优化:持续监测已添加扩充文本的有效性,并收集用户反馈意见。根据反馈进行生成框架的优化,不断提高扩充质量。重复迭代:对更多知识点重复上述步骤,逐渐实现知识库的广度和深度扩充。

在实现中需要注重语料和模板的选用,框架的设计,生成文本的筛选,以及优化机制的构建等方面。良好的设计可以大大提高自动扩充的效率与效果。同时,人工参与也是关键,特别是在评估选文本和优化框架中。

总之,知识点自动扩充需要构建一个涵盖语言模型、语料、模板的动态框架,利用多轮迭代不断优化和改进,最终实现高质量的知识扩展。

知识点扩充的技能也可以用于实现相似问句的自动生成。实现方法可以包括:

构建知识图谱:收集与给定知识点相关的所有信息,构建知识图谱,包括相关概念、实体、事件等及其关系。知识图谱提供了生成相似问句所需的丰富语境信息。设计问句模板:分析给定知识点相关的典型问句,设计多个问句模板(包含实体槽位)以指导生成过程。不同模板代表不同的问句角度和表达方式。填充实体槽位:利用知识图谱为每个模板的实体槽位填入相关实体或概念,形成多个问句候选项。实体的替换会产生相似但表达不同的问句。评分与筛选:根据问句的语义相似度、流畅度以及其它标准对候选问句进行评分,选择最优的若干个问句。然后可以人工选取最佳的几个问句。迭代优化:分析选取的问句以及人工反馈,对知识图谱和问句模板进行优化修正,以产生更高质量的问句候选项,实现迭代提高。持续生成:对更多知识点重复上述步骤,通过累积的知识图谱和模板库持续生成更丰富的相似问句,实现自动问句扩充。

总体来说,要实现相似问句的自动生成,需要构建问句生成框架,框架基于知识图谱和问句模板,可以填充实体生成候选问句,并通过评分、筛选和优化不断改进,最终产生高质量的相似问句,实现知识点的问句扩充。

核心实现逻辑完全类型,其中的填充实体槽位是实现相似问句自动生成的关键步骤之一。主要的实现方法有:

实体提取:从相关语料中提取与知识点对应的实体,如概念实体、名词实体等。这需要利用实体识别与链接技术实现。实体候选:根据模板中的槽位类型,从提取的实体中选择与槽位匹配的实体候选项。每个槽位可能对应多个候选实体。实体组合:根据不同的槽位,从其对应的实体候选项中选取若干个实体,进行所有槽位的实体组合,形成完整的问句内容。相关度排序:对所有实体组合生成的问句,计算其与知识点的相关度或相似度,并进行排序。相关度越高的问句被赋予更高的生成概率。beam search:在生成过程中,根据相关度对实体组合的问句进行beam search,只追踪相关度较高的Top-K个组合,扩展它们生成更多候选问句。这可以提高生成质量。随机选择:在一定概率下,从实体候选项中随机选择填入实体,而不是选择相关度最高的选项。这可以增加生成结果的diversity。人工干预:如果自动生成的实体组合问句不满意,可以人工指定某些实体入选或移出,人工干预结果与自动生成结果融合,改进生成质量。

所以,填充实体槽位的关键在于从相关语料中抽取实体候选项,然后根据相关度、beam search以及随机机制等策略选择若干实体入槽,形成完整的问句。人工也可以参与其中,与自动生成结果融合,不断优化和改进。

通过上述方法,可以为每个模板的实体槽位填充多个实体选项,产生多个相似但略有差异的问句。这为后续评分筛选提供了丰富的候选空间,有助于选取最优的问句,达到问句扩充的目的。填充实体槽位是实现高质量相似问句生成的关键环节。

知识点:

diversity增强和beam search策略都是用于提高语言模型生成文本的多样性,从而产生更丰富的多样化文本。

diversity增强指在文本生成过程中,人为地增加一定的随机性或噪声,以鼓励语言模型产生更加多样的表达,而不是单一的序列。常用的方法是:

随机采样:从语言模型的输出分布中随机采样,而不是直接选择概率最高的输出。这会使得最终的输出序列更加随机。噪声注入:在文本生成的中间节点向输出序列注入一定的噪声或随机token,这会促使后续生成更加多样。重启机制:当生成过程进入”过于确定”的状态时,允许重新开始生成(restart),这可以使整体的生成结果更加多样。

Beam search策略是一种启发式搜索算法,它在解空间中维护多个候选解,而不是直接选择单一的最优解。在文本生成中,会追踪语言模型的多个可选输出序列,并在后续生成中继续扩展这些序列,最终选择其中概率最高的序列作为输出结果。

与直接生成单一输出序列相比,beam search策略会产生更加多样的候选序列。通过控制beam的宽度,可以决定追踪的序列数目,实现对输出多样性的控制。

所以,总体来说,diversity增强会通过引入噪声或随机性主动干预生成过程,提高输出的多样性;而beam search策略则是通过追踪并扩展多个可选序列,为最终输出结果提供更丰富的选择空间。

两者的目的都是鼓励语言模型产生更加多样的表达,以此来获得更丰富的candidate文本。这为知识扩充的选取阶段提供更广泛的内容选择空间,有助于最终选择更加符合要求和高质量的文本,实现扩充效果的提高。对生成文本的diversity控制和提高是知识扩充研究的一条重要途径。

当然借助大模型实现,未必需要关注模型和算法具体实现。

三、对正则表达式的扩写

针对机器人知识库常用的正则表达式的自动扩写,也可以通过大语言模型进行自动扩写。需要考虑的内容包括:

深入解析问句正则表达式:利用正则表达式解析技术深入理解其表达的语义与信息,提取关键词、概念、变化范围等,准确把握其表达意图。构建正则模板:根据解析结果设计多个正则表达式模板,代表不同的问句表达形式和角度。模板中包含可替换的词汇或符号作为槽位。填充词汇/变换:根据实际语境,为正则模板的槽位填入相关词汇或变换模板中的符号,形成新的正则表达式。词汇/符号的替换将产生语义相似但结构略变的新的正则表达式。组合生成:将不同的正则模板按照一定策略组合,并为不同模板的槽位填入词汇/变换模板,形成更复杂的正则表达式,代表更广泛的问句形式。评分与选择:对所有生成的正则表达式问句,根据语义相关度、复杂度等标准进行评分,选择最优的若干个表达式。然后人工选取其中最佳的几个表达式。优化与提高:分析选取的结果和人工反馈,优化正则模板、词汇列表和变换策略,产生更高质量的候选正则表达式,不断提高生成效果。

所以,要实现对正则表达式问句的正则表达式相似问句生成,关键是要深入理解正则表达式的语义,设计正则模板并通过填充词汇和变换模板产生候选表达式。然后通过评分选择、优化提高,最终生成高质量的相似正则表达式,达到问句的扩充要求。

四、实例:知识库扩写生成测试

1)相似问的AI自动生成

我从实际的AI机器人知识库中,随机抽取了几个场景的问题,拿来让AI测试下自动扩写生成。(Q为原句,A为AI扩写的内容,每次生成5句备选)

Q:黑金卡免费停车卡为什么不能马上使用?

A:

为什么开通了黑金卡免费停车服务后不能直接使用?申请黑金卡免费停车卡后为何要过一段时间才能正常使用?开通黑金卡专属免费停车服务为何需要等待一定时间才能使用?享有黑金卡免费停车权益为什么首次使用要待一段时间?黑金卡停车卡申请下来为什么不能立即启用使用?

Q:高端领军人才怎么申请人才公寓?

A:

高端领军人才如何申请人才公寓的资格?高端领军人才申请入住人才公寓需要满足什么条件?高端领军人才想申请人才公寓,需要准备什么申请材料?高端领军人才申请人才公寓的流程和步骤是什么?高端领军人才要申请人才公寓,需要符合什么要求和标准?

Q:你是真人嘛?你是不是机器人?

A:

你是人工智能聊天机器人吗?你是真实的人类用户还是AI系统产生的效果?我们现在的交谈对话是和真人进行的还是和机器人系统?我现在与之交流的对象是人类用户还是人工智能聊天机器人?我们此刻的对话是在跟真人对话还是在跟聊天机器人对话?

2)正则表达式相似问

Q:他不方便接电话|找他有什么事|我是人工智能|你有事先告诉我吧|还有什么其他事吗|还有其他事吗|主要针对什么样的人群|助手|秘书|助理|机主现在不方便接电话|小爱助理|通知主人|我会尽快通知主人|

A:

他现正忙碌|您找他有什么要紧事|我是人工智能系统|有任何事先告知我|还有其他事项需要办理吗|主要面向什么人群使用|AI助手|私人秘书| virtual assistant|主人目前无法接听|小志智能助手|请通知用户|我会尽快通知用户|他这会儿不太方便|您有什么急需与他联系的事|我是智能机器人|有什么事儿提前告诉我|还有其他事情需要处理吗| 主要为哪类用户群服务|人工智能助理|私人助理|机器人助手|用户现在无法接通|小雨AI助理|请通知客户|我会尽快通知客户|他现在比较忙|您找他有啥急事|我是一个AI系统|有什么事情先告诉我|还有没办完的其他事吗| 主要面向什么样的用户|AI帮手|私家秘书|机器助理|主人此刻不在电话旁|小天智能秘书| 请告知用户|我会很快通知用户|他这会儿挺忙的|您联系他有什么重要事|我是人工智能聊天机器人|任何事情提前跟我说|还有没有其他未完成的事|主要服务哪些人群|人工智能伴侣|私人助手| 智能机器人|用户现在通讯不便|小菲AI伴侣|请转告客户|我将尽快转告客户|他目前比较忙碌 |您找他有什么要事 | 我是智能聊天机器人|有什么事情先告诉我|其他事项还未办妥吗|主要适用什么样的用户群|AI管家|私人秘书助理|智能系统|用户此时无法接听|小芬虚拟助手|请告知主人| 我将尽快告知主人|

Q:别打|别再|别给我打|不要打|不要再打|联系过|不要联系|不要再联系|天天打|一直打|老是打|

A:

别电话|别再电话|别给我电话 |莫打电话|莫再打电话|联络过|别联络|别再联络|天天电话|老电话|老打电话不要 打钟|不要再打钟|不要给我打钟|不要 打钟|不要再打钟|联系过|不要联系|不要再联系|天天打钟|老打钟|老是打钟不要响铃|别再响铃|别给我响铃|不要响铃|不要再响铃 |联络过|别联络|别再联络|天天响铃|常响铃|老响铃别打扰|别再打扰|别给我打扰|不要打扰|不要再打扰| 联系过|别联系|别再联系 |天天打扰 |老打扰|经常打扰别骚扰|别再骚扰|别给我骚扰|不要骚扰|不要再骚扰|联络过|别联络|别再联络|天天骚扰|老骚扰|常骚扰

3)带有组合关系的正则表达式(且

(0)
上一篇 2023年06月04日
下一篇 2023年06月04日

相关推荐