首页 理论教育交互式问答客服解决方案优化

交互式问答客服解决方案优化

【摘要】:分别在Semeval-2016社区问答数据和在线客服对话数据上进行了不同模型的性能对比。实验结果表明,在社区问答数据中,本案例中基于CNN的匹配模型优于RNN生成模型;在客服对话数据中,基于RNN的序列学习模型能够更好地学习到场景对话中的上下文信息。针对交互式问答中连续语句之间存在的上下文相关联的潜在语义补充关系,本案例研究了句子补充关系的识别。最终,将补充关系识别和匹配关系识别相结合应用于交互式问答语义匹配。

针对客户问句与客服回答之间的匹配问题,本案例分别构建了基于CNN的语义匹配模型和基于RNN的生成模型,模型的输入层是句子的词向量矩阵,输出层是问答匹配的置信度。分别在Semeval-2016社区问答数据和在线客服对话数据上进行了不同模型的性能对比。同时对问句的完整性、生成模型的不同结构、阈值选择以及客服数据的抽取方式等进行了对比实验分析。

基于数据统计分析,根据电商客服对话数据的特点,我们选择了由Mikolov等人提出的词嵌入的方式,将词表征为低维稠密的实数值向量。针对词向量的训练,这里我们选择了连续词袋模型(continuos bag of words,CBOW)作为训练词向量的模型。词向量的训练不需要人工标注的有监督数据,因此可以尽量扩充与实验数据相关的词向量训练语聊,获取语义信息表达更丰富的词向量。这里我们主要选择了wiki英文语料、电商客服对话数据语料和百度知道问答通用语料。Wiki英文语料和百度知道语料的规模比较大,达到了十多GB,电商客服的数据相对比较少。

本案例在使用基于CNN的匹配模型时,将问题或者答案的选择人物当做句子对间的语义匹配关系分类任务进行模型的构建,模型如图7-7所示。图中,q表示问句,a表示答句。

图7-7 基于CNN的问答匹配关系识别模型结构图

图7-8 基于RNN的问答匹配关系识别模型

与常规的检索和语义匹配不同,对话数据中的问答匹配存在着丰富的场景信息,仅通过简单句对匹配,未必能够捕获到句子和句子之间的上下文关联信息。循环神经网络主要是捕捉序列之间的特征信息,因此根据我们的对话数据特点,设计并构建了一个基于双层循环神经网络的匹配模型。对于循环神经网络结构,在不断克服其缺点的过程中,衍生了很多变体,主要是对其循环单元提出了不同的计算方式。比较著名的有长短期记忆网络(long short term memory,LSTM)和门限循环单元(gated recurrent unit,GRU)。相对于长短期记忆网络,GRU具有与之相对的实验效果,同时运算参数更加简洁,计算速度更快。因此,最终选择了GRU作为模型循环计算单元。由于句子的词与词之间和同一组对话的句子与句子之间均存在着丰富的场景信息,因此构建了层级的循环神经网络分别对每个句子和句子组进行建模。模型基本结构如图7-8所示。其中q表示问句,a表示答句,当然q也可以表示答句,此时对应的a则表示问句,w表示对应句子中的字或词向量,h表示计算单元的输出状态。模型主要包括三个方面:基于GRU的句子建模,基于注意力模型的信息自动归纳以及答案置信度排序与阈值选择。

实验结果表明,在社区问答数据中,本案例中基于CNN的匹配模型优于RNN生成模型;在客服对话数据中,基于RNN的序列学习模型能够更好地学习到场景对话中的上下文信息。在基于每轮对话且问句完整的数据上,MAP达到了84.41%。针对交互式问答中连续语句之间存在的上下文相关联的潜在语义补充关系,本案例研究了句子补充关系的识别。在深度模型上,构建了并行CNN和串联LSTM对句子对进行抽象语义特征提取和建模。分别采用支持向量机、基于CNN的模型和基于RNN的模型,对句子对的补充关系进行分类。实验结果表明,基于CNN的识别方法优于其他对比方法,其F1值达到了67.8%。最终,将补充关系识别和匹配关系识别相结合应用于交互式问答语义匹配。