首页 理论教育智能音箱技术:语音识别、麦克风阵列与信号处理

智能音箱技术:语音识别、麦克风阵列与信号处理

【摘要】:智能音箱在扬声器的选择上除了受到音箱尺寸限制,还要考虑麦克风阵列的拾音及后续的信号处理。图3.6语音交互基本流程语音识别的目的是将语音信号转化为文本。由于智能音箱的实际工作环境中存在着各种各样的噪声,通过降低噪声干扰、提高信噪比,可降低后端语音识别的难度。自然语言理解是使得智能音箱能够理解人类语音并作出反应的基础。在智能音箱中应用的其他技术还有声纹识别、人脸检测和人脸识别等。

智能音箱作为目前智能家庭的核心设备之一,日益成为人们经常使用的新型通信终端。智能音箱可以以自然语言的方式,为用户提供一些常用的信息服务,未来还可能成为智能家庭的控制中枢。智能音箱多基于语音控制,其基本交互流程是用户通过自然语言向音箱提出服务请求或问题,音箱拾取用户声音并分析(一般在服务器端完成),音箱通过语言播报和向关联的手机进行App推送对用户的请求进行反馈。

智能音箱硬件是由扬声器、麦克风阵列(Microphone Array)、主控单元信号处理单元以及通信接口等组成。智能音箱的主控单元包含CPU、存储器等,用来控制智能音箱的运行。由于智能音箱需要云端服务器来提供大部分信息服务功能,因此WiFi或以太网接口是不可缺少的模块,当然也可通过蓝牙借助智能手机访问云端服务器。对智能音箱最主要的功能诉求仍是高质量的音频播放,因此提供用户认可的音质是产品存在的前提。智能音箱在扬声器的选择上除了受到音箱尺寸限制,还要考虑麦克风阵列的拾音及后续的信号处理。为了在播放音乐的同时可以对音箱下达命令,扬声器的功率不能太大,这样就限制了音箱的最大音量。反过来,如果要确保音箱有较大的音量,可能会限制双工条件下智能音箱理解用户语音指令的灵敏度。麦克风阵列由一定数目的麦克风组成,用来对声场的空间特性进行采样并处理。使用麦克风阵列而非单个麦克风,是为了在用户距离音箱较远时依然能够正常地监测收听到用户的语音指令。智能音箱多使用环状麦克风阵列,麦克风阵列方案主要受成本和算法两个因素限制,算法设计难度和计算复杂度都会随着麦克风数量的增加而加大。音箱工作时,麦克风阵列始终处于拾音状态并持续对声音信号进行采样、量化。经过静音检测、降噪等基本的信号处理,唤醒模块会判断是否出现唤醒词。如果出现唤醒词,后续会进行更复杂的信号处理以得到干净的语音信号,开始真正的语音交互流程。

智能音箱实现语音交互的基本流程如图3.6所示。

图3.6 语音交互基本流程

语音识别的目的是将语音信号转化为文本。在智能音箱开放性真实环境下的语音识别是一个不小的挑战,需要结合前端信号处理一起来优化。前端信号处理包含语音检测、降噪、声学回声消除、去混响处理、声源定位和波束形成等过程。语音检测的目标是准确地检测出音频信号的语音段起始位置,从而分离出语音段和非语音段(静音或噪声)信号。由于能够滤除不相干非语音信号,高效准确的语音检测不但能减轻后续处理的计算量,提高整体实时性,还能有效提高下游算法的性能。语音检测作为整个流程的最前端,需要在本地实时地完成。由于智能音箱的实际工作环境中存在着各种各样的噪声,通过降低噪声干扰、提高信噪比,可降低后端语音识别的难度。声学回声消除的目的是在音箱扬声器播放音乐或语音时,从麦克风中收集的语音中去除自身播放的声音信号,这是双工模式的前提;否则当音乐播放时,用户发出的声音信号会淹没在音乐中,不能继续对音箱进行有效的语音控制。在室内,语音被墙壁、家具等多次反射后由麦克风采集而产生混响。混响对于人耳虽然不是问题,但是延迟的语音叠加产生的掩蔽效应会对语音识别产生致命的障碍。为消除混响影响,一般从两个方面来解决:一是去混响,二是对语音识别的声学模型加混响训练。声源定位是根据麦列收集的声音确定说话人的位置,可作为波束形成的前导任务以确定空间滤波的参数。波束形成是利用空间滤波的方法将多路声音信号整合为一路信号,通过波束形成,一方面可以增强原始的语音信号,另一方面抑制旁路信号起到降噪和去混响的作用。出于保护用户隐私和减少误识别两个因素的考虑,智能音箱一般在检测到唤醒词之后,才会开始进一步的复杂信号处理(声源定位、波束形成)和后续的语音交互过程。一般而言,唤醒模块是一个小型语音识别引擎。由于目标单一,即检测出指定的唤醒词,唤醒只需要较小的声学模型和语言模型,空间占用少,能够在本地实时。唤醒也可通过关键词检索或文本相关的声纹识别问题来解决。

自然语言理解是使得智能音箱能够理解人类语音并作出反应的基础。基于框架的自然语言理解可以分为三个子问题去解决:一是领域分类,识别用户命令所属领域,其中领域是预先设计的封闭集合(如产品设计上,音箱只支持音乐、天气等领域),而每个领域都只支持有限预设的查询内容和交互方式;二是意图分类,在相应领域识别用户的意图(如播放音乐、暂停或切换等),意图往往对应着实际的操作;三是实体抽取(槽填充),确定意图(操作)的参数(如确定具体播放的是哪首歌或哪位歌手的歌曲)。

对话管理是实现多轮对话的关键,而多轮对话对于自然的人工交互非常重要。在自然语言理解尚未得到很好解决的情况下,实现对话管理将十分困难。一般的做法是将多轮对话解析出的参数作为上下文代入下一轮对话;当前轮对话根据一定的条件来判断,是否保持在上一轮的领域,是否清空上下文。不同于纯粹的聊天机器的对话管理,智能音箱的对话管理还有实际的操作功能(查询信息、提供控制指令)。自然语言生成是语音交互的另一个基础,目前多采用预先设计的文本模板来生成文本输出。语音合成又称为文语转换,其目标是使机器能够像人一样朗读任意给定的文本。评价语音合成系统的两个主要标准是可懂度和自然度。参数合成和拼接合成是文语转换的两种主要合成方法,其中参数计算量小、部署灵活,但自然度较差;拼接接近真人发音,存储和计算资源高,一般只能在线合成。

在智能音箱中应用的其他技术还有声纹识别、人脸检测和人脸识别等。声纹识别是根据语音波形反映说话人生理和行为特征的语音参数,自动识别说话人身份的一项技术。声音锁就是声纹技术的一项具体应用。通过声纹识别,可以设计出更加个性化的服务。如果智能音箱配置有摄像头,则可以通过人脸检测确定用户的位置,一方面可以有更好的交互设计,另一方面可以辅助声源定位。同声纹识别类似,人脸识别也可以用来确定用户的身份。