智能测评是通过自动化的方式评估学习者的发展的。一是利用语音识别进行语言类智能测评,这类语音测评软件能够根据学习者的发音进行打分,并指出发音不正确的地方。智能测评通过机器批阅作业,及时给予学生反馈,并可以给出学习指导,从而激发学生的学习积极性。当前我国领先世界的人工智能语音识别的准确率已达到97%以上,并且响应速度很快。......
2023-11-15
智能音箱作为目前智能家庭的核心设备之一,日益成为人们经常使用的新型通信终端。智能音箱可以以自然语言的方式,为用户提供一些常用的信息服务,未来还可能成为智能家庭的控制中枢。智能音箱多基于语音控制,其基本交互流程是用户通过自然语言向音箱提出服务请求或问题,音箱拾取用户声音并分析(一般在服务器端完成),音箱通过语言播报和向关联的手机进行App推送对用户的请求进行反馈。
智能音箱硬件是由扬声器、麦克风阵列(Microphone Array)、主控单元、信号处理单元以及通信接口等组成。智能音箱的主控单元包含CPU、存储器等,用来控制智能音箱的运行。由于智能音箱需要云端服务器来提供大部分信息服务功能,因此WiFi或以太网接口是不可缺少的模块,当然也可通过蓝牙借助智能手机访问云端服务器。对智能音箱最主要的功能诉求仍是高质量的音频播放,因此提供用户认可的音质是产品存在的前提。智能音箱在扬声器的选择上除了受到音箱尺寸限制,还要考虑麦克风阵列的拾音及后续的信号处理。为了在播放音乐的同时可以对音箱下达命令,扬声器的功率不能太大,这样就限制了音箱的最大音量。反过来,如果要确保音箱有较大的音量,可能会限制双工条件下智能音箱理解用户语音指令的灵敏度。麦克风阵列由一定数目的麦克风组成,用来对声场的空间特性进行采样并处理。使用麦克风阵列而非单个麦克风,是为了在用户距离音箱较远时依然能够正常地监测收听到用户的语音指令。智能音箱多使用环状麦克风阵列,麦克风阵列方案主要受成本和算法两个因素限制,算法设计难度和计算复杂度都会随着麦克风数量的增加而加大。音箱工作时,麦克风阵列始终处于拾音状态并持续对声音信号进行采样、量化。经过静音检测、降噪等基本的信号处理,唤醒模块会判断是否出现唤醒词。如果出现唤醒词,后续会进行更复杂的信号处理以得到干净的语音信号,开始真正的语音交互流程。
智能音箱实现语音交互的基本流程如图3.6所示。
图3.6 语音交互基本流程
语音识别的目的是将语音信号转化为文本。在智能音箱开放性真实环境下的语音识别是一个不小的挑战,需要结合前端信号处理一起来优化。前端信号处理包含语音检测、降噪、声学回声消除、去混响处理、声源定位和波束形成等过程。语音检测的目标是准确地检测出音频信号的语音段起始位置,从而分离出语音段和非语音段(静音或噪声)信号。由于能够滤除不相干非语音信号,高效准确的语音检测不但能减轻后续处理的计算量,提高整体实时性,还能有效提高下游算法的性能。语音检测作为整个流程的最前端,需要在本地实时地完成。由于智能音箱的实际工作环境中存在着各种各样的噪声,通过降低噪声干扰、提高信噪比,可降低后端语音识别的难度。声学回声消除的目的是在音箱扬声器播放音乐或语音时,从麦克风中收集的语音中去除自身播放的声音信号,这是双工模式的前提;否则当音乐播放时,用户发出的声音信号会淹没在音乐中,不能继续对音箱进行有效的语音控制。在室内,语音被墙壁、家具等多次反射后由麦克风采集而产生混响。混响对于人耳虽然不是问题,但是延迟的语音叠加产生的掩蔽效应会对语音识别产生致命的障碍。为消除混响影响,一般从两个方面来解决:一是去混响,二是对语音识别的声学模型加混响训练。声源定位是根据麦列收集的声音确定说话人的位置,可作为波束形成的前导任务以确定空间滤波的参数。波束形成是利用空间滤波的方法将多路声音信号整合为一路信号,通过波束形成,一方面可以增强原始的语音信号,另一方面抑制旁路信号起到降噪和去混响的作用。出于保护用户隐私和减少误识别两个因素的考虑,智能音箱一般在检测到唤醒词之后,才会开始进一步的复杂信号处理(声源定位、波束形成)和后续的语音交互过程。一般而言,唤醒模块是一个小型语音识别引擎。由于目标单一,即检测出指定的唤醒词,唤醒只需要较小的声学模型和语言模型,空间占用少,能够在本地实时。唤醒也可通过关键词检索或文本相关的声纹识别问题来解决。
自然语言理解是使得智能音箱能够理解人类语音并作出反应的基础。基于框架的自然语言理解可以分为三个子问题去解决:一是领域分类,识别用户命令所属领域,其中领域是预先设计的封闭集合(如产品设计上,音箱只支持音乐、天气等领域),而每个领域都只支持有限预设的查询内容和交互方式;二是意图分类,在相应领域识别用户的意图(如播放音乐、暂停或切换等),意图往往对应着实际的操作;三是实体抽取(槽填充),确定意图(操作)的参数(如确定具体播放的是哪首歌或哪位歌手的歌曲)。
对话管理是实现多轮对话的关键,而多轮对话对于自然的人工交互非常重要。在自然语言理解尚未得到很好解决的情况下,实现对话管理将十分困难。一般的做法是将多轮对话解析出的参数作为上下文代入下一轮对话;当前轮对话根据一定的条件来判断,是否保持在上一轮的领域,是否清空上下文。不同于纯粹的聊天机器的对话管理,智能音箱的对话管理还有实际的操作功能(查询信息、提供控制指令)。自然语言生成是语音交互的另一个基础,目前多采用预先设计的文本模板来生成文本输出。语音合成又称为文语转换,其目标是使机器能够像人一样朗读任意给定的文本。评价语音合成系统的两个主要标准是可懂度和自然度。参数合成和拼接合成是文语转换的两种主要合成方法,其中参数计算量小、部署灵活,但自然度较差;拼接接近真人发音,存储和计算资源高,一般只能在线合成。
在智能音箱中应用的其他技术还有声纹识别、人脸检测和人脸识别等。声纹识别是根据语音波形反映说话人生理和行为特征的语音参数,自动识别说话人身份的一项技术。声音锁就是声纹技术的一项具体应用。通过声纹识别,可以设计出更加个性化的服务。如果智能音箱配置有摄像头,则可以通过人脸检测确定用户的位置,一方面可以有更好的交互设计,另一方面可以辅助声源定位。同声纹识别类似,人脸识别也可以用来确定用户的身份。
有关现代通信技术(第5版)的文章
智能测评是通过自动化的方式评估学习者的发展的。一是利用语音识别进行语言类智能测评,这类语音测评软件能够根据学习者的发音进行打分,并指出发音不正确的地方。智能测评通过机器批阅作业,及时给予学生反馈,并可以给出学习指导,从而激发学生的学习积极性。当前我国领先世界的人工智能语音识别的准确率已达到97%以上,并且响应速度很快。......
2023-11-15
语音识别系统的出现,为大多数人提供了走近电脑的理想通道。(一)语音综合让我们从已经大量“实现”的技术——语音合成开始,它使你的计算机能够向你大声朗读。从另外一个方面讲,如果一个语音识别系统只是在个人的计算机上供专人使用,这就是特定人语音识别系统,这种系统是指系统在使用之前,必须有用户输入大量的发音数据,对其进行训练。许多工作涉及人类语言的特性。......
2023-11-15
语音识别之所以如此困难,是因为人类的大脑和口头之间存在许多龃龉之处。从理论上说,语流中的音素叠加现象对语音识别器来说是一个福音。但是,只有高度发达的语音识别器才能享受这一便利,这个识别器必须对声道的混音机制有所了解。显然,人类的大脑就是这样一台高度发达的语音识别器,但没有人知道它是如何做到的。出于这个原因,研究语音知觉的心理学家和设计语音识别装置的工程师密切关注着彼此的研究工作。......
2024-01-23
将RFID技术与制造技术相结合,可有效提升制造效率、制造品质和企业管理水平。RFID技术在智能制造中的应用主要有以下几个方面:1.RFID技术的数字化车间RFID在数字化车间中的应用主要包括产品管理、设备智能维护、车间混流制造。目前,RFID技术已经在车间物流管理、SCM及物流园管理中得到成功应用,可进一步推广应用到制造企业全物流管理系统中。......
2023-06-23
智能维护技术是设备状态监测与诊断维护技术、计算机网络技术、信息处理技术、嵌入式计算机技术、数据库技术和人工智能技术的有机结合,其主要研究领域包括以下几个方面:远程维护系统架构和网络技术研究。多通道同步高速信号采集技术与高可靠性监测技术的研究。......
2023-06-23
而传统的制造工厂必须完成向智能工厂的升级改造,才能达到这一生产方式的要求。智能生产模式可以借助PLM软件来优化产品生产流程,这也将促使企业改变原有的生产管理方式,并调整自己的组织结构。这就是未来的智能生产与智能工厂的概貌。随着智能制造体系的进一步完善,PLM甚至会延续到产品报废回收阶段。智能工厂能够自主生产,省略了工厂管理层、研发部门、生产部门开会协调工作的环节。......
2023-06-23
智能操作的概念是指动触头从一个位置到另一个位置自适应控制的转换,其操作模式是断路器能够根据监测到的不同故障电流信号自动选择操动机构及灭弧室预先设计预定的工作条件。实现断路器智能操动的另一个内容是分、合闸相位的控制,要求断路器动作时间能够精确控制,这要求操动机构完全可控。......
2023-07-02
图1-7人—物理系统数字化制造、数字化网络化制造与“人—信息—物理系统”与传统制造系统相比,第一代和第二代智能制造系统发生的本质变化是,在人和物理系统之间增加了信息系统,信息系统可以代替人类完成部分脑力劳动,人的相当部分的感知、分析、决策功能向信息系统复制迁移,进而可以通过信息系统来控制物理系统,以代替人类完成更多的体力劳动。......
2023-06-28
相关推荐