人工智能与计算机教学研究：从语音识别到语音综合

2023-11-15 理论教育版权反馈

【摘要】：语音识别系统的出现，为大多数人提供了走近电脑的理想通道。（一）语音综合让我们从已经大量“实现”的技术——语音合成开始，它使你的计算机能够向你大声朗读。从另外一个方面讲，如果一个语音识别系统只是在个人的计算机上供专人使用，这就是特定人语音识别系统，这种系统是指系统在使用之前，必须有用户输入大量的发音数据，对其进行训练。许多工作涉及人类语言的特性。

我们已经十分习惯于一些广告词、未来剧情和科幻小说系列，它们描述那些向计算机喋喋不休的人们，并且这些人总能够得到计算机适当的、智能的、有帮助的问答。那些科幻剧的剧情是如此的通俗，难怪许多人认为这种技术已经存在或者它即将来临。其实，这正好符合某些人工智能（AI）研究人员和远程通信工作者多年的主张。也就是说，语音识别的最终目的是研制出一台能够听得懂任何人、任何内容讲话的机器。但目前的技术水平还难以使得计算机与人类之间的语音交流变得像人与人之间的对话那样自如、方便，甚至有些专家比喻它的难度要超过“人类登上月球”。尽管如此，科学家们仍然在孜孜不倦地研究与开拓，目的就是让语音识别技术更快地走近人们的生活。

语音识别系统的出现，为大多数人提供了走近电脑的理想通道。电脑不仅可以在人的指令下工作，更可以听你倾诉，彼此“谈心”，这个在人们心头挥之不去的梦，现在已经不再遥远，它正在逐步变成现实，电脑已开始有了更多的“人性”。

（一）语音综合

让我们从已经大量“实现”的技术——语音合成开始，它使你的计算机能够向你大声朗读。语言学家早就渴望一些重新产生特殊音素的声音程序，形成人类声音的部件，并把它们组合在一起以产生可以理解的语言。计算机可以“读”任何ASCⅡ正文，以形成辅音、元音、音节和单词。它还可以读全部标点符号，以建立适当的暂停和中止。当然，你的计算机做这件事时并不理解正在讲些什么。虽然你可以在许多声音之间进行选择，但语音是非常平淡而无表情的，非常类似机器的声音。

麻省理工学院的媒体实验室正在进行一个项目的研究，向语音合成添加更多的“表情”。但是无论语音怎样生动，计算机不知道任何含义，听起来仍然十分无趣。

对于具有正常视力的人们来说，语音合成是有趣的新奇事物，但是没有太多的价值。但是，语音合成对于盲人用户或者丧失说话能力的人来讲却是重要的工具。对于他们来说，使用在当前活动窗口上能够自动大声朗读文本的程序和语音合成技术，可以成为与其计算机的基本接口和与其他人联系的重要途径。例如，英国天体物理学家斯蒂芬·霍金，由于严重的疾病以致全身瘫痪，他用语言合成器与别人进行通信，甚至用它来讲话。他开玩笑说它唯一的缺点是给他带来了“美国口音”。

让电脑念文章，这是人与电脑沟通的一个重要方面，英文电子发声的研究成果很多，中文还处于起步阶段。但是，此类软件还未有实质性突破，主要问题在于电子味道较浓。单词的电子发育相对较好，但连续语音方面效果较差，而且大多设置复杂，无法直接使用。不过如果将其使用在娱乐休闲等产品上，将给人特别的感觉。

（二）语音识别

由于有不同的应用范围，因而会有不同的语音识别系统设计。假如你的外语能力还不错，但还不能够达到应对自如的地步，你会发现要听懂饱受杂音干扰的现场新闻广播实在困难。而对于一个能够把外语说得极为流利的人来说，这充其量只不过是扰人罢了。在我们的生活中听清和听懂，也就是识别语言和理解语言是密不可分的。而目前计算机还无法像你我一样，先对某一件事情的意义建立共识，进而理解事物的意义。对于研究人员甚至更加困难的是，当人们自然地把一个句子说成长而混杂的声音时，让计算机听“懂”就更加困难。如果我们把让计算机理解语言的问题放在一边，只考虑让它听清语言，问题就明朗多了。

如果语音识别系统只是要为你利用语音来进行电话拨号，那么它只要能够听清十个数字就可以了，这属于小词汇语音识别系统；如果它是为你自动订飞机票，那么它还应该会认识地名、时间等成百上千的必须使用的词汇，这是中等词汇量语音识别系统；如果同时为了记者把口述的一篇稿件转化成为文字，那么计算机就必须有很大的词汇量才能够胜任这样的工作，这属于大词汇量语音识别系统。

从另外一个方面讲，如果一个语音识别系统只是在个人的计算机上供专人使用，这就是特定人语音识别系统，这种系统是指系统在使用之前，必须有用户输入大量的发音数据，对其进行训练。非特定人系统则试图达到在系统建立成功之后，用户不需要插入大量的训练数据就可以达到使用的目的。语音信号的可变性很大，不同的人说话的时候，即使是使用同一个音节，如果对其进行仔细分析，就会发现存在相当大的差别。要让一个语音识别系统能够识别非特定人的语音，困难程度是很大的。

从前的语音识别系统，几乎都是以单字或单词为单位的孤立语音识别系统。随着近年来的研究和发展，连续语音识别技术已经日趋成熟，现在可以理解正常流畅的语音的计算机向着最高目标——计算机可以理解语音的含义并灵活、适宜地应答迈出了一大步。(www.chuimin.cn)

1997年是计算机键盘终结的开始。替代它的是一种能够处理自然语言的语音识别技术。IBM、Dragon System和DH三家公司都推出了他们的第一个可广泛使用的语音识别系统。利用这种系统，人们能够对字处理程序进行口授。据称只要发音清晰，识别正确率可达90%以上。当然，计算机还不能真正理解人们的语言，它们会犯一些愚蠢的错误，这是可以理解的。计算机还不能从整体上把握意思来帮助分析易混淆的语音流，但是借助更强大的计算机，它们现在能够处理巨大的语音单词库，甚至能够从错误中学习、更新其语音词汇数据库。

（三）自然语言的理解

虽然仍不清楚连续语言识别是否真正要求具备某种程度的人类理解能力，但让计算机理解口述或者输入的自然语言的含义，是经典人工智能的重要领域。虽然计算机可以识别和提供语言中任何一个单词的定义，并且能够比你的高效英文更快地分析句子，但是对于其意义和理解仍然是难以捉摸的。

许多工作涉及人类语言的特性。语言是人类用以传达和构造意义的“蓝图”，换句话说，作为地球上生存的人类，我们用语言与其他人进行的通信是建筑在广泛深入的共同认识基础上的，虽然任何一个人都可以这样做，但并不意味着它容易。

语音学习是语音识别的一个崭新方向，它的侧重点与传统的语音识别不同。通常意义上的语音识别是通过电脑适应人的发音来识别人的说话，而它则要求人模仿标准发音，其面临的困难是如何衡量人模仿的好坏。

此外，目前所有的语音识别系统在有较大背景噪声的情况下，识别率都会显著降低，这无疑是一个需要解决的重大课题。虽然语音识别技术还处在成长的年代，但它却是计算机技术重要的未来发展方向。简单地说，这一技术就是让电脑“听懂”人的话，并做出正确的反应。这是电脑在“拟人化”上迈出的一大步。很多人刚刚体会到多媒体的巨大魅力，还未来得及考虑什么语音识别技术，总觉得那是非常遥远的事，但它其实已经从各个方向来到了我们的生活中。

一个典型的例子就是金洪思软件公司的《随心所欲说英语》，他对语音识别技术进行大规模尝试，可识别近3000句话，帮助读者更快、更好地掌握英语。相信语音识别技术在技术上的突破可以促使媒体英语教育走向新纪元。

授予计算机人类所具有的，对世界的深入、灵活的理解，即获得语言以外含义的能力。完全解决这样的问题的未来前景，苹果公司的“知识导航器”已经为我们做了精彩的描述。

1988年，苹果公司制作了一部引人注目的小影片，片名叫作《知识导航器》。描述了计算机未来使用的美好前景。在影片中，一位教授走进他自己那装备齐全的家庭办公室，开始与在他桌面上的计算机对话，他通过其“智能代理人”处理大部分他的商务工作。智能代理人其实是一个人工智能程序，他在屏幕上作为一位会说话的、一位非常有礼貌和斯文的年轻人出现，戴着一个蝴蝶结领结。教授正在准备那天他要做学术报告的材料，在平静的几分钟的过程中，通过触摸屏幕和询问他的代理人，收集到各种图表和说明，并对巴西的雨林有重要发现。他还让友好的智能代理人通过视频电话帮助他约见一位同事，说服她以客人身份参加他的演讲。

整个短片给人留下了深刻的印象，人们渴望得到这种“即将到来”的技术，完全信服明天的计算机将完全融合我们的生活，完全消除了由于“信息爆炸”带来的困惑与压力。

软件巨子比尔·盖茨在芬兰发表讲演时预言：“5年后的个人电脑将是可以装在口袋里的便携式无绳电脑，能看、能听、能学习，成为人人都会使用的工具。”如果早几年，人们可能会对此番议论不置可否，今天却引起了广泛关注。因为，技术最终是使人们生活得更舒适、更有意义，产业发展正在把信息技术推向一个“人性化回归”的新里程。深奥的电脑终于走下了“只有计算机专业人员才能摆弄”的象牙塔，转化成普通用户，甚至成为孩子也能接受的大众化产品。没有这个转化就谈不上普及，也就没有今日信息技术之辉煌。

人工智能与计算机教学研究：从语音识别到语音综合

相关推荐