首页 理论教育让机器更聪明:多模态语义理解

让机器更聪明:多模态语义理解

【摘要】:大家可能会对多模态语义理解这一复杂的术语比较陌生,这里我们来尝试解释一下。但我们之所以能理解这些混乱的语言,是因为人脑具备多模态语义理解能力。因此,“多模态语义理解”就是通过多个维度,帮助人工智能模仿人类思考和学习,这也是机器真正迈向智能的关键。但通过多模态语义理解的加持,机器还会主动询问你,是否需要预定公司的会议室,并安排中午与客户吃饭的餐厅。

大家可能会对多模态语义理解这一复杂的术语比较陌生,这里我们来尝试解释一下。

我们平时在说话交流的时候,语句经常是不完整的,有时候语序甚至会前后颠倒。但我们之所以能理解这些混乱的语言,是因为人脑具备多模态语义理解能力。而目前的语音识别工具,都只能识别标准和正常的语序,更谈不上对周围环境的认知,自然就无法解决很多场景中的实际问题。

所谓模态,就是信息的来源或者形式。人类的视觉、触觉、听觉、嗅觉和味觉等感官,都属于模态的一种。因此,“多模态语义理解”就是通过多个维度,帮助人工智能模仿人类思考和学习,这也是机器真正迈向智能的关键

比如我们看一部电视剧时,眼睛要看图像和字幕,耳朵用来听声音,对不同事物的不同状态,人脑能够做到同时学习和理解。

假如给传统人工智能提供一张图片,图上有一只小狗在大树的阴影下休息。此时,传统人工智能会基于视觉语义理解,把识别目标分成两类,一个目标是小狗,另外一个目标则是一棵树。而我们人脑可以进行更加深入式的理解,即一个小狗在树荫下乘凉,外面一定是炎热的夏日,周围温度很高。

试想这样一个场景,你正准备驾车回公司与客户面谈。因为不记得具体的时间和地点,所以你询问车载语音助手当天的日程表安排。常规情况下,机器在回答了你的问题之后,对话过程就结束了。但通过多模态语义理解的加持,机器还会主动询问你,是否需要预定公司的会议室,并安排中午与客户吃饭的餐厅。

目前,百度华为和科大讯飞都在这个领域有较强的实力,也有一些科研机构出身的创业公司,在某些细分领域建立了壁垒。随着多模态语义理解技术的成熟,可以让机器“听清”“看清”“理解”人类语言,从而更好地支撑各种人工智能应用,它绝对是一个不容忽视的前沿趋势。

上面几点趋势,只是人工智能发展创新趋势里的冰山一角。作为一种新兴技术,人工智能的使命注定是奔着提高生产效率,丰富人类物质生活的大方向去的。未来,你能够在所有领域看到人工智能的身影,就像是之前的互联网时代一样,将成为人们生活中的“水电气”。