让机器更聪明：多模态语义理解

2023-07-02 理论教育版权反馈

【摘要】：大家可能会对多模态语义理解这一复杂的术语比较陌生，这里我们来尝试解释一下。但我们之所以能理解这些混乱的语言，是因为人脑具备多模态语义理解能力。因此，“多模态语义理解”就是通过多个维度，帮助人工智能模仿人类思考和学习，这也是机器真正迈向智能的关键。但通过多模态语义理解的加持，机器还会主动询问你，是否需要预定公司的会议室，并安排中午与客户吃饭的餐厅。

大家可能会对多模态语义理解这一复杂的术语比较陌生，这里我们来尝试解释一下。

我们平时在说话交流的时候，语句经常是不完整的，有时候语序甚至会前后颠倒。但我们之所以能理解这些混乱的语言，是因为人脑具备多模态语义理解能力。而目前的语音识别工具，都只能识别标准和正常的语序，更谈不上对周围环境的认知，自然就无法解决很多场景中的实际问题。

所谓模态，就是信息的来源或者形式。人类的视觉、触觉、听觉、嗅觉和味觉等感官，都属于模态的一种。因此，“多模态语义理解”就是通过多个维度，帮助人工智能模仿人类思考和学习，这也是机器真正迈向智能的关键。

比如我们看一部电视剧时，眼睛要看图像和字幕，耳朵用来听声音，对不同事物的不同状态，人脑能够做到同时学习和理解。

假如给传统人工智能提供一张图片，图上有一只小狗在大树的阴影下休息。此时，传统人工智能会基于视觉语义理解，把识别目标分成两类，一个目标是小狗，另外一个目标则是一棵树。而我们人脑可以进行更加深入式的理解，即一个小狗在树荫下乘凉，外面一定是炎热的夏日，周围温度很高。

试想这样一个场景，你正准备驾车回公司与客户面谈。因为不记得具体的时间和地点，所以你询问车载语音助手当天的日程表安排。常规情况下，机器在回答了你的问题之后，对话过程就结束了。但通过多模态语义理解的加持，机器还会主动询问你，是否需要预定公司的会议室，并安排中午与客户吃饭的餐厅。

目前，百度、华为和科大讯飞都在这个领域有较强的实力，也有一些科研机构出身的创业公司，在某些细分领域建立了壁垒。随着多模态语义理解技术的成熟，可以让机器“听清”“看清”“理解”人类语言，从而更好地支撑各种人工智能应用，它绝对是一个不容忽视的前沿趋势。

上面几点趋势，只是人工智能发展创新趋势里的冰山一角。作为一种新兴技术，人工智能的使命注定是奔着提高生产效率，丰富人类物质生活的大方向去的。未来，你能够在所有领域看到人工智能的身影，就像是之前的互联网时代一样，将成为人们生活中的“水电气”。

让机器更聪明：多模态语义理解

相关推荐