博舍

看懂机器视觉(CV)听懂语音识别(ASR)理解自然语言处理(NLP) 人工智能理解自然语言

看懂机器视觉(CV)听懂语音识别(ASR)理解自然语言处理(NLP)

缩略语

机器视觉(CV)

Computervision

语音识别(ASR)

AutomaticSpeechRecognition

自然语言处理(NLP)

Naturallanguageprocessing

1、机器视觉(CV)

    计算机机器视觉是一们研究让机器看见世界的科学,人类能够认出照片中的事务,推理他们之间的关系,但对于计算机来说,图像是一连串RGB数值,并没有任何意义。

   让机器看见世界有四个阶段,也是计算机四个核心问题:

   第一,图像分类---为不同的图像打上对应的标签;

   第二,物体检测---找到物体的位置,并且认出它们是什么;

   第三,语义分割---找到物体之间的关系和联系;

   第四,视频分析---看懂视频中的内容。

   让计算机看到世界有啥用?

    小到手机拍照中的人脸定位,银行中的人脸对比;大到自动驾驶、医疗影像诊断等,都是机器视觉的用武之地。

2、语音识别(ASR)

   与计算机识别不同,语音识别有且只有一个核心任务----将人类的语音转换成文字。那么,机器如何识别语音的么?

   语言由单词组成,单词又由音素组成,我们将一段语音声波按帧切开,用帧组成状态,用状态组成音素,再将音素合成单词,语音就变成了文字。这时候,机器就可以进行文本处理了。

   与语音相关的人工智能研究范围内的任务还有不少,声纹识别(识别说话者是谁)、语音合成(将文字信息转换为人类听得懂的语音),siri、智能音响、车载设备、这些都是语音识别看的见、摸得着的应用。

    感觉语音识别(ASR)效果不好,口音、噪声、距离都会影响识别结果,下次可以换个安静环境试试。

3、自然语言处理(NLP)

    自然语言处理是指通过机器处理和运用自然语言,它与语音识别单纯的将波形转换为文字不同。

    由于人类语言太复杂,不同情景下的同一词语可能对应着不同的含义,因此,自然语言处理的任务,往往会涉及理解语言的层面。语言的复杂使得自然语言处理涉及的任务也变得非常庞杂,例如机器翻译,即通过计算机将一种自然语言转换为另一种自然语言,我们常用的百度翻译、有道翻译都是机器翻译系统。

    中文自动分词,即使用计算机自动对中文文本进行词语切分,之前的锤子手机大爆炸,就是用的这项技术。问答系统,即能自动回答问题的对话系统,第一期中提到的图灵测试就是一个典型的问答系统。除此之外,还有信息抽取、阅读理解、自动摘要、文本分类等等。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇