当代人工智能的核心技术究竟是什么人工智能五大核心技术举例说明了什么

发表时间：2023-07-20 05:18:03

当代人工智能的核心技术究竟是什么

计算机视觉、机器学习、自然语言处理、机器人和语音识别是人工智能的五大核心技术，它们均会成为独立的子产业。

计算机视觉

计算机视觉是指计算机从图像中识别出物体、场景和活动的能力。计算机视觉技术运用由图像处理操作及其他技术所组成的序列，来将图像分析任务分解为便于管理的小块任务。比如，一些技术能够从图像中检测到物体的边缘及纹理，分类技术可被用作确定识别到的特征是否能够代表系统已知的一类物体。

计算机视觉有着广泛的应用，其中包括：医疗成像分析被用来提高疾病预测、诊断和治疗；人脸识别被Facebook用来自动识别照片里的人物；在安防及监控领域被用来指认嫌疑人；在购物方面，消费者现在可以用智能手机拍摄下产品以获得更多购买选择。

机器视觉作为相关学科，泛指在工业自动化领域的视觉应用。在这些应用里，计算机在高度受限的工厂环境里识别诸如生产零件一类的物体，因此相对于寻求在非受限环境里操作的计算机视觉来说目标更为简单。计算机视觉是一个正在进行中的研究，而机器视觉则是“已经解决的问题”，是系统工程方面的课题而非研究层面的课题。因为应用范围的持续扩大，某些计算机视觉领域的初创公司自2011年起已经吸引了数亿美元的风投资本。

机器学习

机器学习指的是计算机系统无须遵照显式的程序指令，而只依靠数据来提升自身性能的能力。其核心在于，机器学习是从数据中自动发现模式，模式一旦被发现便可用于预测。比如，给予机器学习系统一个关于交易时间、商家、地点、价格及交易是否正当等信用卡交易信息的数据库，系统就会学习到可用来预测信用卡欺诈的模式。处理的交易数据越多，预测就会越准确。

机器学习的应用范围非常广泛，针对那些产生庞大数据的活动，它几乎拥有改进一切性能的潜力。除了欺诈甄别之外，这些活动还包括销售预测、库存管理、石油和天然气勘探，以及公共卫生等。机器学习技术在其他的认知技术领域也扮演着重要角色，比如计算机视觉，它能在海量图像中通过不断训练和改进视觉模型来提高其识别对象的能力。

现如今，机器学习已经成为认知技术中最炙手可热的研究领域之一，在2011~2014年这段时间内就已吸引了近10亿美元的风险投资。谷歌也在2014年斥资4亿美元收购Deepmind这家研究机器学习技术的公司。

自然语言处理

自然语言处理是指计算机拥有的人类般的文本处理的能力。比如，从文本中提取意义，甚至从那些可读的、风格自然、语法正确的文本中自主解读出含义。一个自然语言处理系统并不了解人类处理文本的方式，但是它却可以用非常复杂与成熟的手段巧妙处理文本。例如，自动识别一份文档中所有被提及的人与地点；识别文档的核心议题；在一堆仅人类可读的合同中，将各种条款与条件提取出来并制作成表。以上这些任务通过传统的文本处理软件根本不可能完成，后者仅针对简单的文本匹配与模式就能进行操作。

自然语言处理像计算机视觉技术一样，将各种有助于实现目标的多种技术进行了融合。建立语言模型来预测语言表达的概率分布，举例来说，就是某一串给定字符或单词表达某一特定语义的最大可能性。选定的特征可以和文中的某些元素结合来识别一段文字，通过识别这些元素可以把某类文字同其他文字区别开来，比如垃圾邮件同正常邮件。以机器学习为驱动的分类方法将成为筛选的标准，用来决定一封邮件是否属于垃圾邮件。

因为语境对于理解“timeflies”（时光飞逝）和“fruitflies”（果蝇）的区别是如此重要，所以自然语言处理技术的实际应用领域相对较窄，这些领域包括分析顾客对某项特定产品和服务的反馈，自动发现民事诉讼或政府调查中的某些含义，自动书写诸如企业营收和体育运动的公式化范文，等等。

机器人

将机器视觉、自动规划等认知技术整合至极小却高性能的传感器、制动器以及设计巧妙的硬件中，这就催生了新一代的机器人，它有能力与人类一起工作，能在各种未知环境中灵活处理不同的任务。例如，无人机、可以在车间为人类分担工作的“cobots”等。

语音识别

语音识别主要是关注自动且准确地转录人类的语音技术。该技术必须面对一些与自然语言处理类似的问题，在不同口音的处理、背景噪声、区分同音异形/异义词（“buy”和“by”听起来是一样的）方面存在一些困难，同时还需要具有跟上正常语速的工作速度。语音识别系统使用一些与自然语言处理系统相同的技术，再辅以其他技术，比如描述声音和其出现在特定序列与语言中概率的声学模型等。语音识别的主要应用包括医疗听写、语音书写、电脑系统声控、电话客服等。比如Domino抯Pizza，最近推出了一个允许用户通过语音下单的移动APP。

上述5项技术的产业化，是人工智能产业化的要素。人工智能将是一个万亿级的市场，甚至是10万亿级的市场，将会为我们带来一些全新且容量巨大的子产业，比如机器人、智能传感器、可穿戴设备等，其中最令人期待的是机器人子产业。

机器人应用的分法有很多种，从应用层面可以粗略地分为以下几个类别。第一个类别是工业级机器人，像富士康这种公司已经运用得很好了，因为劳工成本越来越高，用工风险越来越高，而机器人则可以解决这些问题。第二个类别是监护级机器人，它可以在家里和医院里作为病人、老人或孩子的护理，帮助他们做一定复杂程度的事情。中国对监护级机器人需求其实更迫切一些，因为中国人口红利在下降，同时老龄化又不断地上升，这两个矛盾，机器人都可以帮助解决。因此，这个领域的需求在民用市场占比很大。第三个类别就是探险级机器人，用来采矿或者探险等，大大避免了人所要经历的危险。此外还有用来打仗的军事机器人等。

网络媒体BusinessInsider预测，机器人将在许多岗位上取替人类：电话营销员、校对员、手工裁缝师、数学家、保险核保人、钟表修理师、货运代理商、报税员、图像处理人员、银行开户员、图书馆员、打字员等。因为它们的价格竞争力惊人。麦肯锡全球研究院的研究表明，当中国制造业工资每年增长10%~20%时，全球机器人的价格每年下调10%，一台最便宜的低阶机器人只需花费美国人年平均工资的一半。国际研究机构顾能预测：2020年机器人将导致全球新一波失业潮。

同时，人工智能技术的发展还将让许多旧产业获得改头换面式的新生，其中最典型的是汽车产业。汽车产业已存在上百年了，其间的变革也是非常大的，但驾驶汽车的始终是人，可最近几年，随着谷歌等公司的大力投入，机器或者说某种自动化的系统已经有望取代人来驾驶汽车，从而形成一个市场容量巨大的新产业，即无人驾驶汽车产业。这个产业的规模也将是万亿级甚至是10万亿级的。而且，这个产业还将与新能源产业叠加、融合在一起，形成“车联网＋能联网＋互联网＋电动汽车”的复合产业——未来，我们会把插电式汽车和氢燃料汽车作为发电厂使用，从而使新能源汽车成为电网的一部分，成为新能源的供给者，与现在一些装有太阳能发电系统的房屋是太阳能的供给者一样。

毫无疑问，与互联网一样，智能技术会向几乎所有旧产业渗透。华泰证券在一份人工智能产业的研究报告中提及了九大行业：生活服务O2O、医疗、零售业、金融业、数字营销业、农业、工业、商业和在线教育。实际上，将获得新生的旧产业还有许多，如军事、传媒、家居、医疗健康业、生命科学、能源、公共部门……甚至包括受VR/AR（虚拟现实与增强现实）技术发展影响而产生的虚拟产业。

人工智能领域技术，主要包含了哪些核心技术

从语音识别到智能家居，从人机大战到无人驾驶，人工智能的“演化”给我们社会上的一些生活细节，带来了一次又一次的惊喜，未来更多智能产品依托的人工智能技术会发展成什么样呢?让我们来看看2018人工智能标准化白皮书里面，对人工智能关键技术的定义。

人工智能技术关系到人工智能产品是否可以顺利应用到我们的生活场景中。在人工智能领域，它普遍包含了机器学习、知识图谱、自然语言处理、人机交互、计算机视觉、生物特征识别、AR/VR七个关键技术。

一、机器学习

机器学习(MachineLearning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一，研究从观测数据(样本)出发寻找规律，利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同，机器学习存在不同的分类方法。

根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等。

根据学习方法可以将机器学习分为传统机器学习和深度学习。

二、知识图谱

知识图谱本质上是结构化的语义知识库，是一种由节点和边组成的图数据结构，以符号形式描述物理世界中的概念及其相互关系，其基本组成单位是“实体—关系—实体”三元组，以及实体及其相关“属性—值”对。不同实体之间通过关系相互联结，构成网状的知识结构。在知识图谱中，每个节点表示现实世界的“实体”，每条边为实体与实体之间的“关系”。通俗地讲，知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络，提供了从“关系”的角度去分析问题的能力。

知识图谱可用于反欺诈、不一致性验证、组团欺诈等公共安全保障领域，需要用到异常分析、静态分析、动态分析等数据挖掘方法。特别地，知识图谱在搜索引擎、可视化展示和精准营销方面有很大的优势，已成为业界的热门工具。但是，知识图谱的发展还有很大的挑战，如数据的噪声问题，即数据本身有错误或者数据存在冗余。随着知识图谱应用的不断深入，还有一系列关键技术需要突破。

三、自然语言处理

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，涉及的领域较多，主要包括机器翻译、机器阅读理解和问答系统等。

机器翻译

机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语言的翻译过程。基于统计的机器翻译方法突破了之前基于规则和实例翻译方法的局限性，翻译性能取得巨大提升。基于深度神经网络的机器翻译在日常口语等一些场景的成功应用已经显现出了巨大的潜力。随着上下文的语境表征和知识逻辑推理能力的发展，自然语言知识图谱不断扩充，机器翻译将会在多轮对话翻译及篇章翻译等领域取得更大进展。

语义理解

语义理解技术是指利用计算机技术实现对文本篇章的理解，并且回答与篇章相关问题的过程。语义理解更注重于对上下文的理解以及对答案精准程度的把控。随着MCTest数据集的发布，语义理解受到更多关注，取得了快速发展，相关数据集和对应的神经网络模型层出不穷。语义理解技术将在智能客服、产品自动问答等相关领域发挥重要作用，进一步提高问答与对话系统的精度。

问答系统

问答系统分为开放领域的对话系统和特定领域的问答系统。问答系统技术是指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用自然语言表达的问题，系统会返回关联性较高的答案。尽管问答系统目前已经有了不少应用产品出现，但大多是在实际信息服务系统和智能手机助手等领域中的应用，在问答系统鲁棒性方面仍然存在着问题和挑战。

自然语言处理面临四大挑战：

一是在词法、句法、语义、语用和语音等不同层面存在不确定性;

二是新的词汇、术语、语义和语法导致未知语言现象的不可预测性;

三是数据资源的不充分使其难以覆盖复杂的语言现象;

四是语义知识的模糊性和错综复杂的关联性难以用简单的数学模型描述，语义计算需要参数庞大的非线性计算

四、人机交互

人机交互主要研究人和计算机之间的信息交换，主要包括人到计算机和计算机到人的两部分信息交换，是人工智能领域的重要的外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科。传统的人与计算机之间的信息交换主要依靠交互设备进行，主要包括键盘、鼠标、操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据手套、压力笔等输入设备，以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术除了传统的基本交互和图形交互外，还包括语音交互、情感交互、体感交互及脑机交互等技术。

五、计算机视觉

计算机视觉是使用计算机模仿人类视觉系统的科学，让计算机拥有类似人类提取、处理、理解和分析图像以及图像序列的能力。自动驾驶、机器人、智能医疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。近来随着深度学习的发展，预处理、特征提取与算法处理渐渐融合，形成端到端的人工智能算法技术。根据解决的问题，计算机视觉可分为计算成像学、图像理解、三维视觉、动态视觉和视频编解码五大类。

目前，计算机视觉技术发展迅速，已具备初步的产业规模。未来计算机视觉技术的发展主要面临以下挑战：

一是如何在不同的应用领域和其他技术更好的结合，计算机视觉在解决某些问题时可以广泛利用大数据，已经逐渐成熟并且可以超过人类，而在某些问题上却无法达到很高的精度;

二是如何降低计算机视觉算法的开发时间和人力成本，目前计算机视觉算法需要大量的数据与人工标注，需要较长的研发周期以达到应用领域所要求的精度与耗时;

三是如何加快新型算法的设计开发，随着新的成像硬件与人工智能芯片的出现，针对不同芯片与数据采集设备的计算机视觉算法的设计与开发也是挑战之一。

六、生物特征识别

生物特征识别技术是指通过个体生理特征或行为特征对个体身份进行识别认证的技术。从应用流程看，生物特征识别通常分为注册和识别两个阶段。注册阶段通过传感器对人体的生物表征信息进行采集，如利用图像传感器对指纹和人脸等光学信息、麦克风对说话声等声学信息进行采集，利用数据预处理以及特征提取技术对采集的数据进行处理，得到相应的特征进行存储。

识别过程采用与注册过程一致的信息采集方式对待识别人进行信息采集、数据预处理和特征提取，然后将提取的特征与存储的特征进行比对分析，完成识别。从应用任务看，生物特征识别一般分为辨认与确认两种任务，辨认是指从存储库中确定待识别人身份的过程，是一对多的问题;确认是指将待识别人信息与存储库中特定单人信息进行比对，确定身份的过程，是一对一的问题。

生物特征识别技术涉及的内容十分广泛，包括指纹、掌纹、人脸、虹膜、指静脉、声纹、步态等多种生物特征，其识别过程涉及到图像处理、计算机视觉、语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证技术，在金融、公共安全、教育、交通等领域得到广泛的应用。

七、VR/AR

虚拟现实(VR)/增强现实(AR)是以计算机为核心的新型视听技术。结合相关科学技术，在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近似的数字化环境。用户借助必要的装备与数字化环境中的对象进行交互，相互影响，获得近似真实环境的感受和体验，通过显示设备、跟踪定位设备、触力觉交互设备、数据获取设备、专用芯片等实现。

虚拟现实/增强现实从技术特征角度，按照不同处理阶段，可以分为获取与建模技术、分析与利用技术、交换与分发技术、展示与交互技术以及技术标准与评价体系五个方面。获取与建模技术研究如何把物理世界或者人类的创意进行数字化和模型化，难点是三维物理世界的数字化和模型化技术;分析与利用技术重点研究对数字内容进行分析、理解、搜索和知识化方法，其难点是在于内容的语义表示和分析;交换与分发技术主要强调各种网络环境下大规模的数字化内容流通、转换、集成和面向不同终端用户的个性化服务等，其核心是开放的内容交换和版权管理技术;展示与交换技术重点研究符合人类习惯数字内容的各种显示技术及交互方法，以期提高人对复杂信息的认知能力，其难点在于建立自然和谐的人机交互环境;标准与评价体系重点研究虚拟现实/增强现实基础资源、内容编目、信源编码等的规范标准以及相应的评估技术。

目前虚拟现实/增强现实面临的挑战主要体现在智能获取、普适设备、自由交互和感知融合四个方面。在硬件平台与装置、核心芯片与器件、软件平台与工具、相关标准与规范等方面存在一系列科学技术问题。总体来说虚拟现实/增强现实呈现虚拟现实系统智能化、虚实环境对象无缝融合、自然交互全方位与舒适化的发展趋势。人工智能、大数据、云计算和物联网的未来发展值得重视，均为前沿产业，多智时代专注于人工智能和大数据的入门和科谱，在此为你推荐几篇优质好文：在网络大时代背景下，人工智能技术是如何应用的http://www.duozhishidai.com/article-15277-1.html未来人工智能技术，主要包含哪几种？http://www.duozhishidai.com/article-4938-1.html人工智能时代，你需要了解的9大技术领域http://www.duozhishidai.com/article-3845-1.html

物联网的核心技术介绍

1.M2M技能

M2M技能的重要贡献是实现了人与机械间的信息的无障碍交流和传播，以排列组合的方式能够在人与机械的任意组合中做到信息的传输上的流畅。

M2M产品主要由三个局部构成：1）行业应用中心：即最终的行业应用的指标对象，也是信息传递的最后目的地；2）无线终端：即传输中的无线信息的交流设备；3）传输通道：即无线传输的媒介。随着科技的不时进步，M2M必然将应用于各个行业中，因为这项技能克服了人与机械之间的信息交流的障碍。并且一些对于该技能应用较早的行业，已经不但满足于这种无障碍的信息传递途径，而是致力于研发更为智能的人与机械的信息交流渠道。势必将人与信息收集机械间的沟通进行的更加彻底，这也是未来人们对于信息的交流的需求的必然结果。

2.传感网技能

传感技能是一种检测装置，是一种信息的识别和信息的转化环节，它可以将收集到的数据进一步电费细化和分类，并以一种更易于理解的形式来输出。它的技能上的优点是这种传感技能对照智能化，它的技能得名于类似人的感觉器官的灵敏，能够做到将外部信息直接转化为感觉意识的传输效果。传感器在传感网中具有两个方面的功能：一是数据的处理及采集；二是数据的路由和融合，这两项技能的使用不但满足了现代社会的信息量的巨大的传输需求，也满足了再传输过程中的信息处理需求，即能够在接收到信息的霎时将信息转化为一种合适的输出方式，这是其他信息传感系统不具备的。

3.射频识别（RFID）技能

另一个物联网的关键技能是RFID技能。它的优点在于无需任何的设备接触，通过无线传输即可完成整个的信息传递，这样不但适合现代信息的传输的快速的标准，也使信息的传输的操作变得更加的大略易行。然而它也存在着一定的技能上的缺陷，即只适用于辽阔的信息传递环境，对于小范围的信息封闭式传递的意义不大。

4.网络通讯技能

网络通讯技能大致分为两类：即广域网络通讯技能和近距离通讯技能。所谓的广域的通讯技能便是指大范围的通讯技能，即我们常常所指的全国的甚至全球的传播技能，典型的应用是卫星系统的通讯技能。而近距离的通讯技能主要用于各个行业的专门的技能方面，比如医疗器械和技能的辅助通讯技能等等。

多智时代-人工智能和大数据学习入门网站|人工智能、大数据、物联网、云计算的学习交流网站

人工智能核心能力包括哪些层面

随着人工智能技术的高速发展，人工智能技术也在不断的完善，同时人工智能的应用领域也在不断扩张，为了能够更好的运用人工智能技术，需要了解清楚人工智能的核心能力包括哪些层面。

人工智能核心能力包括哪些层面？

从技术层面来看，业界广泛认为，人工智能的核心能力可以分为三个层面，分别是计算智能、感知智能、认知智能。

1、计算智能计算智能即机器具备超强的存储能力和超快的计算能力，可以基于海量数据进行深度学习，利用历史经验指导当前环境。随着计算力的不断发展，储存手段的不断升级，计算智能可以说已经实现。例如AlphaGo利用增强学习技术完胜世界围棋冠军；电商平台基于对用户购买习惯的深度学习，进行个性化商品推荐等。

人工智能核心能力包括哪些层面？

2、感知智能感知智能是指使机器具备视觉、听觉、触觉等感知能力，可以将非结构化的数据结构化，并用人类的沟通方式与用户互动。随着各类技术发展，更多非结构化数据的价值被重视和挖掘，语音、图像、视频、触点等与感知相关的感知智能也在快速发展。无人驾驶汽车、著名的波士顿动力机器人等就运用了感知智能，它通过各种传感器，感知周围环境并进行处理，从而有效指导其运行。

3、认知智能相较于计算智能和感知智能，认知智能更为复杂，是指机器像人一样，有理解能力、归纳能力、推理能力，有运用知识的能力。目前认知智能技术还在研究探索阶段，如在公共安全领域，对犯罪者的微观行为和宏观行为的特征提取和模式分析，开发犯罪预测、资金穿透、城市犯罪演化模拟等人工智能模型和系统；在金融行业，用于识别可疑交易、预测宏观经济波动等。要将认知智能推入发展的快车道，还有很长一段路要走。

智能音箱的五大核心技术

在很多人眼里依旧是新潮玩意的智能音箱，往往具备智能家居声控中心和个人助理两大核心功能。通过智能音箱可以实现对家居中的智能电器进行联网和语音控制，同样也可完成日常安排、订餐厅、叫车、阅读、翻译、通话等类似个人助理的功能。智能音箱的优势在于其能够通过语音实现“隔空操作”，在人们不方便使用手机或其他电子设备时提供帮助。这么方便好用的智能音箱，究竟是用了什么技术来解放我们的双手的呢？

智能音箱的五大核心技术

1.芯片技术

芯片厂商主要为智能音箱提供主控芯片、内存芯片、处理器芯片、音频芯片、通信芯片、电源系统管理芯片等，其中主控芯片作为主板的核心组成部分，优质的主控芯片可有效提升智能音箱音质，发挥音效设备及麦克风的最佳性能。目前为智能音箱提供芯片技术的主要有联发科、全志科技、瑞芯微、紫光展锐、高通、晶晨等厂商，除了主控芯片以外，还有数字功放芯片、音频ADC芯片、内存芯片、电源系统管理芯片、WIFI蓝牙二合一芯片等。

2.麦克风阵列技术

麦克风阵列（以下简称麦列），是由一定数目的麦克风组成，用来对声场的空间特性进行采样并处理的系统。简单而言，使用麦列而非单个麦克风，是为了在用户距离音箱较远时，依然能够正常的收听用户的语音指令。

3.语音识别技术

语音识别的目的是将语音信号转化为文本。语音识别技术相对成熟。目前，基于近场信号的、受控环境（低噪声、低混响）下的标准音语音识别能够达到很的水平。该技术现阶段相对成熟，普遍近场识别率可以达到90%以上。行业技术龙头是科大讯飞，目前识别率可以达到97%。此外，腾讯、百度、思必驰等公司在识别率和技术实力上也都处于领先地位。

4.语义识别技术

智能音箱光能识别语音还不够，关键是要识别语义，能理解用户的意思才能提供更好的交互体验。语义识别技术发展的关键是数据量的收集与算法模型的构建，当收集到的数据量足够时，就能通过算法模型构建更复杂精确的建模，从而正确辨析语境和语义。目前该技术普遍存在误唤醒率高、连续对话功能不稳定、语义理解能力差等缺点，还存在很大的进步空间。

5.内容推荐算法

智能音箱的智能化还体现在能根据用户需求推荐内容，提高用户满意度。

当代人工智能的核心技术究竟是什么 人工智能五大核心技术举例说明了什么