博舍

人工智能与自然语言处理技术 人工智能的结构化层次包括

人工智能与自然语言处理技术

随着人工智能技术的发展,我们生活中的许多应用都带上了“AI”的色彩,比如可以用计算机帮翻译外文文档。但有时候人工智也能会出一些小故障,变得不那么智能,尤其在语言处理方面。那么我们怎样才能让人工智能变成真正的“智能”呢?自然语言处理技术就是一个重要的方式。

自然语言处理技术(即natural language processing,简称NPL)是人工智能的一个重要分支,其目的是利用计算机对自然语言进行智能化处理。基础的自然语言处理技术主要围绕语言的不同层级展开,包括音位(语言的发音模式)、形态(字、字母如何构成单词、单词的形态变化)、词汇(单词之间的关系)、句法(单词如何形成句子)、语义(语言表述对应的意思)、语用(不同语境中的语义解释)、篇章(句子如何组合成段落)7个层级。这些基本的自然语言处理技术经常被运用到下游的多种自然语言处理任务中,如机器翻译、对话、问答、文档摘要等。

科学家研究自然语言处理技术(NLP)的目的是让机器能够理解人类语言,用自然语言的方式与人类交流,最终拥有“智能”。AI时代,我们希望计算机拥有视觉、听觉、语言和行动的能力,其中语言是人类区别于动物的最重要特征之一,语言是人类思维的载体,也是知识凝练和传承的载体。在人工智能领域,研究自然语言处理技术的目的就是让机器理解并生成人类的语言,从而和人类平等流畅地沟通交流。

但现在的人工智能常常和我们的人工评价有很大的出入,这也是基于AI算法的自动评测面临的最大挑战:如何与人工评价保持一致?应对这个挑战需要解决很多问题。以智能阅卷为例:如何制定电脑适用的评测标准?人工智能如何应对语言的千变万化?如何设计阅卷综合性的评测指标?有科学家认为,大数据与富知识双轮驱动或许能成为解决问题的关键,即在大数据驱动的基础上加入富知识驱动,可以突破现在智能语言处理技术上的瓶颈。

总而言之,自然语言技术的发展说明人工智能技术的核心还是在“人”。“人工智能和机器学习带给决策过程的支撑和信心将使创新加速,但这并不意味着人类的缺席。人们仍然需要定义分析的起点、标注主题并从收集的信息中提取所需数据。”

本文由北京市第六十五中学一级教师李岩进行科学性把关。

科普中国中央厨房

新华网科普事业部

科普中国-科学原理一点通

联合出品

更多精彩内容,请下载科普中国客户端。

作者:和卓琳 [责任编辑:魏承瑶]

人工智能导论

​第一章

1.作为计算机科学的一个分支,人工智能的英文缩写是()。AI

2.人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门交叉科学,它涉及(D)。

A.自然科学B.社会科学C.技术科学D.A、B和C

3.人工智能定义中的“智能”,涉及到诸如(A)等问题。

A.B、C和DB.意识C.自我D.思维

4.下列关于人工智能的说法不正确的是(C)。

A.人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。

B.人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。

C.自1946年以来,人工智能学科经过多年的发展,已经趋于成熟,得到充分应用。

D.人工智能不是人的智能,但能像人那样思考,甚至也可能超过人的智能。

5.人工智能经常被称为世界三大尖端技术之一,下列说法中错误的是(B)。

A.空间技术、能源技术、人工智能

B.管理技术、工程技术、人工智能

C.基因工程、纳米科学、人工智能

D.人工智能已成为一个独立的学科分支,无论在理论和实践上都已自成系统

6.人工智能与思维科学的关系是实践和理论的关系。从思维观点看,人工智能不包括(A)。

A.直觉思维B.逻辑思维C.形象思维D.灵感思维

7.强人工智能强调人工智能的完整性,下列(C)不属于强人工智能。

A.(类人)机器的思考和推理就像人的思维一样

B.(非类人)机器产生了和人完全不一样的知觉和意识

C.看起来像是智能的,其实并不真正拥有智能,也不会有自主意识

D.有可能制造出真正能推理和解决问题的智能机器

8.被誉为“人工智能之父”的科学大师是(D)。

A.爱因斯坦B.冯·诺依曼C.钱学森D.图灵

9.电子计算机的出现使信息存储和处理的各个方面都发生了革命。下列说法中不正确的是(C)。

A.计算机是用于操纵信息的设备

B.计算机在可改变的程序的控制下运行

C.人工智能技术是后计算机时代的先进工具

D.计算机这个用电子方式处理数据的发明,为实现人工智能提供了一种媒介

10.Wiener从理论上指出,所有的智能活动都是(A)机制的结果,而这一机制是有可能用机器模拟的。这项发现对早期AI的发展影响很大。

A.反馈B.分解C.抽象D.综合

11.(B)年夏季,一批有远见卓识的年轻科学家在达特茅斯学会上聚会,共同研究和探讨用机器模拟智能的一系列有关问题,首次提出了“人工智能(AI)”这一术语,它标志着“人工智能”这门新兴学科的正式诞生。

A.1946B.1956C.1976D.1986

12.用来研究人工智能的主要物质基础以及能够实现人工智能技术平台的机器就是计算机。下列(D)不是人工智能研究的主要领域。

A.深度学习B.计算机视觉C.智能机器人D.人文地理

13.人工智能在计算机上的实现方法有多种,但下列(B)不属于其中。

A.传统的编程技术,使系统呈现智能的效果

B.多媒体拷贝复制和剪贴的方法

C.传统开发方法而不考虑所用方法是否与人或动物机体所用的方法相同

D.模拟法,不仅要看效果,还要求实现方法也和人类或生物机体所用的方法相同或相类似

14.人工智能当前的发展具有“四新”特征,下面(A)不属于其中之一。新挑战

A.新能源B.新突破C.新动能D.新高地

15.通过总结人工智能发展历程中的经验和教训,我们可以得到的启示是(D)。

A.尊重发展规律是推动学科健康发展的前提,实事求是设定发展目标是制定学科发展规划的基本原则

B.基础研究是学科可持续发展的基石

C.应用需求是科技创新的不竭之源,学科交叉是创新突破的“捷径”,宽容失败是支持创新的题中应有之义

D.A、B和C

16.人工智能的发展突破了“三算”方面的制约因素,这“三算”不包括(C)。

A.算法B.算力C.算子D.算料

17.得益于人工智能技术的兴起,一些行业岗位将呈现出显着的增长趋势,但下面(C)不属于其中之一。

A.数据科学家B.机器学习工程师C.电脑维修工程师D.AI硬件专家

18.有研究指出,人工智能可能会给人类社会带来潜在威胁,包括(D)。

A.数字安全B.物理安全C.政治安全D.A、B和C

19.有研究者认为,让计算机拥有智商是很危险的,它可能会反抗人类。这种隐患已经在(B)中呈现过,其关键是允不允许机器拥有自主意识的产生与延续。

A.法律文件B.多部电影C.政府报告D.一些案例

第三章

1.19世纪以来,当面临大量数据时,社会都依赖于采样分析。但是采样分析是(C)时代的产物。

A.电脑B.青铜器C.模拟数据D.云

2.长期以来,人们已经发展了一些使用尽可能少的信息的技术。例如,统计学的一个目的就是(C)

A.用尽可能多的数据来验证一般的发现

B.同尽可能少的数据来验证尽可能简单的发现

C.用尽可能少的数据来证实尽可能重大的发现

D.用尽可能少的数据来验证一般的发现。

3.因为大数据是建立在(A),所以我们就可以正确地考察细节并进行新的分析。

A.掌握所有数据,至少是尽可能多的数据的基础上的

B.在掌握少量精确数据的基础上,尽可能多地收集其他数据

C.掌握少量数据,至少是尽可能精确的数据的基础上的

D.尽可能掌握精确数据的基础上

4.直到今天,我们的数字技术依然建立在精准的基础上,这种思维方式适用于掌握(A)的情况。

A.小数据量B.大数据量C.无数据D.多数据

5.当人们拥有海量即时数据时,绝对的精准不再是人们追求的主要目标。当然,(C)。

A.我们应该完全放弃精确度,不再沉迷于此

B.我们不能放弃精确度,需要努力追求精确度

C.我们也不是完全放弃了精确度,只是不再沉迷于此

D.我们是确保精确度的前提下,适当寻求更多数据

6.为了获得更广泛的数据而牺牲了精确性,也因此看到了很多如若不然无法被关注到的细节。(B)。

A.在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多问题

B.在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处

C.无论什么情况,我们都不能容忍错误的存在

D.无论什么情况,我们都可以包容错误

7.以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。这时因为(C)。

A.提高样本随机性可以减少对数据量的需求

B.样本随机性优于对大数据的分析

C.可以获取的数据少,提高样本随机性可以提高分析准确率

D.提高样本随机性是为了减少统计分析的工作量

8.研究表明,在少量数据情况下运行得最好的算法,当加入更多的数据时,(A)。

A.也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行得最不好的

B.与其他的算法一样有所提高,仍然是在大量数据条件下运行得最好的

C.与其他的算法一样所有提高,在大量数据条件下运行得还是比较好的

D.虽然没有提高,还是在大量数据条件下运行得最好的

9.如今,要想获得大规模数据带来的好处,混乱应该是一种(D)。

A.不正确途径,需要竭力避免的

B.非标准途径,应该尽量避免的

C.非标准途径,但可以勉强接受的

D.标准途径,而不应该是竭力避免的

10.研究表明,只有()的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下(C)的非结构化数据都无法被利用。

A.95%,5%B.30%,70%C.5%,95%D.70%,30%

11.寻找(B)是人类长久以来的习惯,即使确定这样的关系很困难而且用途不大,人类还是习惯性地寻找缘由。

A.相关关系B.因果关系C.信息关系D.组织关系

12.在大数据时代,我们无须再紧盯事物之间的(A),而应该寻找事物之间的(),这会给我们提供非常新颖且有价值的观点。

A.因果关系,相关关系B.相关关系,因果关系

C.复杂关系,简单关系D.简单关系,复杂关系

13.所谓相关关系,其核心是指量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能会随之(C)。

A.减少B.显现C.增加D.隐藏

14.通过找到一个现象的(D),相关关系可以帮助我们捕捉现在和预测未来。

A.出现原因B.隐藏原因C.一般的关联物D.良好的关联物

15.大数据时代,专家们正在研发能发现并对比分析非线性关系的技术工具。通过(A),相关关系帮助我们更好地了解了这个世界。

A.探求“是什么”而不是“为什么”

B.探求“为什么”而不是“是什么”

C.探求“原因”而不是“结果”

D.探求“结果”而不是“原因”

第四章

1.搜索是大多数人生活中的(B)。

A.稀罕情况B.自然组成部分

C.不可能出现D.大概率事件

2.搜索及其执行是人工智能技术的(C)。

A.一般应用B.重要应用C.重要基础D.不同领域

3.关于搜索算法,下面不正确或者不合适的说法是(D)。

A.利用计算机的高性能来有目的的穷举一个问题的部分或所有的可能情况,从而求出问题的解的一种方法

B.根据初始条件和扩展规则构造一颗“解答树”并寻找符合目标状态的节点

C.可以划分成两个部分——控制结构(扩展节点的方式)和产生系统(扩展节点)

D.主要是通过修改其数据结构来实现的

4.关于盲目搜索,下列选项中不正确或者不合适的选项是(A)。

A.又叫启发式搜索,是一种多信息搜索

B.这些算法不依赖任何问题领域的特定知识

C.一般只适用于求解比较简单的问题

D.通常需要大量的空间和时间

5.盲目搜索通常是按预定的搜索策略进行搜索,常用的盲目搜索有(C)两种。

A.连续搜索和重复搜索B.上下搜索和超链接搜索C.广度优先搜索和深度优先搜索D.多媒体搜索和AI搜索

6.状态空间图是一个有助于形式化搜索过程的(D),是对一个问题的表示。

A.程序结构B.算法结构C.模块结构D.数学结构

7.回溯算法是所有搜索算法中最为基本的一种算法,它采用一种“(A)”思想作为其控制结构。

A.走不通就掉头B.一走到底

C.循环往复D.从一点出发不重复

8.盲目搜索是不使用领域知识的不知情搜索算法,它有3种主要算法,下列(C)不属于其中。

A.深度优先搜索B.广度优先搜索

C.广度迭代搜索D.迭代加深的深度优先搜索

9.知情搜索是用启发法,通过(B)来缩小问题空间,是问题求解中通常是很有用的工具。

A.既不限定搜索深度也不限定搜索宽度

B.限定搜索深度或是限定搜索宽度

C.提高搜索算法智能化水平D.提高搜索算法的软件工程设计水平

10.爬山法是贪婪且原始的,它可能会受到3个常见问题的困扰,但下列(D)不属于这样的问题。

A.山麓问题B.高原问题C.山脊问题D.压缩问题

11.启发法是用于解决问题的一组常用指南。使用启发法,我们可以得到一个(A)的结果。

A.很有利但不能保证B.很有利且可以得到有效保证

C.不利且不能得到保证D.不明确

12.启发式搜索方法的目的是在考虑到要达到的目标状态情况下,(B)节点数目。

A.极大地增加B.极大地减少C.稳定已有的D.无须任何

13.有3种为找到任何解的知情搜索的特定搜索算法,但下列(C)不属于其中之一。

A.爬山法B.最陡爬坡法C.直接爬坡法D.最佳优先法

14.有一些搜索算法的设计灵感来自于自然系统,例如遗传、(D)等典型算法在图像边缘检测、图像分割、图像识别、图像匹配、图像分类等领域有广泛应用。

A.蚁群B.模拟退火C.粒子群D.A、B和C

第七章

1.在线影片租赁服务商Netflix的主营业务是提供互联网随选流媒体播放,它所依赖的关键服务是(B)。

A.搜索引擎B.推荐引擎C.百度引擎D.谷歌引擎

2.下列(D)信息服务利用了人工智能的机器学习技术。

A.智能语音助手SiriB.Alexa个人助理客户端

C.Netflix电影推荐D.上述所有都是

3.机器学习最早的发展可以追溯到(A)。

A.英国数学家贝叶斯在1763年发表的贝叶斯定理

B.1950年计算机科学家图灵发明的图灵测试

C.1952年亚瑟·塞缪尔创建的一个简单的下棋游戏程序

D.唐纳德·米奇在1963年推出的强化学习的tic-tac-toe(井字棋)程序

4.学习是人类具有的一种重要的智能行为,社会学家、逻辑学家和心理学家都各有其不同的看法。关于机器学习,合适的定义是(D)。

A.兰利的定义是:“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”

B.汤姆·米切尔的定义是:“机器学习是对能通过经验自动改进的计算机算法的研究”

C.Alpaydin的定义是:“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准”

D.A、B、C都可以

5.机器学习的核心是“使用(C)解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。

A.程序B.函数C.算法D.模块

6.有三种主要类型的机器学习:监督学习、非监督学习和(B)学习,各自有着不同的特点。

A.重复B.强化C.自主D.优化

7.监督学习的主要类型是(A)。

A.分类和回归B.聚类和回归C.分类和降维D.聚类和降维

8.无监督学习又称归纳性学习,分为(D)。

A.分类和回归B.聚类和回归C.分类和降维D.聚类、离散点检测和降维

9.强化学习使用机器的个人历史和经验来做出决定,其经典应用是(C)。

A.文字处理B.数据挖掘C.游戏娱乐D.自动控制

10.要完全理解大多数机器学习算法,需要对一些关键的数学概念有一个基本的理解。机器学习使用的数学知识主要包括(D)。

A.线性代数B.微积分C.概率和统计D.A、B、C

11.机器学习的各种算法都是基于(A)理论的。

A.贝叶斯B.回归C.决策树D.聚类

监督学习的大部分算法基于回归理论。

12.在机器学习的具体应用中,(D)决定了学习系统基本结构的工作内容,确定了学习部分所需要解决的问题。

A.环境B.知识库C.执行部分D.A、B、C

以上解答若有错误之处,请及时留言错误处及修改后答案,我会及时更正。

doc版本下载地址:

https://wws.lanzous.com/iqpIbimdaeh

大数据和人工智能的关系,超全解析

大数据拥抱云计算

在PaaS层中一个复杂的通用应用就是大数据平台。大数据是如何一步一步融入云计算的呢?

1数据不大也包含智慧

一开始这个大数据并不大。原来才有多少数据?现在大家都去看电子书,上网看新闻了,在我们80后小时候,信息量没有那么大,也就看看书、看看报,一个星期的报纸加起来才有多少字?如果你不在一个大城市,一个普通的学校的图书馆加起来也没几个书架,是后来随着信息化的到来,信息才会越来越多。

首先我们来看一下大数据里面的数据,就分三种类型,一种叫结构化的数据,一种叫非结构化的数据,还有一种叫半结构化的数据。

结构化的数据:即有固定格式和有限长度的数据。例如填的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据。非结构化的数据:现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网页,有时候非常长,有时候几句话就没了;例如语音,视频都是非结构化的数据。半结构化数据:是一些XML或者HTML的格式的,不从事技术的可能不了解,但也没有关系。

其实数据本身不是有用的,必须要经过一定的处理。例如你每天跑步带个手环收集的也是数据,网上这么多网页也是数据,我们称为Data。数据本身没有什么用处,但数据里面包含一个很重要的东西,叫做信息(Information)。

数据十分杂乱,经过梳理和清洗,才能够称为信息。信息会包含很多规律,我们需要从信息中将规律总结出来,称为知识(Knowledge),而知识改变命运。信息是很多的,但有人看到了信息相当于白看,但有人就从信息中看到了电商的未来,有人看到了直播的未来,所以人家就牛了。如果你没有从信息中提取出知识,天天看朋友圈也只能在互联网滚滚大潮中做个看客。自己建的大数据学习交流群:458345782,群里都是学大数据开发的,如果你正在学习大数据,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。

所以数据的应用分这四个步骤:数据、信息、知识、智慧。

最终的阶段是很多商家都想要的。你看我收集了这么多的数据,能不能基于这些数据来帮我做下一步的决策,改善我的产品。例如让用户看视频的时候旁边弹出广告,正好是他想买的东西;再如让用户听音乐时,另外推荐一些他非常想听的其他音乐。

用户在我的应用或者网站上随便点点鼠标,输入文字对我来说都是数据,我就是要将其中某些东西提取出来、指导实践、形成智慧,让用户陷入到我的应用里面不可自拔,上了我的网就不想离开,手不停地点、不停地买。

很多人说双十一我都想断网了,我老婆在上面不断地买买买,买了A又推荐B,老婆大人说,“哎呀,B也是我喜欢的啊,老公我要买”。你说这个程序怎么这么牛,这么有智慧,比我还了解我老婆,这件事情是怎么做到的呢?

2数据如何升华为智慧

数据的处理分几个步骤,完成了才会有智慧。

第一个步骤叫数据的收集。首先得有数据,数据的收集有两个方式:

第一个方式是拿,专业点的说法叫抓取或者爬取。例如搜索引擎就是这么做的:它把网上的所有的信息都下载到它的数据中心,然后你一搜才能搜出来。比如你去搜索的时候,结果会是一个列表,这个列表为什么会在搜索引擎的公司里面?就是因为他把数据都拿下来了,但是你一点链接,点出来这个网站就不在搜索引擎它们公司了。比如说新浪有个新闻,你拿百度搜出来,你不点的时候,那一页在百度数据中心,一点出来的网页就是在新浪的数据中心了。

第二个方式是推送,有很多终端可以帮我收集数据。比如说小米手环,可以将你每天跑步的数据,心跳的数据,睡眠的数据都上传到数据中心里面。

第二个步骤是数据的传输。一般会通过队列方式进行,因为数据量实在是太大了,数据必须经过处理才会有用。可系统处理不过来,只好排好队,慢慢处理。

第三个步骤是数据的存储。现在数据就是金钱,掌握了数据就相当于掌握了钱。要不然网站怎么知道你想买什么?就是因为它有你历史的交易的数据,这个信息可不能给别人,十分宝贵,所以需要存储下来。

第四个步骤是数据的处理和分析。上面存储的数据是原始数据,原始数据多是杂乱无章的,有很多垃圾数据在里面,因而需要清洗和过滤,得到一些高质量的数据。对于高质量的数据,就可以进行分析,从而对数据进行分类,或者发现数据之间的相互关系,得到知识。

比如盛传的沃尔玛超市的啤酒和尿布的故事,就是通过对人们的购买数据进行分析,发现了男人一般买尿布的时候,会同时购买啤酒,这样就发现了啤酒和尿布之间的相互关系,获得知识,然后应用到实践中,将啤酒和尿布的柜台弄的很近,就获得了智慧。

第五个步骤是对于数据的检索和挖掘。检索就是搜索,所谓外事不决问Google,内事不决问百度。内外两大搜索引擎都是将分析后的数据放入搜索引擎,因此人们想寻找信息的时候,一搜就有了。

另外就是挖掘,仅仅搜索出来已经不能满足人们的要求了,还需要从信息中挖掘出相互的关系。比如财经搜索,当搜索某个公司股票的时候,该公司的高管是不是也应该被挖掘出来呢?如果仅仅搜索出这个公司的股票发现涨的特别好,于是你就去买了,其实其高管发了一个声明,对股票十分不利,第二天就跌了,这不坑害广大股民么?所以通过各种算法挖掘数据中的关系,形成知识库,十分重要。

3大数据时代,众人拾柴火焰高

当数据量很小时,很少的几台机器就能解决。慢慢的,当数据量越来越大,最牛的服务器都解决不了问题时,怎么办呢?这时就要聚合多台机器的力量,大家齐心协力一起把这个事搞定,众人拾柴火焰高。

对于数据的收集:就IoT来讲,外面部署这成千上万的检测设备,将大量的温度、湿度、监控、电力等数据统统收集上来;就互联网网页的搜索引擎来讲,需要将整个互联网所有的网页都下载下来。这显然一台机器做不到,需要多台机器组成网络爬虫系统,每台机器下载一部分,同时工作,才能在有限的时间内,将海量的网页下载完毕。

 

对于数据的传输:一个内存里面的队列肯定会被大量的数据挤爆掉,于是就产生了基于硬盘的分布式队列,这样队列可以多台机器同时传输,随你数据量多大,只要我的队列足够多,管道足够粗,就能够撑得住。

对于数据的存储:一台机器的文件系统肯定是放不下的,所以需要一个很大的分布式文件系统来做这件事情,把多台机器的硬盘打成一块大的文件系统。

对于数据的分析:可能需要对大量的数据做分解、统计、汇总,一台机器肯定搞不定,处理到猴年马月也分析不完。于是就有分布式计算的方法,将大量的数据分成小份,每台机器处理一小份,多台机器并行处理,很快就能算完。例如著名的Terasort对1个TB的数据排序,相当于1000G,如果单机处理,怎么也要几个小时,但并行处理209秒就完成了。

所以说什么叫做大数据?说白了就是一台机器干不完,大家一起干。可是随着数据量越来越大,很多不大的公司都需要处理相当多的数据,这些小公司没有这么多机器可怎么办呢?

4大数据需要云计算,云计算需要大数据

说到这里,大家想起云计算了吧。当想要干这些活时,需要很多的机器一块做,真的是想什么时候要就什么时候要,想要多少就要多少。

例如大数据分析公司的财务情况,可能一周分析一次,如果要把这一百台机器或者一千台机器都在那放着,一周用一次非常浪费。那能不能需要计算的时候,把这一千台机器拿出来;不算的时候,让这一千台机器去干别的事情?

谁能做这个事儿呢?只有云计算,可以为大数据的运算提供资源层的灵活性。而云计算也会部署大数据放到它的PaaS平台上,作为一个非常非常重要的通用应用。因为大数据平台能够使得多台机器一起干一个事儿,这个东西不是一般人能开发出来的,也不是一般人玩得转的,怎么也得雇个几十上百号人才能把这个玩起来。

所以说就像数据库一样,其实还是需要有一帮专业的人来玩这个东西。现在公有云上基本上都会有大数据的解决方案了,一个小公司需要大数据平台的时候,不需要采购一千台机器,只要到公有云上一点,这一千台机器都出来了,并且上面已经部署好了的大数据平台,只要把数据放进去算就可以了。

云计算需要大数据,大数据需要云计算,二者就这样结合了。

人工智能拥抱大数据

1机器什么时候才能懂人心

虽说有了大数据,人的欲望却不能够满足。虽说在大数据平台里面有搜索引擎这个东西,想要什么东西一搜就出来了。但也存在这样的情况:我想要的东西不会搜,表达不出来,搜索出来的又不是我想要的。

例如音乐软件推荐了一首歌,这首歌我没听过,当然不知道名字,也没法搜。但是软件推荐给我,我的确喜欢,这就是搜索做不到的事情。当人们使用这种应用时,会发现机器知道我想要什么,而不是说当我想要时,去机器里面搜索。这个机器真像我的朋友一样懂我,这就有点人工智能的意思了。

人们很早就在想这个事情了。最早的时候,人们想象,要是有一堵墙,墙后面是个机器,我给它说话,它就给我回应。如果我感觉不出它那边是人还是机器,那它就真的是一个人工智能的东西了。

2让机器学会推理

怎么才能做到这一点呢?人们就想:我首先要告诉计算机人类的推理的能力。你看人重要的是什么?人和动物的区别在什么?就是能推理。要是把我这个推理的能力告诉机器,让机器根据你的提问,推理出相应的回答,这样多好?

其实目前人们慢慢地让机器能够做到一些推理了,例如证明数学公式。这是一个非常让人惊喜的一个过程,机器竟然能够证明数学公式。但慢慢又发现其实这个结果也没有那么令人惊喜。因为大家发现了一个问题:数学公式非常严谨,推理过程也非常严谨,而且数学公式很容易拿机器来进行表达,程序也相对容易表达。

3教给机器知识

因此,仅仅告诉机器严格的推理是不够的,还要告诉机器一些知识。但告诉机器知识这个事情,一般人可能就做不来了。可能专家可以,比如语言领域的专家或者财经领域的专家。

语言领域和财经领域知识能不能表示成像数学公式一样稍微严格点呢?例如语言专家可能会总结出主谓宾定状补这些语法规则,主语后面一定是谓语,谓语后面一定是宾语,将这些总结出来,并严格表达出来不就行了吗?后来发现这个不行,太难总结了,语言表达千变万化。

人工智能这个阶段叫做专家系统。专家系统不易成功,一方面是知识比较难总结,另一方面总结出来的知识难以交给计算机。因为你自己还迷迷糊糊,觉得似乎有规律,就是说不出来,又怎么能够通过编程教给计算机呢?

4算了,教不会你自己学吧

于是人们想到:机器是和人完全不一样的物种,干脆让机器自己学习好了。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇