博舍

人工智能时代,真的不能为文科生分一杯羹吗 人工智能类的专业

人工智能时代,真的不能为文科生分一杯羹吗

如图所示,2017年中国普通本科招生人数中,工科门类招生人数几乎是历史、农学、法学、教育学、经济和理学医学之和。占比高达三分之一。

据麦可思研究院:《2019年中国大学生就业报告》(就业蓝皮书)就2018年平均月收入较高的本科专进行了调查统计。2018届本科毕业生平均月收入最高的专业是信息安全(6972元),其次是软件工程(6733元)。排名前20的专业中,只有“法语”一门人文社科专业。

人文社科专业多数都不具备强应用性。大学教育与市场需求存在脱节。受供需比影响,大学中的文科专业屡屡亮出“红灯”预警。

据专业数据机构调查,历史学、音乐表演、法学连续三届红牌。失业量大,就业率、薪资和就业满意度综合较低。

“劝人学法,千刀万剐”,在就业率面前不无道理。同样是九年义务教育,凭什么隔壁计算机学院的却一路绿灯,一个个出厂年薪6位数?

人文学科是关于人社会性的思辨,而在劳动价值的驱使下,技术和功能上无法让人获得“即时满足”的人文专业,终是逃不开“低薪”的捆绑。

受市场驱动,文科工资低,就业率差成普遍现状,也是“人文学科”人才焦虑的源头。

人工智能时代,对技术和应用型人才的“砸钱”式需求,真的不能为文科生分一杯羹吗?文科生从事人工智能领域,是痴人说梦吗?首先我们通过人工智能时代的布局方向一探究竟。

潘云鹤院士:AI2.0时代的五个布局方向

中国工程院院士、中国工程院原常务副院长潘云鹤认为在人工智能正在走向2.0时代,这也是人工智能发展的重要转折关头。潘云鹤指出,中国新一代AI的重点方向将从数据智能、群体智能、跨媒体智能、人机混合的增强智能和自主智能系统五方面进行。

在数据智能方面,AlphaGo让大家看到了大数据应用最好的便是深度学习。但是深度学习还有是否可解释,是否能够更加通用的问题。“如果把深度学习和人工智能其它技术结合起来,我们可能会使大数据中的智能走向更高的水平。”潘云鹤认为。

在五项重点发展方向中跨媒体智能发展能带来更大的想象空间。跨媒体智能将研究跨媒体,跨传感器间的各种感知学习、推理,并且把它和语言、文字的语义打通。这样研究者就可以对语言、视觉、图形、听觉,和各种各样传感器所传达出来的数据进行语义相通相融,从而能够使得智能安全、创新设计、计算机具有更好的创新能力。

具体来看,在大数据智能方向,它着重要解决从数据到知识,到智能中间可解释性的问题,可通用性的问题。为此,它要很好的解决CPH三元空间中知识表达的新体系和新方法。CPH就是信息空间、物理空间和人类社会空间,这三元空间之间会形成很多新的信息交互方式。因此需要把数据驱动的方式和知识引导的方式结合起来,形成人工智能新的更加有效的技术。从而在智能医疗、智能经济和社会治理方面有更大的应用。

第二个方向,群体智能。它将研究在互联网中,群体智能是怎么进行组织的,是怎么进行接力的,用什么方法鼓励大家一起来参与的。在参与过程中,彼此之间怎么进行协同,整个群体怎么演化为更加正确的方向和更加正确的行为。在这个过程中,群体中每一个个体之间怎么能互相学习,互相感知,这些都需要建立新的理论和新的技术。一旦建立了,将在科研、经济、商业和其它领域中有非常大的实用前途。它可以用于众创科研、分享交通、智慧医疗。

第三个方向,跨媒体智能。它将研究跨媒体,跨传感器的各种感知学习、推理,并且把它和语言、文字的语义打通。这样我们就可以对语言、视觉、图形、听觉,和各种各样传感器所传达出来的数据进行语义相通相融,从而能够使得智能安全、创新设计、计算机具有更好的创新能力,希望在人工智能2.0阶段解决计算机的创新能力。

第四个方向,人机混合增强智能。之所以希望人机混合形成强大的交互系统,形成增强智能。研究脑机协同的环境,它的交互方式,它的学习方式,动作控制方式,从而在脑控机器人和很多自主智能体之间协同。

第五个方向,自主智能系统。研究环境的感知,自身的感知,不同个体之间的协同,行为的规划,行为的决策和各种各样行为执行的理论模型和方法,用于无人车、无人机、服务机器人、空间机器人、海洋机器人、无人车间、智能工厂。不但要模拟人,而且要模拟整个系统如何进行运行。

文科生在人工智能时代可能更受欢迎?

此前,李开复老师说了一句话:“在人工智能时代,文科生终于熬到了扬眉吐气的时候了。”那么在人工智能时代,文科生有哪些优势会被放大呢?

《不会被机器替代的人》作者杰夫·科尔文预言:在未来,我们获取成功所必需的技能,不再是技术性的、通过课堂传授获得的左脑型技能,尽管在以往的经济发展中,工人的确需要掌握这些技能。相反,在强大的驱动力之下,我们彼此互助共同完成任务,人类的优势来自深层、根本的人类技能——同理心、创造力、社会敏感性、讲述故事、幽默、建立人际关系,以及比逻辑叙述更强有力地自我表达。这些恰巧是文科生的优势。

1、右脑胜过左脑

《不会被机器替代的人》作者杰夫·科尔文预言:在未来,我们获取成功所必需的技能,不再是技术性的、通过课堂传授获得的左脑型技能,尽管在以往的经济发展中,工人的确需要掌握这些技能。相反,在强大的驱动力之下,我们彼此互助共同完成任务,人类的优势来自深层、根本的人类技能——同理心、创造力、社会敏感性、讲述故事、幽默、建立人际关系,以及比逻辑叙述更强有力地自我表达。这些恰巧是文科生的优势。

2、人际交往技能比专业技能更重要

人有一种偏见,喜欢过高评价“人与人面对面交往”这个行为,而对抽象数据不怎么买账。这是可以理解的,人本质上是个社交动物。

这个偏见,在人工智能时代给人类留下了一个工作机会。人工智能再怎么发达,我们还是要求:

最重要的决定是由人做出的。如果某国要对其他国家宣战,我们要求这个命令是人下达的,在这个问题上我们不可能听从人工智能的指挥,我们不可能把核按钮交给人工智能。人说了算,不能让机器说了算。

我们的价值标准一直在变,喜欢什么想要什么,想法随时都在变,我们无法给人工智能一个清晰的目标,所以有些事儿还是让人自己解决比较好——因为我们有时候自己都不知道要“解决”的是什么。

也是最重要的一点,我们更愿意跟人打交道。因此,最好的办法就是表现出“人味儿”。

从这个角度想,“理工男”可就有危机了,未来也许是“文科生”的天下。美国有一些调研表明,从2000年开始,工程师们在日常工作中所需要消耗的实际脑力,就已经开始下降了。可能自动化程度越来越高,那么工程师的活就越来越简单——也就是越来越不值钱。

《不会被机器替代的人》中有个相当极端的例子。说美国西南航空公司花重金,从众多申请者中聘请了一位技术特别过硬的IT工程师。这人来了以后就把自己关在办公室里干活也不出来跟人聊天。结果主管就问他你怎么不聊天啊?这人说我爱钻研技术不爱聊天。主管说我们西南航空的企业文化就是聊天,然后把他解雇了。

可见,不爱社交的IT男不是好同事。

3、课外实践重于课堂学习

哈佛商学院让一年级的学生走出课堂,参加团队实践。每个团队选择新兴市场上的一个公司。例如,中国的联想公司或者越南资本银行,开展公司提出的一个真实项目,例如,开发一种新的金融服务,以吸引那些从没有开过银行账户的人,或者开辟一条新的家庭用户线。在校园里设计好方案后,团队于元月份进入市场,花费八天的时间进行市场研究,然后,向公司最高管理层报告他们的建议。

学生返校以后,他们的工作不仅强度增加了,而且更加个性化了。根据学校要求,每个团队在10周内,用学校提供的3000元启动金创办一个自己的公司。每年有150个团队,就会创办150个有限责任公司,产生150个商业构想,包括男士优质内衣、为语言辅导教师和世界各地的学生提供联系服务、印度莎丽租赁服务以及其他五花八门的构想。

对于商学院的学生而言,学习资本资产定价模型依然很重要,但是,继续呆在教室里学习模型,对他们已经没什么意义。因为,虽然他们在教室里相互间的物理距离很近,却几乎没有什么交往。

我们可以把商学院的经验总结为:如果独自工作效果更好,就不要和其他人一起耗费时间。如果你花时间和其他人在一起,就要最大限度地利用它。聚集在教室里学习公司财务知识,已经不再能实现个人时间效益的最大化。

4、感性优于理性

全球各地数十所医学院鼓励或要求学生阅读小说,因为它有助于培养学生的社会交往技能。

纽约大学医学院的医学人文学项目报告中有这样的陈述,阅读小说有助于“发展和培养观察、分析、同理心、自我反思等医疗保健业最基本的技能”。当然,受益的不仅是医学院的学生,研究表明,阅读文学小说能够普遍提高读者的同理心。阅读非小说则不会有这种功能。文学小说人物更复杂,其行为更易受内心驱动,阅读这类小说可以使读者更敏锐地察觉他人的所思所想,这是一种为数不多的通过独自活动提高人际技能的方法。

这类研究为人文学专业的学生提供了新的希望。虽然,我们知道薪酬最高的大学专业几乎全部是工程专业,然而,在新兴职业领域,人文学所培养的能力恰恰是经济体中越来越受重视的能力。这并不是因为,对人文学的理解能够帮助科学技术人员创造出更好、更便利、更吸引人的科技,虽然,从同理心角度来说的确应该如此。这是史蒂夫·乔布斯最喜爱的主题之一——他在俄勒冈州波特兰市知名文理学院里德学院接受的教育,这直接影响了苹果产品超凡的外观、质感以及体验。所以,乔布斯给儿子起名为里德。

文科生的机会:跨学科学习,你愿意吗?

清华大学的自动化系、计算机科学与技术系、电子工程系、软件学院都是研究人工智能的本科起点院系,而说起软件学院,不得不提刘云浩教授。

本科毕业后,他“觉得外交官酷”,就去学了同声传译,拿到文学硕士学位。硕士毕业后,他又选择了从政,不到30岁就成为当时国家邮电部最年轻的处长。而立之年,他却选择出国去美国密西根州立大学留学,仅三年多就拿下计算机硕士和博士,成为该系历史上毕业第二快的博士。博士毕业,他在香港科技大学当老师。最后,他回到清华任教,并成为软件学院院长。

这样一段传奇人生,恰好是跨学科学习的典范。理工、商业、文史、外语……各个领域都被刘教授刷了一遍,还是开了挂地刷。

而人工智能领域,却是最需要这种有跨学科学习能力,也愿意跨学科学习的人才的。“人工智能+”越来越重要,就比如AI+教育领域,如果你只懂AI,那你就做不出真正解决老师痛点的产品,如果你只懂教育,也不知道该用什么样的技术,解决学生学习过程中的困难。只有既懂AI又懂教育的复合型人才,才能真正推动这个领域的发展。

虽然你学的是人工智能专业,可是如果你不愿意跨学科学习,日后也无法走得长远,那还不如一开始就不要读这个专业。

此外,中文系不只是春花秋月,也有科学系统且偏向实践的门类研究——语言学。语言学是对人类语言本质的研究。既可以研究语言符号的形式结构和社会学意义,又可以研究其生物学本质和起源。以北京大学的计算语言专业的课程体系为例:

从语言、认知和计算三个方面对语言各个层面的计算进行研究。既有词法、句法、语义、篇章结构等层面的语言规律研究,又有技术实践和数据挖掘的实践课程。

此专业的研究生是摇身一变为人工智能大佬的最佳契机。语言是人类思维的表现形式。也是实现人与计算机之间有效通信的通用途径。于是用计算机来处理、理解以及运用人类语言就成了目前驾驭和实现人工智能的重中之重。

在这个领域缺少技能过硬的算法工程师,更缺少精通语言学的计算语言专家。这就要求“文”科班出身的同学,自我驱动,首先不要丢掉数学概率和统计算法,至少掌握一门编程语言同时学习机器学习的数据结构和算法。

如果有转行计算机领域的打算,可以在本科低年级进行相关专业课程的辅修。寒暑假可以申请其他海内外高校的交换项目;或者在线上线下参加相关的训练营课程培训。从0到1锻炼计算机的编程基础和运用能力。

此外据南京师范大学文学院语言学及应用语言学副教授李斌博士的博客介绍、目前国内有部分高校有开设计算语言学本科专业,如北大、鲁东大学和南京师范大学。

人工智能专业学什么,学校有哪些?

人工智能专业旨在培养中国人工智能产业的应用型人才,推动人工智能一级学科建设。2018年4月,研究设立人工智能专业,进一步完善中国高校人工智能学科体系。

1、人工智能专业课程

人工智能专业的主要领域是:机器学习人工智能导论(搜索法等)图像识别生物演化论自然语言处理语义网博弈论等。需要的前置课程主要有,信号处理,线性代数,微积分,还有编程(最好有数据结构基础)。

首先你需要数学基础:高等数学,线性代数,概率论数理统计和随机过程,离散数学,数值分析

其次需要算法的积累:人工神经网络,支持向量机,遗传算法等等算法;当然还有各个领域需要的算法,比如你要让机器人自己在位置环境导航和建图就需要研究SLAM;总之算法很多需要时间的积累;

然后,需要掌握至少一门编程语言,毕竟算法的实现还是要编程的;如果深入到硬件的话,一些电类基础课必不可少;

人工智能一般要到研究生才会去学,本科也就是蜻蜓点水看看而已,毕竟需要的基础课过于庞大。

2、人工智能专业学校有哪些

中国32家开设人工智能相关专业

NO1:清华大学

清华大学计算机系智能技术与系统国家重点实验室是国内在人工智能人才培养和科学研究的重镇。除了严整的教学培养体系之外,本科同学有浓厚的科研氛围,从大一下学期开始就有学有余力的同学开始进入实验室或相关科研机构(如MSRA),跟随导师从事科研工作。取得的成绩也是不容小觑的:每年都有十余位本科同学在国际顶级会议和期刊上发表论文。当然,清华计算机系智能实验室距离国际顶尖AI研究机构(如MITCSAIL)还有一定距离。不过可以肯定的是,这里会是我国有着AI梦的同学们绝佳的圆梦起点。

NO2:北京大学

北京大学智能科学与技术专业由北京大学数学系、计算机系、电子学系等10个系(所)于1985年成立,主要从事机器感知、智能机器人、智能信息处理和机器学习等交叉学科的研究和教学。专业涉及机器人技术,以新一代网络计算为基础的智能系统,微机电系统(MEMS),与国民经济、工业生产及日常生活密切相关的各类智能技术与系统,新一代的人-机系统技术等。

NO3:浙江大学

浙江大学在人工智能方面有着肥沃的土壤,其计算机学院下设的人工智能研究所是中国设立最早的人工智能研究机构之一。早在上世纪80年代,浙江大学就建立了人工智能研究所,首任所长就是国内著名的计算机科学家、被人尊称为“中国人工智能研究开拓者”的何志均,之后两任所长潘云鹤和吴朝晖都算得上是他的得意门生,他们也先后担任了浙江大学的校长。从1981年至今,浙大人工智能研究所见证和参与了人工智能的一系列变化。到现在,人工智能进入大数据阶段,浙大在计算机视觉领域已经建立了相当大的优势。

NO4:上海交通大学

上海交通大学在人工智能领域已有数年的积累,计算机系俞凯教授团队的智能语音技术取得了多个国际评测冠军,达到了国际一流水平。团队在产业化上也实现了很大的突破,他所创立的苏州思必驰信息科技有限公司已经被苏州市确认为人工智能领军企业,作为苏州工业园区内的标杆,将在3-5年达到百亿市值,并作为千亿市值企业后备军。同时,交大在智能媒体、图像分析、脑机交互、机器人、人工智能芯片等领域还有一批一流团队及成果,具备良好的发展前景。

NO5:南京大学

南京大学的计算机科学研究起步于1958年,建立了计算技术、计算数学、数理逻辑等专业开始培养计算机相关领域专门人才,1978年在上述三个专业基础上成立了计算机科学系,1993年更名为计算机科学与技术系。南京大学计算机科学与技术系在建系前和建系初期就曾取得令人瞩目的成就:上个世纪60年代调试成功了当时国家高等教育部所属高校第一台计算机,实现了我国第一个高级语言编译程序;70年代分别主持了国产DJS-210中型计算机和XT-1操作系统等软件系统的研制;80年代研发了国内第一个分布式系统ZCZ,培养出中国大陆第一位计算机软件博士。建系以来,南京大学的计算机学科建设进入快速发展期,在队伍建设、人才培养、科学研究等方面一直位居国内先进行列。

NO6:复旦大学

复旦大学图像与智能实验室主要研究领域包括人工智能,图像处理,计算机视觉,信息安全等基于生物视觉的感知和认知结合的学习模型及其在脑型机器人上的应用,应用领域包括工业视觉、智能机器人、智能安防、生物医学影像识别。该校研发的视觉系统已经应用于国内外多家著名企业和创业公司,取得了良好的经济效益。毕业生去向包括(1)赴IBM研究院、谷歌、华为、腾讯、百度、阿里巴巴等公司就职;(2)前往哈佛、卡内基梅隆、普林斯顿、华盛顿、哥伦比亚等大学攻读博士学位和做博士后研究。

NO7:哈尔滨工业大学

在全国高校学科评估中,哈工大计算机科学与技术学科位列全国第4名,是国家重点一级学科,并进入ESI全球前1%的研究机构行列。计算机类专业隶属于计算机科学与技术学院,教师队伍由中国工程院院士方滨兴、中国科学院院士陈国良、美国国家工程院院士DanielP.Siewiorek领衔,包括了中组部“千人计划”入选者潘正祥、贾小华等国家和深圳市认定的高层次人才,承担并完成了国家重点科技攻关项目、国家自然科学(重点)基金项目、国家863项目等各类课题100余项,拥有国家发明专利、软件著作权等100余项。

NO8:中国科学技术大学

中国科学院自动化研究所自建所伊始,就在工业自动化、智能设备控制、模式识别、智能信息处理等领域享誉国内外,号称中国人工智能领域的黄埔军校,其培养的学生业已遍及全球顶尖的高校、学术研究机构和IT巨头。

NO9:华中科技大学

华中科技大学计算机科学与技术学院拥有信息存储系统教育部重点实验室、服务计算技术与系统教育部重点实验室、数据存储系统与技术教育部工程中心、网络存储技术湖北省工程研究中心、集群与网格计算湖北省重点实验室、湖北省数据库工程技术研究中心、下一代互联网接入系统国家重点实验室,拥有华中科技大学IBM技术中心、国家高性能计算中心(武汉)。另外,该学科是中国教育科研计算机网华中中心结点单位,是中国教育科研网格主结点、中国国家网格(武汉)结点单位,是武汉光电国家实验室(筹)的重要组成单位之一。

NO10:东南大学

东南大学计算机科学与工程学院起源于1960年建立的“解算装置及技术”专业,曾自主研制我国第一台数字积分机,填补了国内空白,并成功地应用于国防现代化和工业自动化领域,取得了开创性成果。近10年来,承担了各类科研项目共200多项,其中国家自然科学基金、国家973、国家863、国家科技攻关、教育部和江苏省等重要科研项目140多项,获得国际工业领先奖1项、国家科技进步奖8项、部省级奖20多项,在国内外著名的学术期刊和会议上发表论文1600多篇,其中SCI、EI、ISTP三大检索850多篇次。在ESI学科排名中,学院水平已进入全球前1%。

据走向智能论坛、高三网、站长之家等综合整理。返回搜狐,查看更多

最全人工智能专业术语表(中英文对照)

人工智能不仅是指寻求如何替代人类的机器人或人类寻求自我挑战的游戏,更是指运用复杂的程序化数学,其结果与高质量的训练数据相结合,推动了我们在日常生活中所看到的技术进步。从无人驾驶汽车到寻找癌症的治疗方法,人工智能正在逐渐渗透我们的生活之中。

以下是内容由“澳鹏|AI与机器学习干货大本营”编辑,希望能帮助对人工智能领域感兴趣的学者或是专业人士,如果有任何遗漏也请随时回复我们,我们将及时更新!(按英语首字母顺序排列)

A

A/BTesting(A/B测试)一种受控的真实实验,用于比较系统或模型的两个变体A和B。

ActivationFunction(激活函数)在人工神经网络的情境中,接受来自上一层的所有输入的加权和并生成输出值来激活下一层的函数。

ActiveLearning(ActiveLearningStrategy)(主动学习/主动学习策略)半监督机器学习的一种特殊情况,在这种情况下,学习代理能够以交互的方式查询数据库(通常是人工标注员),以获取新数据点的标签。

Algorithm(算法)一种关于如何解决某一类问题的过程的明确规范,它能够执行计算、处理数据并进行自动推理。

Annotation(标注)附加到一条数据之上的元数据,通常由人工标注员提供。

AreaUndertheCurve(AUC)(曲线下面积)机器学习中用于确定在多个使用的模型中哪个模型具有最高性能的一种方法。

ArtificialIntelligence(人工智能)机器模拟人类智力和行为做出决策、执行任务的能力。

ArtificialNeuralNetworks(人工神经网络)由简单互联单元(称作神经元)的连续层所构成的一种架构,这些单元与非线性激活函数交织在一起,会让人模糊地联想到动物大脑中的神经元。

AssociationRuleLearning(关联规则学习)一种基于规则的机器学习方法,用于发现大型数据集中变量之间的关系。

Autoencoder(自动解码器)一种人工神经网络,用于以无监督、非线性的方式生成高效的数据表示,通常用于降低维度。

AutomatedSpeechRecognition(自动语音识别)计算语言学的一个子领域,主要是关于通过计算机识别和翻译口语的方法。

B

Backpropagation(BackpropagationThroughTime)(反向传播/基于时间的反向传播)用于训练人工神经网络,进而计算网络权重计算所需梯度的一种方法。

Batch(批量)在模型训练的单个梯度更新中使用的示例集。

Bayes’sTheorem(贝叶斯定理)统计学家根据可能与某个存在相关的先验条件知识描述某个事件的概率时所用的一个著名定理。

Bias(InductiveBias,ConfirmationBias)(偏差-归纳偏差、确认偏差)归纳偏差:学习者在给定输入条件下预测尚未遇到的输出时所用的假设事项集。确认偏差:以确认自己的信念或假设的方式搜索、解释、赞成和回想信息,而较少关注与之相矛盾的信息的趋势。

Bias-VarianceTradeoff(偏差与方差权衡)当数据科学家尝试同时最大程度地减小偏差和方差时所产生的冲突,该冲突不利于监督算法推广到他们的训练集范围之外。

Boosting(提升)主要用于减少监督学习中的偏差和方差的一种机器学习集成元算法,以及将弱学习者转化为强学习者的一系列机器学习算法。

BoundingBox(边界框)完全包含一组点或一个对象的最小(矩形)框。

C

Chatbot(聊天机器人)一种旨在通过对话与人类用户进行交互的计算机程序或AI。

Classification(分类)对映射函数进行从输入变量到离散输出变量的近似处理的任务,或者从广义上来说,是指用于确定特定实例所属的类的某一类机器学习算法。

Clustering(聚类)在机器学习中,是指对一组对象进行分组,使得同一组(即集群)中的对象彼此之间的“相似性”高于与其他组中的对象“相似性”的无监督任务。

Cold-Start(冷启动)由于系统无法针对尚未收集到足够信息的用户或项目推断出任何信息而引起的潜在问题。

CollaborativeFiltering(协作过滤)在推荐系统中使用的一种方法,用于通过收集来自较大用户组的偏好来预测用户的兴趣。

ComputerVision(计算机视觉)机器学习的领域之一,主要研究如何获得对图像或视频的高级理解。

ConfidenceInterval(置信区间)一种区间估计,可能包含未知总体参数的真实值。该区间与置信水平相关,而置信水平用于量化参数在区间中的置信度。

Contributor(贡献者)提供标注服务的人工标注员。

ConvolutionalNeuralNetwork(CNN)(卷积神经网络)一种深层、前馈人工神经网络类别,通常用于计算机视觉。

CentralProcessingUnit(CPU)(中央处理单元)计算机中通过执行指令指定的基本算术、逻辑、控制和输入/输出操作来执行计算机程序的指令的电子电路。

Cross-Validation(k-foldCross-Validation,Leave-p-outCross-Validation)(交叉验证-k折交叉验证、留p法交叉验证)旨在评估如何将预测模型的结果推广到新数据集的一组流程,包括k折交叉验证及留p法交叉验证。

D

Data(StructuredData,UnstructuredData,Dataaugmentation)(数据-结构化数据、非结构化数据、数据增强)所有机器学习和人工智能项目的最基本要素。

非结构化数据:未经处理的原始数据。文本数据是非结构化数据的完美示例,因为它没有格式化为特定功能。

结构化数据:以机器学习算法可摄取的方式处理的数据;如果是监督机器学习,则为已标记的、经处理后的数据。

数据增强:将内外部来源衍生的新信息添加到数据集的过程(一般通过标注来实现)。

DecisionTree(决策树)监督机器学习算法的一个类别,在此类算法中,数据会根据给定参数或条件进行迭代拆分。

DeepBlue(深蓝)由IBM开发的国际象棋游戏计算机,作为全球首个在常规时限内同时战胜了国际象棋游戏和国际象棋比赛卫冕世界冠军的计算机国际象棋游戏系统而闻名。

DeepLearning(DeepReinforcementLearning)(深度学习/深度强化学习)与特定任务的算法相反,基于学习数据表示的更广泛的机器学习方法系列。深度学习包括监督学习、半监督学习或无监督学习。

维度(降维、维度灾难)降维:通过获取一组主变量来减少所考虑的随机变量数量的过程。另请参见特征选择。

维度灾难:由于维数越多,可用数据量越稀疏这一事实,在高维空间中分析和组织数据时出现的一种现象。

E

Embedding(WordEmbedding)(嵌入/词嵌入)某个实例中所含的某个数学结构的另一个实例,例如作为另一个组的子组的组。

EnsembleMethods(集成方法)在统计和机器学习中,集成方法使用多种学习算法来获得更好的预测性能,而这种性能可以单独从任何组合式学习算法中获得。与统计力学中通常是无限的统计集成不同,机器学习集成仅由一组有限的替代模型组成,但通常允许在这些替代模型之间存在更灵活的结构。

Entropy(熵)随机数据源传达的平均信息量。

Epoch(时期)在深度学习模型训练场景中,完整训练数据集的一次训练循环。

F

Feature(FeatureSelection,FeatureLearning)(特征-特征选择、特征学习)用作模型输入的变量。

FeatureLearning(特征学习)旨在自动从原始数据中发现特征检测或分类所需的表示的一组技术。

FalsePositive(误报)由于结果在虚无假设原本不应该存在的情况下拒绝虚无假设而导致的误差。

FalseNegative(漏报)由于结果在虚无假设应该存在的情况下未拒绝虚无假设而导致的误差。

Feed-Forward(Neural)Networks(前馈神经网络)一种人工神经网络,其中神经元之间的连接不会向后移动或形成循环。

F-Score(F得分)衡量模型准确性的一个指标,它会考量准确率和召回率来计算得分。更具体地说,F得分是准确率和召回率的调和平均值,该平均值的最大值为1(完美的准确率和召回率),最小值为0。

G

GarbageIn,GarbageOut(垃圾进垃圾出)一项原则,具体说的是:只要输入数据存在缺陷,就会导致误导性的结果并产生无意义的输出,也就是“垃圾”。

GeneralDataProtectionRegulation(GDPR)(通用数据保护条例)欧盟颁布的一部针对欧盟内所有个体的数据保护和隐私法规,旨在控制公民和居民对其个人数据的控制。

GeneticAlgorithm(遗传算法)基于进化论的一种启发式搜索算法,进化论反映了自然选择的过程,在这个过程中,最能适应环境的个体会被选出生产下一代。

GenerativeAdversarialNetworks(GANs)(生成对抗网络)无监督机器学习中使用的一种人工智能算法类别,作为零和游戏框架中相互竞争的两个神经网络的组合予以实施。

GraphicProcessingUnit(GPU)(图形处理单元)一种专用的电子电路,它采用并行处理架构,旨在快速操作和更改内存,以加速图像渲染,从而使其可以同时执行多个计算。

GroundTruth(事实真相)通过直接观察(而非推论)获得的一条信息。

H

Human-in-the-Loop(人机协同)人机协同(HITL)是人工智能的一个分支,它同时利用人类智能和机器智能来构建机器学习模型。在传统的“人机协同”方法中,人们会参与到一个良性循环,在其中训练、调整和测试特定算法。

Hyperparameter(HyperparameterTuning)(超参数/超参数优化)模型外部的一种配置,其值无法从数据中估算出来,数据科学家会在模型训练过程中不断对其进行调整。-手动确定训练特定模型最佳配置的过程。

I

ImageNet(ImageNet数据集)一个庞大的视觉数据集,由1400万个手工标注图像的URL组成,并以两万个不同类别进行组织,旨在用于视觉对象识别研究。

ImageRecognition(图像识别)计算机视觉中用于确定图像是否包含某些特定对象、特征或活动的问题。

Inference(推理)通过将经训练的模型运用到新的未标记实例来进行预测的过程。

InformationRetrieval(信息检索)计算机科学的一个领域,旨在研究在文档中搜索信息、搜索文档本身、搜索描述数据的元数据以及搜索文本、图像或声音数据库的过程。

L

Layer(HiddenLayer)(层/隐藏层)人工神经网络中的一系列神经元,旨在处理一组输入特征,或者从广义上来说,处理这些神经元的输出。

隐藏层:神经元的一层,其输出连接到其他神经元的输入,因此不能作为网络输出直接实现可视化。

Learning-to-Learn(元学习)机器学习领域的一个新方向,主要是研究算法如何通过分析自己的学习过程并对其加以改进来改变其归纳方式。

Learning-to-Rank(排序学习)运用机器学习构建信息检索系统的排名模型。

LearningRate(学习率)梯度下降算法在人工神经网络训练阶段的每次迭代中所用的标量值,与梯度相乘得出结果。

LogitFunction(Logit函数)在数学中(尤其是在统计学中)使用的S型“逻辑”函数的逆函数。

LongShort-TermMemoryNetworks(长短期记忆网络)递归神经网络的一种变体,可用作梯度消失问题的一种解决方案。

M

MachineLearning(机器学习)人工智能的一个子领域,通常使用统计技术来赋予计算机“学习”能力,即借助数据来逐步提高特定任务的性能,而无需进行显式编程。

MachineLearningLifecycleManagement(机器学习生命周期管理)机器学习系统的DevOps。

MachineTranslation(机器翻译)计算语言学的一个子领域,主要是研究如何使用软件将文本或语音从一种语言翻译成另一种语言。

Model(模型)模型是机器学习系统通过训练过程从训练数据中所学到内容的抽象表示。

MonteCarlo(蒙特卡洛方法)一种使用重复随机采样生成合成模拟数据的近似方法。

Multi-ModalLearning(多模式学习)机器学习的一个子领域,旨在将多模式信号合并到一起进行解释,并构建模型来处理和关联来自多种数据类型的信息。

Multi-TaskLearning(多任务学习)机器学习的一个子领域,同时利用多个任务之间的异同来解决多个任务。

N

NaiveBayes(朴素贝叶斯)基于贝叶斯定理并在特征之间具有很强的独立性假设的一系列简单概率分类器。

NamedEntityRecognition(命名实体识别)信息提取的一个子任务,旨在将文本中的命名实体识别和分类为预定类别,例如名称、位置、词性等。

NaturalLanguageProcessing(NLP)(自然语言处理)人工智能领域之一,主要是研究计算机语言与人类语言之间的交互,尤其是如何处理和分析大量自然语言数据。

NeuralNetworks(神经网络)参见人工神经网络。

Neuron(神经元)人工神经网络中的一个单元,用以处理多个输入值,以生成单个输出值。

Node(节点)参见神经元。

O

OpticalCharacterRecognition(光学字符识别)将打印、手写或键入文本的图像转换为机器友好的文本格式。

Optimization(优化)从可用替代方案中(基于某些标准)选择最佳方案。

Overfitting(过度拟合)模型在不知情的情况下识别出噪声中的模式并假设这些模式代表了底层结构;模型的生成结果与特定数据集过于接近,因此无法很好地归纳到不可见的观察结果。

P

PatternRecognition(模式识别)机器学习的领域之一,主要专注于数据模式的(监督或无监督)识别。

Pooling(MaxPooling)(轮询/最大轮询)将卷积层生成的矩阵缩减为较小矩阵的过程。

PersonallyIdentifiableInformation(个人可识别信息)可以单独使用或与某些其他信息结合使用,以识别特定个人的任何信息。

Precision(准确率)正确的阳性结果数除以分类器返回的所有样阳性结果数。

Prediction(预测)带有输入实例的训练模型的推断输出。

Preprocessing(预处理)将原始数据转换为更易理解格式的过程。

Pre-trainedModel(预训练模型)通常已使用另一个数据集进行了初步训练的模型或模型的组成部分。另请参见:转移学习。

PrincipalComponentAnalysis(主组件分析)使用正交变换将一组可能相关变量的观测值转换为一组线性不相关变量(称为主组件)的过程。

Prior(先前技术)在考虑新证据之前,代表特定数量的先前存在信念的概率分布。

R

RandomForest(随机森林)一种集成学习方法,其工作原理是在训练时构造大量决策树并输出每个单独树的结果的组合版本(例如均值或众数)。

Recall(召回率)所有相关样本中被正确分类为阳性的样本数所占百分比。

RectifiedLinearUnit(整流线性单元)使用整流函数作为激活函数的单元。

RecurrentNeuralNetworks(递归神经网络)人工神经网络的类别之一,其中神经元之间的连接沿着序列形成有向图,使其表现出时序动态时间行为并使用其内部状态(内存)来处理顺序信号。

Regression(LinearRegression,LogisticRegression)(回归-线性回归、逻辑回归)一组用于估计变量间关系的统计过程。

线性回归:一种简单的回归类型,以特征的线性组合作为输入,并输出连续值。

逻辑回归:一种回归类型,通过将S型函数运用到线性预测对分类问题中每个可能的离散标签值生成概率。

Regressor(回归器)一种特征,即用作模型输入的解释性变量。

Regularization(正则化)引入额外信息以防过度拟合的过程。

ReinforcementLearning(强化学习)机器学习的子领域之一,主要是受人类行为的启发,研究代理应如何在给定的环境中采取行动,以实现累积奖励概念的最大化。

Reproducibility(crisisof)(可再现性危机)科学领域的一种方法论危机,即学者们发现:许多科学研究的结果很难或不可能在独立研究人员或最初研究人员自己的后续研究中复制或再现。

RestrictedBoltzmannMachines(受限玻尔兹曼机)受限玻尔兹曼机(RBM)是一种生成型随机人工神经网络,可以学习其输入集上的概率分布。

S

Semi-SupervisedLearning(半监督学习)监督学习技术的一个类别,它还可以利用可用的未标记数据进行训练,通常结合使用少量的已标记实例与大量的未标记行。另请参见监督学习和无监督学习。

情绪分析(SentimentAnalysis)使用自然语言处理、文本分析、计算语言学和生物特征识别等功能系统地识别、提取、量化和研究受影响的状态和主观信息。

SpeechRecognition(语音识别)参见自动语音识别。

StatisticalDistribution(统计分布)在统计学中,经验分布函数是指与样本的经验指标相关的分布函数。该累积分布函数是一个阶跃函数,在n个数据点中的每个数据点上都跳了1/n次。它在测量变量的任何指定值处的值都是小于或等于对应指定值的测量变量观察值的分数。

SupervisedLearning(监督学习)一种机器学习任务,主要是指基于示例输入/输出对学习将输入映射到输出的函数。

SupportVectorMachines(SVM)(支持向量机)由一个单独的超平面正式定义的一种判别分类器类别,对于每个提供的带标记训练数据点,算法都会输出一个对新示例进行分类的最佳超平面。

SyntheticData(合成数据)当无法收集足够的实际数据或原始数据不满足特定要求时人工生成的数据。

T

TensorFlow(TensorFlow代码库)一种开源代码库,在机器学习社区中非常流行,用于跨一系列任务的数据流编程。它是一个符号数学库,还可用于神经网络等机器学习应用。

TimeSeries(TimeSeriesData)(时序/时序数据)在特定时间记录并根据它们的出现顺序进行索引处理的一系列数据点。

Testing(TestingData)(测试/测试数据)测试是指在监督机器学习情境中,使用保留数据评估模型最终性能的过程。

测试数据:数据科学家针对模型开发的测试阶段而选择的可用数据的子集。

TopicModeling(主题建模)无监督机器学习算法的一种类别,它使用聚类功能在文本数据中查找隐藏的结构并作为一个主题对其进行解释。

TrainingData(训练数据)在监督机器学习情境中,构建可从数据中学习并根据数据进行预测的算法。

训练数据:数据科学家针对模型开发的训练阶段而选择的可用数据的子集。

TransferLearning(转移学习)机器学习的一个领域,其重点在于使用获得的知识来解决特定问题,并将此类知识运用到其他相关问题。

TuringTest(图灵测试)由艾伦·图灵开发的一种测试,用于评估机器表现出与人类相同的智能行为的能力。该测试包括人机聊天。如果在测试房间之外见证对话的评估人员不能可靠地区分人类与受测机器,则可以认定该机器已经通过了图灵测试。

TypeIError(I类误差)参见误报。

TypeIIError(II类误差)参见漏报。

U

Uncertainty(不确定性)可能包含真实值的一系列值。

Underfitting(拟合不足)机器学习算法无法正确捕获数据的底层结构,通常是因为模型不够高级或不适用于当前任务;与过度拟合的涵义相反。

UnsupervisedLearning(无监督学习)机器学习的领域之一,包括对用于描述未标记数据结构的函数进行推断。

V

Validation(验证)使用保留数据评估训练模型性能的过程;与模型性能最终评估的测试阶段相反,验证阶段旨在确定是否需要对模型进行任何迭代修改。

Vanishing/ExplodingGradients(消失/爆炸梯度)数据科学家在采用基于梯度的学习方法和反向传播对人工神经网络进行训练时,由于神经网络中接收与误差函数偏导数成比例的更新的权重(考虑到每个训练迭代中的当前权重)而面临的可怕困难和主要障碍。

Variance(方差)由于对训练集中小波动的敏感性而引起的误差,该误差按照针对随机变量与其平均值的平方偏差的期望值进行计算。

本文如有任何遗漏/修正,欢迎留言与我们联系,我们将及时进行更新和调整。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇