数据科学50人:大数据与人工智能的再认知,照亮我们的未知与未来
2019年12月20日,“数据科学50人”在第一财经数据盛典上正式发布。历经2年,横跨东西方,对话了50位顶尖数据科学从业者,2000次提问的对话与100万字的记录,终于荟集成数据科学50人系列专访。
1初心
这些年,作为数据科学的技术体现,大数据、人工智能等名词在互联网上掀起波澜。智能摄像头识别到逃犯,配合警察执行逮捕,维护了社会法制与安全;新闻客户端推出个性化推荐功能,让我们阅读到心仪的内容,也改变了新媒体传播与表达。另外,大数据帮助零售店铺选址,人工智能帮助财务和法务工作者查阅、整理各种合同与文书,商业效能大幅提升。
当然有好事儿,也有坏消息。有人说,中国用户愿意用数据隐私换取移动互联网的便利,但这些数据隐私却被不良企业滥用;有人打着经济学的价格歧视理论的旗号,却利用大数据“杀熟”,让不完美的定价模型,跑出了完美的歧视性价格。
生活中,我们享受过大数据与人工智能带来的优惠与便利,也在浑然不知中被它摆过几道,事后觉察却略感无奈。所以,数据科学的新技术的演进为人类带来了什么,又失去了什么?透过大数据与人工智能的表象,我们看见了背后的一帮数据科学从业者。《哈佛商业周刊》早在2011年刊登专栏文章,告诉世界21世纪最性感的职业就是数据科学家。
所以,为了探究数据科学的意义与价值,知晓数据科学家的“魔力”,并通过数据科学洞见未知与未来,我们开始了一段从数据科学从业者那里找寻答案的长途旅行。
(图片说明:2012年DJ·Patil在《哈佛商业评论》上发表文章“DataScientist:TheSexiestJobofthe21stCentury”图片来源:HarvardBusinessReview)
事实上,我们很早就开始汇聚这个DT时代的数据极客。我们通过与SODA(ShanghaiOpenDataApplication,上海开放数据创新应用大赛)合作,结盟全球近千位数据极客,但这还不够,我们还要找到他们中最尖端的那些人。
于是在2018年,我们开始寻找代表中国最顶尖数据科学从业者——数据科50人。透过这些数据科学从业者的经历与洞见,为大家寻觅人工智能与大数据的得与失,过去与未来。
2年时间,贯穿中国与全球,我们走访了50位数据科学领域的顶尖从业者,写了他们的故事,也写了属于数据科学的故事。
2洞见
“数据科学是什么?WhyDataScienceMatters?”这是每一次数据科学50人专访时,我们通常会抛出的第一个问题。
第四范式首席研究科学家陈雨强说:“从科学的第一范式的实验科学和第二范式的理论科学,到第三范式理论解释不了,只能用计算机模拟,再到第四范式,有了发现科学的新方法——大数据,因为科学规律孕育在数据之中,所以把其中隐藏的那些规律挖掘出来的技术,都可以被认知为数据科学。”
数据科学也存在于纵横交错的各个领域中。悉尼大学教授、优必选首席科学家、澳大利亚科学院院士陶大程告诉我们:“数据科学是一门利用数据学习知识,并从数据中提取有价值的信息,以分析现实现象、挖掘本质和关系的学科。数据科学是一个对数据理解和分析的交叉学科,除了需要统计学、数据挖掘、机器学习等数据分析、理解和挖掘的学科,还涉及其他学科,包括物理、材料、化学、生物、医学等等。”
当然数据科学并不玄虚,如原阿里云首席智能科学家闵万里(现北高峰资本创始人兼CEO)所言:“做数据科学,首先要梳理行业的商业逻辑,这就需要用物理的思维,去抽象定位这个业务的本质是什么;抓住本质后你要有数学工具去量化它,处理庞大的数据问题,建模等。知其然,然后知其所以然。所谓数据科学的本质,只有放到‘上下文’中,才能发挥正确的价值。”
而对数据科学总结最为精辟的是平安集团首席科学家肖京和原蓝色光标首席数据科学家王炼(现汇丰银行高级副总裁,全球零售分析主管)。肖京说,数据科学是一门综合性学科,既有科学问题也有工程问题。王炼则认为,数据科学是科学和艺术的结合。
(图片说明:与王炼的专访对话)
那么,数据科学家又是一群什么样的人呢?
在美国培养了2000多位数据学科家的纽约数据科学院创始人张尚轩眼中,数据科学家曾被定义为“StatisticianwhousespythonandlivesinSanFrancisco(用Python且住在旧金山的统计学家),但她最新的定义是:数据科学家是一个“可以预测未来的水晶球”。
2015年,白宫任命了美国历史上第一任首席数据科学家——DJ·Patil,而就是他在2011年的《哈佛商业评论》上呐喊出:“数据科学家是21世纪最性感的工作”。在美国这个数据科学发源地,张溪梦打造与领导了硅谷现象级产品领英(Linkedin)的数据科学团队,成为国际最具认知度的华人数据科学家。回国创办数据增长企业GrowingIO的张溪梦告诉我们:“硅谷有三类数据科学家,前两种分别是决策科学与产品科学,一个偏向于通过数据分析与可视化辅助决策,另一个偏重算法,最终出来的是数据化的产品;第三类就是传统统计学家与计量学家。”
当然数据科学家在这些年做的也不止于数据。紧随2015年大数据升级国家战略的步伐,人工智能在2017年跃升国家战略,人工智能再次点燃“大众创业、万众创新”的热情。
作为原英特尔中国研究院院长的吴甘沙,这些年一直致力于自动驾驶技术的创新与创业,现在身为驭势科技CEO的吴甘沙说:“不可否认,是大数据带动了这一波人工智能的发展。”
人工智能在当下的最为直接的体现就是机器学习,如果把它比作赛车的话,作为燃料的大数据,作为强劲马力赛车的计算能力(泛指计算芯片)与作为丰富驾驶策略的车手的算法模型,一个都不能少。“大数据技术和人工智能逐渐成为普惠科技是技术发展的必然趋势。”英特尔高级首席工程师、大数据技术全球CTO戴金权如此评论道。
AI的未来不止于此。原SAP硅谷创新中心首席科学家邬学宁(现e成网络科技首席数据官)说:“人工智能就像一座漂浮的冰山,人们能看到的机器学习等技术是冰山露出的一小部分,可能只占10%,潜藏在海平面以下的90%其实是数学,包括概率、统计、线性代数和图论等等。而数学和统计学才是人工智能领域的核心竞争力。”
当然,也有人从不同的角度看待数据科学对于人工智能的关系。微众银行人工智能团队副总经理吴海山曾对我们直言不讳:“我个人认为数据科学目前带给我们的其实不是ArtificialIntelligence(人工智能),而是AugmentedIntelligence(增强智能),是系统科学与人类认知结合起来的东西。”
当然,AI也会带来人与机器共存的问题。思必驰联合创始人、首席科学家俞凯的一贯观点是人机共融、共存、共进化。他说:“未来比较理想的状态是,人类和机器各自拥有一个世界,但两个世界能通过智能技术,相互沟通、彼此帮助。”
2014年带领团队推出微软AI情感机器人小冰的李笛(微软(亚洲)互联网工程院副院长)说:“图灵测试不是证明机器比人聪明,或者比人笨,而是说‘不要比人聪明’。智慧与否很难下定义,如果人们总是带着审视的眼光去看它,就会对它产生抵触情绪。”李笛希望,人类能够接纳AI,不再因为他是机器人的身份而产生排斥。
(图片说明:与李笛的专访对话)
就是这样的,我一问,他一答。在历经2年,提问2000次,走访了50位数据科学领域的顶尖从业者后,“数据科学50人”终成行。
3感谢
如果把这次系列专访当作一场长途旅行,也许它很慢,也许在每次停歇的时候,有分离,有相聚,但直到最后,带给你无穷回味的不是终点线的美景,而是对整个旅行的每个瞬间的记忆。
感谢接受数据科学50人项目专访的每一位数据科学从业者。他们是数据科学领域的典范。他们中有人作为先锋数据科学家,在商业实践与学术研究中领航;也有创业者,希望让技术落地到场景中,赋能商业;更有培养下一代数据科学从业者的育人之人。他们心声的吐露让我们了解了数据科学,更明白数据科学家是一群什么样的人,启发了读者对数据科学的思考或起航,体会了数据科学对于人和社会的价值。
感谢参与数据科学50人项目的每一位同学,感谢你们努力地奉上了50篇对中国顶尖数据科学人的专访文章,让更多人通过你们有温度的文字感受到了数据科学的能量。
虽然是这次50位数据科学顶尖从业者系列专访的收官,但对于科学的第四范式——数据科学而言,我们所有人都还在路上。
关于数据科学50人
“数据科学50人”项目是由第一财经旗下DT财经发起的中国顶尖数据科学从业者的系列专访,从数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布。
(吴昊)
【责任编辑:钟经文】人工智能导论——人工智能的主要学派及主张
目前对人工智能研究影响较大的的学派主要有符号主义、联结主义和行为主义这三大学派。
(1)符号主义(symbolicism),又称为逻辑主义(logicism)、心理学派(psychologism)或计算机学派(computerism),其原理主要为物理符号系统(即符号操作系统)假设和有限合理性原理。
主张:该学派认为人工智能源于数理逻辑。数理逻辑从19世纪末起得以迅速发展,到20世纪30年代开始用于描述智能行为。计算机出现后,又再计算机上实现了逻辑演绎系统。其有代表性的成果为启发式程序LT逻辑理论家,证明了38条数学定理,表了可以应用计算机研究人的思维多成,模拟人类智能活动。该学派认为人类认知和思维的基本单元是符号,而认知过程就是在符号表示上的一种运算。符号主义致力于用计算机的符号操作来模拟人的认知过程其,实质就是模拟人的左脑抽象逻辑思维,通过研究人类认知系统的功能机理,用某种符号来描述人类的认知过程,并把这种符号输入到能处理符号的计算机中,从而模拟人类的认知过程,实现人工智能。
(2)联结主义(connectionism),又称为仿生学派(bionicsism)或生理学派(physiologism),其主要原理为神经网络及神经网络间的连接机制与学习算法。
主张:其原理主要为神经网络和神经网络间的连接机制和学习算法。这一学派认为人工智能源于仿生学,特别是人脑模型的研究。联结主义学派从神经生理学和认知科学的研究成果出发,把人的智能归结为人脑的高层活动的结果,强调智能活动是由大量简单的单元通过复杂的相互连接后并行运行的结果。其中人工神经网络就是其典型代表性技术。 它的代表性成果是1943年由生理学家麦卡洛克(McCulloch)和数理逻辑学家皮茨(Pitts)创立的脑模型,即MP模型,开创了用电子装置模仿人脑结构和功能的新途径。它从神经元开始进而研究神经网络模型和脑模型,开辟了人工智能的又一发展道路。
(3)行为主义(actionism),又称为进化主义(evolutionism)或控制论学派(cyberneticsism),其原理为控制论及感知-动作型控制系统。
主张:认为人工智能源于控制论。控制论思想早在20世纪40~50年代就成为时代思潮的重要部分,影响了早期的人工智能工作者。维纳(Wiener)和麦克洛克(McCulloch)等人提出的控制论和自组织系统以及钱学森等人提出的工程控制论和生物控制论,影响了许多领域。控制论把神经系统的工作原理与信息理论、控制理论、逻辑以及计算机联系起来。早期的研究工作重点是模拟人在控制过程中的智能行为和作用,如对自寻优、自适应、自镇定、自组织和自学习等控制论系统的研究,并进行“控制论动物”的研制。到20世纪60~70年代,上述这些控制论系统的研究取得一定进展,播下智能控制和智能机器人的种子,并在20世纪80年代诞生了智能控制和智能机器人系统。行为主义是20世纪末才以人工智能新学派的面孔出现的,引起许多人的兴趣。这一学派的代表作者首推布鲁克斯(Brooks)的六足行走机器人,它被看作是新一代的“控制论动物”,是一个基于感知-动作模式模拟昆虫行为的控制系统。
就人工智能三大学派的历史发展来看,符号主义认为认知过程在本体上就是一种符号处理过程,人类思维过程总可以用某种符号来进行描述,其研究是以静态、顺序、串行的数字计算模型来处理智能,寻求知识的符号表征和计算,它的特点是自上而下。而联结主义则是模拟发生在人类神经系统中的认知过程,提供一种完全不同于符号处理模型的认知神经研究范式。主张认知是相互连接的神经元的相互作用。行为主义与前两者均不相同。认为智能是系统与环境的交互行为,是对外界复杂环境的一种适应。
内容主要来自于《人工智能及其应用》
人工智能学习总结(1)——人工智能的三个分支:认知、机器学习、深度学习
人工智能进入了一切领域——从自动驾驶汽车,到自动回复电子邮件,再到智能家居。你似乎可以获得任何商品(例如医疗健康,飞行,旅行等),并通过人工智能的特殊应用使其更加智能。所以除非你相信事件具有终结者般的转折,你可能会问自己,人工智能能够预示着工作场所或整体的业务线的什么利益。
人工智能主要有三个分支:
◆ ◆◆
1)认知AI(cognitiveAI)
认知计算是最受欢迎的一个人工智能分支,负责所有感觉“像人一样”的交互。认知AI必须能够轻松处理复杂性和二义性,同时还持续不断地在数据挖掘、NLP(自然语言处理)和智能自动化的经验中学习。
现在人们越来越倾向于认为认知AI混合了人工智能做出的最好决策和人类工作者们的决定,用以监督更棘手或不确定的事件。这可以帮助扩大人工智能的适用性,并生成更快、更可靠的答案。
◆◆◆
2)机器学习AI(MachineLearningAI)
机器学习(ML)AI是能在高速公路上自动驾驶你的特斯拉的那种人工智能。它还处于计算机科学的前沿,但将来有望对日常工作场所产生极大的影响。机器学习是要在大数据中寻找一些“模式”,然后在没有过多的人为解释的情况下,用这些模式来预测结果,而这些模式在普通的统计分析中是看不到的。
然而机器学习需要三个关键因素才能有效:
a)数据,大量的数据
为了教给人工智能新的技巧,需要将大量的数据输入给模型,用以实现可靠的输出评分。例如特斯拉已经向其汽车部署了自动转向特征,同时发送它所收集的所有数据、驾驶员的干预措施、成功逃避、错误警报等到总部,从而在错误中学习并逐步锐化感官。一个产生大量输入的好方法是通过传感器:无论你的硬件是内置的,如雷达,相机,方向盘等(如果它是一辆汽车的话),还是你倾向于物联网(InternetofThings)。蓝牙信标、健康跟踪器、智能家居传感器、公共数据库等只是越来越多的通过互联网连接的传感器中的一小部分,这些传感器可以生成大量数据(多到让任何正常的人来处理都太多)。
b)发现
为了理解数据和克服噪声,机器学习使用的算法可以对混乱的数据进行排序、切片并转换成可理解的见解。(如果你想吓跑你的同事,请先听听常用的不同排序算法)
从数据中学习的算法有两种,无监督算法和有监督算法。
无监督算法只处理数字和原始数据,因此没有建立起可描述性标签和因变量。该算法的目的是找到一个人们没想到会有的内在结构。这对于深入了解市场细分,相关性,离群值等非常有用。
另一方面,有监督算法通过标签和变量知道不同数据集之间的关系,使用这些关系来预测未来的数据。这可能在气候变化模型、预测分析、内容推荐等方面都能派上用场。
c)部署
机器学习需要从计算机科学实验室进入到软件当中。越来越多像CRM、Marketing、ERP等的供应商,正在提高嵌入式机器学习或与提供它的服务紧密结合的能力。
◆◆◆
3)深度学习(DeepLearning)
如果机器学习是前沿的,那么深度学习则是尖端的。这是一种你会把它送去参加智力问答的AI。它将大数据和无监督算法的分析相结合。它的应用通常围绕着庞大的未标记数据集,这些数据集需要结构化成互联的群集。深度学习的这种灵感完全来自于我们大脑中的神经网络,因此可恰当地称其为人工神经网络。
深度学习是许多现代语音和图像识别方法的基础,并且与以往提供的非学习方法相比,随着时间的推移具有更高的准确度。
希望在未来,深度学习AI可以自主回答客户的咨询,并通过聊天或电子邮件完成订单。或者它们可以基于其巨大的数据池在建议新产品和规格上帮助营销。或者也许有一天他们可以成为工作场所里的全方位助理,完全模糊机器人和人类之间的界限。
人工智能通过在其上使用的数据规模来生存和改进,这意味着不但我们能够随着时间的推移看到更好的人工智能,而且它们的发展将会围绕着那些可以挖掘最大数据集的组织。