博舍

衡量人工智能的现实标准 衡量人工智能发展的指标有哪些方面的内容

衡量人工智能的现实标准

(人工智能系统状态)

通用人工智能系统的核心能力就是通过运用算法、计算体系,把知识从数据里提取出来。一旦有了知识,我们就可以做很多事情。我们可以预测,可以解决自动化问题,可以解决任何需要解决的问题。因为知识告诉我们人有什么需求,社会有什么要求,有了知识我们就可以找到答案。所以,人工智能发展的第一个层次就是通用人工智能。

最近几年深度学习的突破主要是在感知层面,特别是视觉和语音识别,还有自然语言的理解。但这只是起步,接下来要做的是认知上的,因为感知只是把外部世界通过光感、声音的振动,或者语言的交流,变成可以被系统识别的符号。最重要的还是理解它的意义是什么。系统看到一幅图片,可以知道有什么样的物体或人在里面,他们在做什么事情。

目前几乎所有能见到的做人工智能的公司可以分别放在四个象限里面。大部分公司做的其实是“狭义AI”。“狭义AI”只解决一个问题,或者解决一个到两个比较窄的问题,下围棋、打牌或者开汽车都是“狭义AI”。与之相对应,“广义AI”用同样一个系统,可以解决所有的问题,那就与人的智能类似了。“广义AI”是人工智能发展的长期目标,其真正实现至少还需要二三十年的时间。

现在,百度、谷歌、微软、脸书等公司都在朝着“广义AI”的方向努力。判断人工智能的能力,或者判别是否真正是人工智能的标准仍然是,人类是否因此知道更多,做到更多,体验更多。比如,百度基于海量的搜索数据做的很多技术分析,以前靠人去做几乎不可能,而现在通过人工智能计算技术,我们得出了许许多多前所未有的知识和结论,人类因此而知道更多,也能因此去做很多前所未有的判断,去实现更多不可能的功业。如具有代表性的无人驾驶技术、自然语言交互技术,使得人类的运动方式、感官方式都在逐渐发生变化。以前人类用眼睛来看、用耳朵来听,以后我们可能不需要眼睛也可以看到,不需要耳朵也能听到,人类将逐步拥有新的感知方式,也将体验崭新的世界。

因此,一切做人工智能的公司是否名副其实,都可以从以上角度来衡量:它属于四个象限中的哪一块?有没有实力让人类和机器一起知道更多,做到更多,体验更多?

美国和中国都有很多公司说自己是人工智能公司。有的公司说云计算是人工智能,有的说大数据是人工智能,但这些都只是人工智能系统的一部分,最终判断人工智能实力的是大数据、云计算、算法、训练时间及其总投入以及软硬件综合实力等。

这种实力不是一蹴而就的,也无法一概而论。地上本没有路,在披荆斩棘的道路上有不同的角色,也有不同的站点,每个人、每个企业达到的程度都不一样。有人刚起步,有人身后已经留下大片果实。

百度大脑可以看作人工智能综合实力的一个典型,对它的能力分解,能使我们更明晰人工智能行业的入门门槛及基本标准。如果一家号称人工智能的公司以下能力皆不具备,那只能说这家公司还没准备好真正进入这个领域。

百度大脑是硬件基础、数据基础和算法能力的紧密结合,是云计算、大数据和人工智能的三位一体,是百度技术战略的核心。云计算是基础设施、大数据是燃料、人工智能是发动机,联合驱动着“互联网的物理化”,将数字世界的互联网技术和商业模式又送回到物理世界,全面改变社会。

云计算,名字在云端,却是百度大脑最底层、最实体的部分,是IaaS(InfrastructureasaService,基础设施服务)。

百度大脑的超强计算能力就来源于这一层,是高性能计算硬件的集团军。这个集团军拥有数十万台服务器,并且采用先进的集群操作系统来统一管理,堪称人工智能超级计算机。

为了深度学习训练的需要,百度自主研发了GPU和FPGA(现场可编程门陈列)异构计算服务器,单机可扩展至64块GPU/FPGA卡,对比传统服

务器密度提升16倍,一台服务器即可完成千亿数据模型训练;百度开创性地研制了基于FPGA的人工智能处理器,提供10Tops的计算性能,相对主流的20核服务器,计算效率提升60倍,在人工智能和大数据应用上,可以达到普通服务器4~8倍的性能。

但百度的优势不只是单台机器的优秀,更在于优良的系统,优秀个体的集成形成强大的总体作战能力。针对GPU集群的智能调度和资源管理系统,可以实现计算、存储和网络资源的池化管理和动态调度,计算集群整体效率和平均使用率达到80%。将异构硬件用于线上产品,用户请求时延降至1/5,计算效率提升数十倍。

这个系统涵盖了国内最大的GPU/FPGA集群(全新的芯片技术),最大的HADOOP/SPARK集群(全新的并发数据处理技术)和运营效率最高的数据中心[全新的异构计算技术、整机柜服务器技术、100GRDMA(远程直接数据存取)通信技术和运维技术],可谓马力十足,提供了开发人工智能所需的计算能力。

它同样燃料充足。基于多年服务于大规模业务,比如通过搜索和视频技术,百度积累了大量的数据:万亿级网页数据,数十亿次搜索数据,百亿级视频、图像和语音数据,百亿级定位数据等。数据就是人工智能算法的燃料,是发展人工智能的又一基础条件。

让硬件与燃料结合的是优秀的算法和模型。百度汇聚了全球顶级科学家和工程师,在理论和实践方面持续创新,搭建了全球最大的深度神经网络,支持万亿级参数、千亿级样本、千亿级特征训练,神经网络层数远远突破100层。

硬件动力、数据燃料和算法灵魂的结合,才产生出百度的PaaS(PlatformasaService,平台服务)。百度PaaS与众不同之处在于,人工智能作为一种横向的服务贯穿全平台。通过深度学习和机器学习技术,结合超强计算、海量数据和优秀算法,在语音、图像、自然语言处理等方面拥有杰出的能力,打造出独特的知识图谱、用户画像和商业逻辑,并且向用户全面开放。用户可以非常方便地使用各种算法模块、开发工具、数据引擎为自身的商业目的服务。我们形象地把不同的平台称作天算、天像和天工,分别针对智能大数据、智能多媒体和智能物联网这三个领域提供服务。

在最上层的SaaS(SoftwareasaService,软件服务),百度的人工智能很容易凝结成许多垂直行业解决方案,渗透到各行各业。但我们更追求与合作伙伴一起打造智能产业生态,例如教育云、金融云、交通云、物流云等。我们认为,对智能产业生态的构建能力也是判定人工智能价值的重要标准。

在硬件、数据、算法之上还有一个重要的衡量标准,那就是人工智能企业的文化,即人工智能企业的“软实力”。搜索技术是人工智能的先驱,也是最早的互联网数字化世界的门户,其开发流程和技术核心为未来的人工智能奠定了基础。首先,搜索引擎必须与很大规模的数据打交道;其次,搜索引擎必须同时有大规模的机器学习,人工来做是不可能的事,因为数据规模太大了;最后,也是最根本的一点,搜索引擎的开发流程和工程开发文化与人工智能系统的开发是非常吻合的,都以数据为主,通过抽取其中的特征、模式,然后用这个模式给用户带来价值。人们在搜索业务中结成的协作关系,形成的业务能力和工作习惯,都很适合人工智能业务发展,与海量数据一样,积淀为人工智能企业的文化。所以陆奇在微软的做法是,培养人才先从Bing开始。你做过Bing,你到其他什么部门都可以做,那些技术在搜索看来都是很简单的技术。这个文化当然并不完美,但正如神经网络一样,可以在正确的方法指引下不断发展完善。

2018年8月24日,亿欧将在北京举办“科技落地物链未来——GIIS2018物流产业创新峰会”,就传统物流企业、制造企业、物流科技应用场景及实操、物流科技新畅想等议题,携行业人士一同探讨新机遇下物流科技如何更好落地及发展走向。

本文来自玩物科技,创业家系授权发布,略经编辑修改,版权归作者所有,内容仅代表作者独立观点。[下载创业家APP,读懂中国最赚钱的7000种生意]返回搜狐,查看更多

可以采用哪些KPI来衡量人工智能项目的成功

调研机构IDC公司在2020年6月发布的一项研究报告表明,大约28%的人工智能计划遭遇失败。报告给出的理由是缺乏专业知识、缺乏相关数据以及缺乏足够集成的开发环境。为了建立一个持续改进机器学习的过程并避免陷入困境,确定关键绩效指标(KPI)现在是当务之急。

而在行业上游,可以由数据科学家来定义模型的技术性能指标。它们将根据所使用的算法类型而有所不同。在旨在预测某人的身高作为其年龄函数的回归的情况下,例如,可以求助于线性确定系数。

可以采用一个衡量预测质量的方程:如果相关系数的平方为零,回归线确定0%的点分布。反之,如果该系数为100%,则该数字等于1。因此,这表明预测的质量非常好。

预测与现实的偏差评估回归的另一个指标是最小二乘法,它指的是损失函数。它包括通过计算实际值与预测线之间偏差的平方和来量化误差,然后通过最小化平方误差来拟合模型。在相同的逻辑中,可以利用平均绝对误差方法,该方法包括计算偏差的基本值的平均值。

法国咨询机构凯捷公司负责战略、数据和人工智能服务的CharlottePierron-Perlès总结说:“无论如何,这相当于衡量与我们试图预测的差距。”

例如,在用于垃圾邮件检测的分类算法中,有必要查找误报和漏报的垃圾邮件。PierronPerlès解释说:“例如,我们为一家化妆品集团开发了一种机器学习解决方案,可以优化生产线的效率。目的是在生产线开始时识别可能导致生产中断的有缺陷的化妆品。我们在与工厂经营者讨论之后与他们一起寻求一个模型来完成检测,即使这意味着检测到误报,也就是说,合格的化妆品可能被误认为是有缺陷的。”

基于误报和漏报的概念,其他三个指标允许评估分类模型:

(1)召回率(R)是指模型敏感度的测量值。它是正确识别的真实阳性(以新冠病毒检测呈阳性为例)与所有应检测的真实阳性(冠状病毒检测呈阳性+冠状病毒检测呈阴性实际是阳性)的比例:R=真阳性/真阳性+假阴性。

(2)精度(P)是指准确度的度量。它是正确的真阳性(新冠病毒检测呈阳性)与所有确定为阳性的结果(新冠病毒检测呈阳性+新冠病毒检测呈阴性)的比例:P=真阳性/真阳性+假阳性。

(3)调和平均值(F-score)衡量模型给出正确预测和拒绝其他预测的能力:F=2×精度×召回率/精度+召回率

模型的推广法国ESNKeyrus公司首席高级数据科学家DavidTsangHinSun强调说:“一旦构建成模型,其泛化能力将成为关键指标。”

那么如何估计它?通过测量预测和预期结果之间的差异,然后了解这种差异随时间的演变。他解释说,“在一段时间之后,我们可能会遇到分歧。这可能是由于数据集在质量和数量方面的训练不足而导致的学习不足(或过度拟合)。”

那么其解决方案是什么?例如,在图像识别模型的情况下,可以使用对抗性生成网络通过旋转或扭曲来增加图片学习的数量。另一种技术(适用于分类算法):合成少数过采样,它包括通过过采样增加数据集中低发生率示例的数量。

在过度学习的情况下也会出现分歧。在这种配置中,模型在训练后将不会局限于预期的相关性,但是由于过于专业化,它会捕获现场数据产生的噪声并产生不一致的结果。DavidTsangHinSun指出,“然后有必要检查训练数据集的质量,并可能调整变量的权重。”

而经济的关键绩效指标(KPI)依然存在。法国咨询机构AIBuilders公司首席执行官StéphaneRoder认为:“我们必须扪心自问,错误率是否与业务挑战相符。例如,保险商Lemonade公司开发了一种机器学习模块,可以在客户提出索赔后3分钟内根据所传达的信息(包括照片)向客户赔付保险金。考虑到节省的费用,一定的错误率会产生成本。在模型的整个生命周期中,特别是与总体拥有成本(TCO)相比,从开发到维护,检查这一测量值是非常重要。”

采用水平即使在同一家公司内,预期的关键绩效指标(KPI)也可能有所不同。凯捷公司的CharlottePierronPerlès指出:“我们为一家具有国际地位的法国零售商开发了一个消费预测引擎。结果证明该模型的精确目标在百货商店销售的产品和新产品之间是不同的。后者的销售动态取决于因素,尤其是与市场反应相关的因素,从定义上来说,这些因素不太可控。”

最后一个关键绩效指标是采用水平。CharlottePierron-Perlès说:“即使一个模型质量很好,仅靠它自己是不够的。这需要开发具有面向用户体验的人工智能产品,既可用于业务,又可实现机器的承诺学习。”

StéphaneRoder总结说:“这个用户体验还将允许用户提供反馈,这将有助于在日常生产数据流之外提供人工智能知识。”​

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇