博舍

〖光明日报〗智能时代的三要素——数据、算法和算力 人工智能 数据 算法 算力

〖光明日报〗智能时代的三要素——数据、算法和算力

近几年,人工智能技术和应用飞速发展,在我们生活和工作中都得到大量的普及应用,归功于推动人工智能发展的三大要素:数据、算法和算力。

这三个要素缺一不可,相互促进、相互支撑,是智能技术创造价值和取得成功的必备条件。

数据

在人类发明史上,很多发明都是从模仿动物开始的,比如,模仿鸟类来实现人类的飞行梦想。历史上记载有各种关于模仿鸟类飞行的故事,当然,结果是可想而知的,肯定都以失败告终。我们把使用这种方法论的人统称为“飞鸟派”。

早期研究人工智能的基本上都是“飞鸟派”,因为他们认为计算机要获得智能必须模仿人的思维模式。比如说当时的语音识别研究,几乎所有的专家都把精力投入到教会计算机理解人类的语言上,研究也是进展缓慢。

上世纪70年代初,美国康奈尔大学贾里尼克教授在做语音识别研究时另辟蹊径,换了个角度思考问题:他将大量的数据输入计算机里,让计算机进行快速的匹配,通过大数据来提高语音识别率。于是复杂的智能问题转换成了简单的统计问题,处理统计数据正是计算机的强项。

从此,学术界开始意识到,让计算机获得智能的钥匙其实是大数据。

本文作者史爱武博士

数据对于人工智能,就如食材对于美味菜肴,人工智能的智能都蕴含在大数据中。因为人工智能的根基是训练,就如同人类如果要获取一定的技能,必须经过不断地训练才能获得,而且有“熟能生巧、巧能生仙”之说。

人工智能也是如此。只有经过大量的训练,才能总结出规律,应用到新的样本上。如果现实中出现了训练集中从未有过的场景,人工智能则会基本处于瞎猜状态,正确率可想而知。对于人工智能而言,大量的数据太重要了,而且需要覆盖各种可能的场景,这样才能得到一个表现得更智能的模型。

当前的时代,无时无刻不在产生大数据。人手一部的手机、无处不在的摄像头和传感器等设备都在产生和积累着数据,这些数据形式多样化,大部分都是非结构化数据。

这些大数据需要进行大量的预处理过程(特征化、标量化、向量化),处理后的数据才能为人工智能算法所用。

算法

传统的对象识别模式是由研究人员事先将对象抽象成一个模型,再用算法把模型表达出来并输入计算机。这种人工抽象的方法具有非常大的局限性,识别率也很低。

幸运的是,科学家从婴儿身上得到了启发。没有人教过婴儿怎么“看”,都是孩子自己从真实世界自学的。如果把孩子的眼睛当作是一台生物照相机的话,那这台相机平均每200毫秒就拍一张照——这是眼球转动一次的平均时间。到孩子3岁的时候,这台生物相机已经拍摄过上亿张真实世界照片。

这给科学家很好的启发:能不能给计算机看非常非常多猫的图片,让计算机自己抽象出猫的特征,自己去理解什么是猫。

这种方法被称为机器学习。谷歌就采用这种机器学习方法开发出了猫脸识别系统,而且准确度非常高。

机器学习除了在对象识别领域外,在其他领域也得到了广泛使用,并取得了令人刮目相看的诸多成果。在机器学习算法的推动下,搜索引擎、语音识别、自然语言处理、图像识别、推荐系统、专家系统和无人驾驶等领域取得了长足进步,机器智能水平有了极大的提升。

当前,机器学习算法是主流算法,是一类从数据分析中获得规律,并利用规律对未知数据进行预测的算法。机器学习算法主要分为传统的机器学习算法和神经网络算法,神经网络算法快速发展,其中最热门的分支当属深度学习,近年来深度学习的发展达到了高潮。

算法对于人工智能,就是厨师(烹饪的方法)与美味菜肴的关系。算法是实现人工智能的根本途径,是挖掘数据智能的有效方法。

算力

算力也就是计算能力,算力对于人工智能,如同厨房的煤气/电力/柴火对于美味佳肴一样。有了大数据和算法之后,需要进行训练,不断地训练,算力为人工智能提供了基本的计算能力的支撑,本质是一种基础设施的支撑。

AI中有一个术语叫Epoch,一个Epoch就是所有训练样本在神经网络中都进行一次正向传播和一次反向传播,再通俗一点,一个Epoch就是将所有训练样本训练一次的过程。

只把训练集从头到尾训练一遍神经网络是学不好的,而是要将完整的数据集在同样的神经网络中传递多次,把训练集翻过来、调过去训练多少轮。就像和小孩讲一个道理,一遍肯定学不会,必须一遍一遍反复地教,一遍就会那就是神童了。

有了大数据和先进的算法,还得有处理大数据和执行先进算法的计算能力。每个智能系统背后都有一套强大的硬件或者软件计算系统。

超级计算机是一个国家科技发展水平和综合国力的反映。没有超级计算机,天气预报不可能预报15天,中国的大飞机研制不可能进展如此之快。另外,核武器的爆炸模拟、地震预警、抗击新冠肺炎药物研发等领域也离不开超级计算机。

目前世界运算速度排第三位的超级计算机是中国的神威太湖之光,峰值性能达每秒12.5亿亿次,运算速度相当于普通家用电脑的200万倍,神威太湖之光一分钟的运算量需要全球72亿人用计算器不间断运算32年。

人工智能的发展对算力提出了更高的要求。除了训练,人工智能算法实际需要运行在硬件上,也需要推理,这些都需要算力的支撑。然而,能提供超强计算能力的超级计算机,价格也是超级昂贵,不是一般人都能使用得到的。

目前的人工智能算力主要是由专有的AI硬件芯片,以及提供超级计算能力的公有云计算服务来提供。其中GPU领先其他芯片,在人工智能领域中用得最广泛,GPU有更高的并行度、更高的单机计算峰值、更高的计算效率。

一般来说,GPU浮点计算的能力是CPU的10倍左右。另外,深度学习加速框架通过在GPU之上进行优化,再次提升了GPU的计算性能,有利于加速神经网络的计算。

云计算是计算能力的放大器。云计算是一种基于互联网的分布式超级计算模式。在远程的数据中心里,成千上万台服务器等计算设备连接起来组成一个云,协同计算。云中的单个计算机性能可能非常一般,甚至就是普通电脑,但是很多一般加在一起的计算能力却不容小觑。

将GPU和FPGA的计算能力部署在云端对外提供云服务意味着优势的进一步放大。云计算甚至可以让你体验每秒10万亿次的运算速度,计算能力堪比超级计算机。俗话说得好,三个臭皮匠顶个诸葛亮、聚沙成塔、集腋成裘。

当前,随着人工智能算法模型的复杂度和精度愈来愈高,互联网和物联网产生的数据呈几何倍数增长,在数据规模和算法模型的双层叠加下,人工智能对算力的需求越来越大。

毫无疑问,人工智能走向深度学习,计算力已成为评价人工智能研究成本的重要指标。可以说,计算力即是生产力。

从智能时代的三个要素来看,我们也可以进一步解析出云计算、大数据和人工智能之间的关系。为了简化和帮助理解,以炒菜这个应用场景为例来说明它们之间的关系:

大数据相当于炒菜需要的食材,也就是生产原料。云计算等算力就相当于炒菜需要的煤气/电力/柴火,人工智能算法就相当于烹饪的方法,算法和算力也就是产生动力的生产引擎。有了生产原料和生产引擎,就可以在不同的应用场景下生产出我们所需要的不同东西。

2006年Hinton教授等人提出了深度学习算法,实现了人工智能算法理论的创新突破;随着移动互联网的生活化普及,促进了AI发展的“大数据”产生;大数据和深度学习等算法的双剑合璧,再配合摩尔定律下的算力快速提升——大数据、算力、算法作为输入,从技术角度推动了人工智能的发展。只有在实际的场景中进行输出,才能体现出人工智能的实际价值。

人工智能的常见应用场景包括:自动驾驶、虚拟助理、金融服务、医疗和诊断、设计和艺术创作、合同诉讼等法律实务、社交陪伴、服务业和工业。应用场景的不同决定了人工智能的应用落地和效果。同样是物流分拣中心,规模不同、信息化基础不同、企业数据不同、人员素质不同,对人工智能的要求和所发挥的效益也自然不同了。

人工智能发展到如今还是一个被大数据喂养起来的小怪兽,而且在深度学习算法没有明显突破的情况下,人工智能实现自我学习能力看起来还遥遥无期。因此,AI对人类的替代性以及威胁,还远没有达到让人类担忧的地步,当前大家探讨最多的还是人工智能在各个领域的应用。

(作者:史爱武,中国电子学会云计算专家委员会委员,中国通信学会云计算专家委员会委员,教育部战略研究中心云计算首席科学家,武汉纺织大学云计算与大数据研究中心主任)

光明日报:https://app.gmdaily.cn/as/opened/n/acc1ec144df2463ca0d67adbf9cbf82f

智能算力规模已超通用算力

  国际数据公司IDC与浪潮信息日前联合发布的《2022—2023中国人工智能计算力发展评估报告》(以下简称《报告》)指出,中国人工智能计算力继续保持快速增长,2022年智能算力规模达到268百亿亿次/秒(EFLOPS),超过通用算力规模。

  “中国智能算力规模将持续高速增长,预计到2026年中国智能算力规模将达到1271.4EFLOPS,未来五年复合增长率达52.3%,同期通用算力规模的复合增长率为18.5%。”IDC中国副总裁周震刚说。

  据了解,目前我国在京津冀、长三角等地区启动建设国家算力枢纽节点,并规划了10个国家数据中心集群,推进集约化、绿色节能、安全稳定的算力基础设施的建设。随着“东数西算”工程的启动以及智算中心的建设,我国正加速实现有效的资源结构整合,构建更为健全的算力、算法基础设施。

  周震刚表示,从整体看AI服务器仍是人工智能市场增长的主力军。2021年全球人工智能服务器市场的同比增速为39.1%,超过全球整体人工智能市场增速(20.9%),是整体人工智能市场增长的推动力。中国AI服务器市场领跑全球,2021年人工智能服务器市场规模达59.2亿美元,与2020年相比增长68.2%,预计到2026年,中国人工智能服务器市场规模将达到123.4亿美元。

  同时,人工智能产业技术不断提升,产业AI化加速落地,推动全球人工智能芯片市场高速增长。

  浪潮信息副总裁刘军对经济日报记者表示,人工智能计算是技术创新最活跃的领域,人工智能给计算架构创新提供了肥沃的土壤,异构计算、高速互联已成为AI算力发展趋势。中国仍以GPU为主实现数据中心计算加速,市场占有率近90%。

  当前,多元算力从“能用”到“好用”,并为企业创造业务价值,离不开通用性强、安全可靠的计算系统支持。业内正推动多元算力系统架构创新,基于计算节点内和节点间的互联技术破局现有计算架构的瓶颈,通过充分调动起多芯片、多板卡、多节点的系统级能力,实现各种加速单元以及跨节点系统的高效协同,提升计算性能。

  刘军认为,智算力就是创新力,是数字化创新的原动力。目前,人工智能算力为国家创造力的发展带来实质性推进,不仅在应用科学的突破上发挥重要作用,也开始渗透到基础科学领域。企业利用人工智能应用在三方面获得了显著收益,分别是研发速度和流程的创新、产品和服务的创新以及商业模式的创新。

  当前,算法模型正加快商业化落地,普惠适用成为关注重点。据了解,浪潮信息研制了全球最大规模人工智能巨量模型“源1.0”,浪潮信息已发布的四个技能模型——知识增强的对话模型、知识检索问答模型、中英文翻译模型、古文理解模型,都是在继承“源1.0”大模型通用的知识与能力基础上,面向特定领域的场景进行针对性的技能优化,模型精度和训练效率均处于业界领先。

  周震刚介绍,从应用场景看,智能化场景在行业的落地正呈现出更深入、更广泛的趋势。人工智能持续提升用户体验,当前诸如智能客服、智能推荐、精准营销等场景深入落地各行业;人工智能也在加强公共卫生安全体系建设中承担重要角色,在病毒演变预测、疫苗药物研发、辅助诊断等维度实现广泛应用;从长期来看,企业可通过在数字人等数字化营销内容创作领域布局,创造差异化的营销体验;另外,科学家们利用人工智能技术和方法,从数据中建立模型,重点围绕新药创制、新材料研发等领域加速对前沿科学问题的探究。

  从行业看,2022年中国人工智能行业应用渗透度排名前五的领域依次为互联网、金融、政府、电信和制造。与2021年相比,行业AI渗透度明显提升。互联网行业依然是人工智能应用渗透度和投资最高的行业。智能客服、实体机器人、智慧网点等成为人工智能在金融行业的应用典型;人工智能技术融入电信网络的构建、优化,并为下一代智慧网络建设提供支撑;预计到2023年年底,中国50%的制造业供应链环节将采用人工智能。

  从城市看,在2022年中国人工智能城市排行榜中,北京位居首位,杭州超过深圳位居第二位,上海和广州分列第四、第五位,天津首次进入前十位。除了TOP10城市之外,诸如武汉、长沙等多个城市在产业优势及各种因素推动下,人工智能应用也取得了较大进展。未来将会出现更多具有城市特点的人工智能示范区,为产业发展树立标杆。(记者黄鑫)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇