数据时代来临 人工智能如何驱动存储发展
近年来,数字化转型成为企业业务升级必备手段,其实,“数字化转型”概念提出的十年之期,随着5G、大数据、云计算、人工智能、物联网等核心技术已在各行各业开花结果,边缘计算、机器学习、数字孪生等更新的技术层出不穷,重塑商业模式,颠覆生活体验,加速万物智能。追本溯源,一切变革源于数据亦由数据推动。日前,IDC的一项报告显示:2021年全球大数据市场的IT总投资规模为2176.1亿美元,到2026年,这项数据将增至4491.1亿美元,五年预测期内(2021-2026)实现约15.6%的复合增长率。大数据市场的高速成长,客观地反映出企业用户对于数据关注点的进步:他们正在从以往的数据收集、存储与管理,转向对于数据的分析和价值的发掘,从而实现让数据真正发挥价值,用虚拟的数字来优化真实现实的目的,最终完成其“数字”应用的完整流程。万物智能时代新趋势数字化转型进入2.0时代,企业投入不断增加,期待单点技术聚合成体系并发挥集成效应,进一步增加利润、激发创新、提高员工生产力,提高运营效率并改善客户体验。尽管AI时刻在推动存储发展,但是想要进一步激活存储潜力,仍需要解决AI场景下,存储容易面临的挑战:海量小文件,由于训练任务需要的文件数量都在几亿到十几亿的量级,所以存储需要能承载几十亿甚至上百亿的文件数量。同时,由于很多训练模型都是依赖于图片、音频片段、视频片段文件,而这些文件基本上都是在几KB到几MB之间。读多写少,在大部分场景中,训练任务只读取文件,中间很少产生中间数据,即使产生了少量的中间数据,也是会选择写在本地,很少选择写回存储集群。目录热点,由于训练时,业务部门的数据组织方式不可控,很有可能用户会将大量文件存放在同一个目录,容易导致多个计算节点在训练过程中,会同时读取这一批数据,这个目录所在的元数据节点就会成为热点。“工欲善其事,必先利其器”,要想发挥出 AI 人工智能技术的最大威力,解决存储挑战就成为企业构建强有力的 IT 基础设施的重要一环。如果没有高性能的存储,就会导致整个系统性能出现延迟的情况。因此 AI 对存储性能的要求是很苛刻的,企业希望存储系统能满足高吞吐量和低延时的需求,让更多的数据能更及时地传输和执行,那么对于这个愿望应该如何实现呢?AI驱动存储发展众所周知,大数据、AI、ML等概念都不是最近出现的,只是当时在数字时代,算力的局限不仅限制了数据的产生,也限制了AI和ML真正价值的发挥。直到云计算让算力不再具有任何上限,用户对于数据的获取也开始变得更加广泛,AI和ML才真正成为了最有效的数据分析工具。在企业为AI平台选择存储设备之前,必须首先考虑以下几点:1.成本AI数据存储设备的价格对企业来说是一个关键因素。显然,高管层和那些参与采购决策的人会希望存储尽可能具有成本效益,在许多情况下,这将影响组织的产品选择和策略。2.可伸缩性如上文所说,在创建机器学习或AI模型的过程中,收集、存储和处理大量数据是非常必要的。机器学习算法要求源数据呈指数增长,才能实现精度的线性提高。创建可靠而准确的机器学习模型可能需要数百TB甚至PB的数据,而且这只会随着时间的推移而增加。存储成本的变化引入了分层存储或使用多种类型的存储来存储数据的概念。例如,对象存储是存储大量不活跃的AI数据的良好目标。当需要处理数据时,可以将数据移动到对象存储中的高性能文件存储集群或节点上,一旦处理完成,就可以将数据移动回来。3.性能AI数据的存储性能有三个方面。首先,可能也是最重要的是延迟,也就是软件处理每个I/O请求的速度。低延迟很重要,因为改善延迟对创建机器学习或AI模型所需的时间有直接影响。复杂的模型开发可能需要数周或数月的时间。通过缩短这个开发周期,组织可以更快地创建和细化模型。在检查延迟能力时,由于对象访问的流特性,对象将引用时间存储为第一个字节,而不是单个I/O请求的延迟。机器学习数据可以由大量的小文件组成。在这个领域,文件服务器可以提供比对象存储更好的性能。这里需要问AI存储方案供应商的一个关键问题是,在大文件类型和小文件类型上,他们的产品的性能特征会如何变化。4.可用性和耐久性机器学习和AI模型可以长时间连续运行。通过训练开发算法可能需要几天或几周的时间。在此期间,存储系统必须保持启动并持续可用。这意味着任何升级、技术替换或系统扩展都需要在不停机的情况下进行。在大型系统中,组件故障是常见的。这意味着任何用于AI工作的平台都应该能够从设备(如硬盘或SSD)和节点或服务器故障中恢复。对象存储使用擦除编码在许多节点上广泛分布数据,并最小化组件故障的影响。有一些擦除编码技术可以用在横向扩展文件系统,以提供同等水平的弹性。擦除编码方案的效率非常重要,因为它直接关系到读写I/O的性能,特别是对于小文件而言。由于多数大规模对象存储都太大,无法定期备份,因此可靠地擦除编码成为AI存储平台的一个基本特性。5.公有云开发机器学习和AI算法需要高性能存储和高性能计算。许多AI系统都是基于GPU的,比如Nvidia DGX,它可以用于开发精确算法所涉及的许多复杂数学计算。公有云服务提供商已经开始提供GPU加速的虚拟实例,可用于机器学习。在公有云中运行机器学习工具降低了构建机器学习开发基础设施的资本成本,同时提供了扩展开发机器学习模型所需的基础设施的能力。6.集成在本文中,我们将机器学习和AI的数据存储与计算分开来看。构建AI数据存储可能很困难,因为必须考虑存储网络和调优存储以及与机器学习应用程序协同工作的其他因素。产品的预打包使供应商能够在将产品交付给客户之前测试和优化其产品。如今,有一些存储产品结合了流行的AI软件、计算(如通用CPU和GPU)、网络和存储,以交付一个AI就绪的平台,许多详细的调优工作是在部署这些系统之前完成的。尽管成本可能是个问题,但对许多客户来说,预先打包的系统可以降低采用AI存储的障碍。写在最后当前,AI的发展正在加速推动技术设施的进步,数据类型和数据存储需求也在产生变化,或许很难预测未来的存储技术究竟是怎么样的,但是我们可以肯定的是,未来AI将持续驱动存储发展。随着科技的进步,AI作为新一轮产业变革的核心驱动力,将催生新技术、新产品、新产业、新业态、新模式,实现社会生产力的整体提升。基于大数据挖掘
基于大数据挖掘----浅谈大数据与大数据挖掘一、大数据技术1.1大数据的定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从某种意义上来说,大数据是为了更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代构架和技术。简而言之,大数据就是数据分析的前沿技术,这种技术能从各种各样类型的数据中,快速获得有价值的信息。
1.2大数据的特点可将大数据的特点总结为:规模性(volume)、多样性(variety)、高速型(velocity)和价值性(value)。1.规模性:大数据容量巨大,从TB级别,跃升至PB级别,数据容量越来越大已经成为不争的事实。现在一般家庭用的计算机硬盘容量都以TB为单位了,而在各电子商务、游戏、邮箱等,数据容量更是达到PB、EB级别。此外,在用户需求的刺激下,大数据的增长速度也十分惊人。据IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。2.多样性:数据类型极多,大数据根据终端显示的不同,可分为文档型、多媒体型、图片型等等。这些类型都与我们的网络活动息息相关,为我们的网上生活提供了丰富多彩的形式。数据多样性的增加主要是由于新型多结构数据,包括网络日志、社交媒体、互联网搜索、手机通话记录及各式传感器网络等数据类型造成的。3.高速性:高速指的是数据被创建和移动的速度,即处理海量数据的速度。因此大数据技术离不开云计算的发展,人们通过云计算可从各种类型的数据中快速获得高价值的信息。在高速网络时代,通过高速电脑处理器和服务器,创建实时数据流已成为流行趋势。根据相关调查预测,到2020年全球将拥有220亿部互联网连接设备,这对大数据的处理速度将有着极高的要求。4.价值性:人们利用大数据并对其进行正确、准确的分析,将会带来很高的价值回报,但是又因其具有价值密度低的特点,大数据存在不规则和模糊不清的特性,因此很难使用传统的分析软件进行分析。目前,企业面临的挑战是处理并从各种类型的复杂数据中挖掘出价值。
1.3大数据的发展过程大数据的发展和企业信息化的发展密不可分。在上世纪80年代,企业的各类业务、财务数据都是通过账簿记录,查阅和统计都十分不方便,可靠性也不高。从90年代末开始,金融业、电信业、大型零售等行业企业率先将核心交易数据电子化,2000年以后随着IT技术的发展,越来越多的企业将信息化纳入议程,设计、制造、财务等管理逐步数据电子化,这些数据被企业视为最宝贵的资产,随之而起的数据库技术和网络安全技术也渐渐完善。2010年以后,各式各样的数据,包括客户的浏览数据、反馈数据等在一些企业中也都开始记录并逐步进行建模和分析,基于数据挖掘和分析的预测技术也逐步开始出现。从过去到现在,数据的价值都在一点一滴的显现,十年前的大数据在如今看来根本不算很大;而同样的,今天的大数据在若干年后也将不再被认为是大数据。数据的容量、处理速度、多样性、复杂度等在今天来看无法想象的事情,若干年之后都会被颠覆。但是唯一不变的,是对数据的思考和分析的方法,以及利用数据来产生附加价值的出发点。
1.4大数据的意义和价值大数据技术具有很高的战略意义,但大数据技术不限于存储海量的数据信息,而在于对这些海量的数据信息进行专业化的处理,如果将大数据比作一种产业,那么大数据产业的关键在于对数据的加工,通过加工数据实现数据的增值。大数据不仅在于“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。对大数据进行分析能揭示隐藏其中的信息。从企业角度来说,其价值大致体现在这些方面:1.对于那些为大量消费者提供产品或服务的企业来说,可以利用大数据进行精准营销,例如产品推荐等。许多企业都在收集用户社交媒体数据、浏览器日志、文本分析等数据,来全方位地了解他们的客户。2.优化业务流程,利用从社交媒体数据、网络搜索趋势以及天气预报挖掘出的预测信息,零售商可以优化其库存。其中应用最广的业务流程是供应链或配送路线优化。3.大数据可以改善每个人的生活,我们利用可穿戴设备(例如智能手表或智能手链)生成的数据,来调整生活作息、睡眠模式等。4.大数据可以提高医疗和研发效率,例如在几分钟内解码整个DNA,这让我们可以更加便捷地去寻找新的治疗方法,同时更好地理解和预测疾病模式。5.大数据也能大幅度优化机器和设备性能,大数据分析还可以让机器和设备变得更加智能和自主化。正如阿里巴巴创办人马云所提到,未来的时代将不是IT时代,而是DT的时代,DT就是DataTechnology,即数据科技。这显示出大数据在未来的发展中具有极其重要的作用,未来将是大数据的时代。
二、数据挖掘2.1数据挖掘的定义数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程并且从大量数据中寻找其规律的技术,它是统计学、数据库技术和人工智能技术的综合。数据挖掘作为信息获取的一门重要技术,得到了广泛的研究。数据挖掘从大量的数据中挖掘出有用的信息,提供给决策者做决策支持,有着广阔的应用前景。
2.2数据挖掘的前提–数据采集大数据技术第一步就是采集数据。数据采集的多样性、完整性、准确性,决定了数据挖掘的成果以及后期预测的可靠性。在大数据时代,数据采集有以下三个特点:1.数据采集以自动化手段为主,要尽量摆脱人工录入的方式。2.采集内容以全量采集为主,要摆脱对数据进行采样的方式。3.采集方式多样化、内容丰富化,摆脱以往只采集基本数据的方式。从采集数据的类型上看,不仅要涵盖基础的结构化数据,还要逐步包括半结构化的用户行为数据,网状的社交关系数据,文本或音频类型的用户意见和反馈数据,网络爬虫获取的互联网数据,以及未来越来越多有潜在意义的各类数据。移动互联网的兴起让移动设备的数据采集技术有了迅速发展,目前使用最多的为Android或IOS的采集SDK,这种技术能帮助统计APP的基础数据,包括用户数、活跃情况、流失比例、使用时长等;用户的位置、安装列表、通讯情况等通过授权也可以采集。
2.3数据挖掘的步骤与方法数据挖掘的一般步骤为数据集选取、数据预处理、数据转换、数据建模、结果分析改进等。通常程序为:问题分析;提取、清洗与校验数据;创建与调试模型;数据挖掘模型维护。在数据挖掘的过程中,需要挖掘的数据类型种类繁多,可能是有结构的数据,如组织成表结构的数据;也可能是无结构的数据,如文本数据;还可能是半结构化的数据,如Web页面数据;甚至是图像或视频等多媒体数据。由于挖掘的数据类型多样,因此其涉及的技术方法很多。根据挖掘任务可分为五种:分类与回归、聚类分析、关联分析、时间序列分析和偏差检测。在数据库挖掘中,C4.5(决策树算法),遗传算法等,其中决策树方法与神经网络方法是其关键方法。而挖掘方法又可以分为:机器学习方法、统计方法、神经网络方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。在现在信息爆炸的时代,数据挖掘的信息源中的数据都是海量的,并且以指数级增长,传统的集中式串行数据挖掘方法不再是一种适当的信息获取方式。因此扩展数据挖掘算法处理大规模数据的能力,并提高运行速度和执行效率,已经成为数据挖掘发展过程中一个必须解决的问题。
2.4数据挖掘的功能在大数据时代下,基于大数据的数据挖掘有着无比重要的意义,人们通过对大量数据的专业分析,可以对现有的商业模式、企业决策提供数据支持。目前,几乎所有的知名企业中的管理建议都是以数据分析结论作为依据而提出的,在分析和解决问题时也开始倾向于用数据说话,不掌握大量数据时无法提出合理的、科学的、可行的建议的。此外,当大量的数据量积累到一定程度时,再对这些数据进行分析处理后,人们就可以从这些数据中找到感兴趣的有效的信息。因此数据挖掘可以预测未来趋势及行为,做出前瞻性、基于大数据发展趋势的决策。总的来讲主要有以下五类功能:自动预测趋势和行为;关联分析,找出数据库中隐藏的关联网;聚类,增强了人们对客观现实的认识;概念描述,对某类对象的内涵进行描述,并概括这类对象的有关特征;偏差检测,寻找观测结果与参照值之间有意义的差别。
2.5数据挖掘的应用随着社会信息化程度的持续提高,数据挖掘技术也渐渐发展变成了一门独立的学科。数据挖掘技术为了满足用户在庞大的数据库中筛选有用的数据需要,经过分类技术对数据实施分类挖掘。在各行各业中,均存在着数据挖掘的身影。(1)金融。金融事务需要收集和处理大量的数据,通过对这些数据进行分析,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,也可观察金融市场的变化趋势。(2)医疗保健。例如在2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终Google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。这对医疗保健品的运输调度以及需求规划起了很重要的作用。(3)市场业。市场业应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。例如农夫山泉利用大数据解决了怎样摆放水堆更能促进销售?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?物流运输调度等问题。(4)制造业。制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。在云计算平台Hadoop基础上,中国科学院计算技术研究所开发的并行分布式数据挖掘平台——PDMiner。PDMiner实现了各种并行数据挖掘算法。实验结果表明,并行分布式数据挖掘平台PDMiner中实现的并行算法,能够处理大规模数据集,达到太字节级;实现的并行算法可以在商用机器构建的并行平台上稳定运行,可以有效地应用到实际海量数据挖掘中。
三、基于大数据的数据挖掘概括地说,大数据挖掘包括基于内容的大数据挖掘与基于结构的大数据挖掘。大数据分析是指对规模巨大的数据进行分析。大数据作为时下火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士谈论的焦点。
3.1基于内容的大数据挖掘基于内容的大数据挖掘包括网络搜索技术与实体关联分析研究。社会媒体的出现使得网络搜索研究的热点转移到了排序学习算法,专注于提高检索质量。排序学习算法以损失函数为优化目标,将文档表示为特征向量,寻找在搜索领域中常用的评价标准下的最好的排序函数。目前现有的模型在处理用户需求的多样性、重要性和相关性等不同的目标,在排序方面仍有不足。命名实体是具体或者抽象但具有特定意义的实体。从大数据中挖掘其蕴含的内在知识,需要研究对命名实体以及命名实体关系的数据挖掘。
3.2基于结构的大数据挖掘社会网络是以用户为节点,用户间的关系为连线而构建的网络,它既是用户间社会关系的反映,也是用户之间进行信息交互的载体。在社会网络中,个体因自身各种因素进而形成了连接紧密的圈子,这种内部关系紧密而对外关系相对稀疏的结构被称为社区。社区结构是社会网络所普遍具有的结构特征,它的存在对于大数据的高效搜索、网络演化、信息扩散等具有重要意义。
四、大数据挖掘的发展趋势未来的时代必然是大数据的时代,信息时代逐渐变为数据时代,一切将与数据密不可分。
4.1未来大数据的发展趋势数据的资源化,大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。1.商业智能企业决策正在经历的转变将延续到未来。处理大数据的目标使效率越来越高,成本不断减少,从而造就了基于大数据的商业智能,对中小企业甚至初创公司来说更为重要。这一趋势将延续到未来及以后,处理大数据的成本将继续降低。2.数据分析将包含可视化模型数据可视化和数据发现将成为一股重要趋势。数据发现的范畴已经扩大,不仅包括对数据分析和关系的理解,还包括呈现数据的方式。作为一种把数据变成可视化的方法,可视化模型越来越受欢迎。日益改善和演变的可视化模型已经成为从大数据中获取信息的必要组成部分。人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择。3.机器学习机器学习是计算机的训练过程,现在被企业用于各种各样的商业行为,比如实时广告、模式识别、欺诈识别和医疗。但在大数据时代,机器学习将变得更聪明、更快速、更有效。
4.2未来数据挖掘的发展趋势在许多领域,数据挖掘都是热点问题。用数据挖掘技术解决问题的类型、解决数据挖掘的数据准备工作及数据挖掘的理论基础都日趋成熟与完善。在大数据时代下,数据挖掘的发展趋势可以体现在以下5个层面。1、多媒体数据挖掘大数据时代下,视、音频、图像等都属于多媒体数据,随着时代的发展,海量的数据结构变得复杂化和动态化。无人机和无人车的实际应用、智慧医疗项目的全面发展都会要求对多媒体数据进行快速处理,为了得到更理想的效果,得到的效果变得最优化,需要开发和设计数据挖掘的新智能算法。2、网络与分布式环境下的KDD问题随着Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。3、数据挖掘算法的改进和可视化可视化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。如今,学术研究主要集中在精度和效率之间设定适当的临界值和对数据挖掘的结果进行可视化两个方面。针对数据挖掘算法中的新贵——RNN、CNN、DNN、Capsule等一系列深度学习算法的研究,将成为引领大数据研究方法的风向标。4、数据挖掘和隐私保护在解决实际问题时,难免会涉及隐私的数据,例如在研究信用卡和用户之间的关系时,数据中难免会有用户的个人信息;在研究宫颈癌(危险因素)与人的年龄、怀孕次数、性伴侣数等关系时,会有部分隐私信息不便透漏外界。在进行数据挖掘过程中,不泄露用户的个人隐私问题,对数据进行脱敏处理,将成为人们研究数据挖掘的另一个重要方面。5、数据挖掘与数据库系统和Web数据库系统的集成数据库系统和Web数据库已经成为信息处理系统的主流。数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合。
五、结论本文主要介绍了大数据技术的定义、特点、发展过程、总结了其意义和价值;还介绍了数据挖掘技术定义、步骤与方法、以及数据挖掘技术的功能和应用,归纳总结了在大数据时代下大数据和数据挖掘技术未来的发展趋势。在这个大数据时代,大数据不仅让我们不再期待精确性,也让我们无法实现精确性。我们用数据驱动的大数据的相关关系分析法,取代了传统的易出错的方法。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。在各个领域,时刻都会产生海量数据,由于社会存在过多的不确定性因素,导致处理的数据类型越来越繁杂,传统的处理方法已经不再使用,但是数据挖掘技术则为解决大数据问题开辟了一个新途径。未来的时代是DT时代,数据挖掘技术会面对更加严峻的挑战,利用数据挖掘的相关算法,处理实际问题和分析数据的能力将会更加显著。在不久的将来,我们会在大数据的指导下探索世界,不再受限于各种假想。我们的研究始于数据,也因为数据我们将会发现以前不曾发现的联系。