博舍

ai人工智能数据处理分析 ai人工智能数据处理人员

ai人工智能数据处理分析

Businessesrealizethatasmoreandmoreproductsandservicesbecomedigitized,thereisanopportunitytocapturealotofvaluebytakingbetteradvantageofdata.Inretail,itcouldbebyavoidingdeepdiscountingbystockingtherightitemsattherighttime.Infinancialservices,itcouldbebyidentifyingunusualactivityandbehaviorfasterthanthecompetition.Inmedia,itcouldbebyincreasingengagementbyofferingupmorepersonalizedrecommendations.

企业意识到,随着越来越多的产品和服务数字化,人们有机会通过更好地利用数据来获取很多价值。在零售中,可以通过在正确的时间存储正确的商品来避免大幅打折。在金融服务中,可以比竞争对手更快地识别异常活动和行为。在媒体中,可以通过提供更多个性化的建议来增加参与度。

关键挑战(KeyChallenges)

InmytalkatCloudNextOnAir,Idescribethat,inordertoleadyourcompanytowardsdata-poweredinnovation,thereareafewkeychallengesthatyouwillhavetoaddress:

在CloudNextOnAir上的演讲中,我描述了为了使您的公司迈向数据驱动型创新,您必须解决一些关键挑战:

Thesizeofdatathatyouwillemploywillincrease30–100%yearonyear.Youarelookingata5xdatagrowthoverthenext3–4years.Donotbuildyourinfrastructureforthedatayoucurrentlyhave.Planforgrowth.您将使用的数据大小将逐年增加30-100%。您正在寻找未来3-4年内5倍的数据增长。不要为当前的数据构建基础结构。规划增长。25%ofyourdatawillbestreamingdata.Avoidthetemptationofbuildingabatchdataprocessingplatform.Youwillwanttounifybatchandstreamprocessing.您的数据的25%将是流数据。避免构建批处理数据处理平台的诱惑。您将要统一批处理和流处理。

Dataqualityreducesthefartherawayfromtheoriginatingteamthedatagets.So,youwillhavetoprovidedomainexpertscontroloverthedata.Don’tcentralizedatainIT.

数据质量使数据离原始团队越远。因此,您将必须提供域专家对数据的控制。不要将数据集中在IT中。

ThegreatestvalueinML/AIwillbeobtainedbycombiningdatathatyouhaveacrossyourorganizationandevendatasharedbypartners.Breakingsilosandbuildingadataculturewillbekey.通过合并整个组织中的数据甚至合作伙伴共享的数据,将获得ML/AI的最大价值。打破孤岛和建立数据文化将是关键。Muchofyourdatawillbeunstructured—images,video,audio(chat),andfreeformtext.YouwillbebuildingdataandMLpipelinesthatderiveinsightsfromunstructureddata.您的许多数据都是非结构化的-图像,视频,音频(聊天)和自由格式的文本。您将建立从非结构化数据中获得见解的数据和ML管道。AI/MLskillswillbescarce.YouwillhavetotakeadvantageofpackagedAIsolutionsandsystemsthatdemocratizemachinelearning.AI/ML技能将稀缺。您将必须利用使机器学习民主化的打包式AI解决方案和系统。

Theplatformthatyoubuildwillneedtoaddressallofthesechallengesandserveasanenablerofinnovation.

您构建的平台将需要解决所有这些挑战并充当创新的推动力。

Inthisarticle,Iwillsummarizethekeypointsfrommytalk,anddelveintotechnicaldetailsthatIdidn’thavetimetocover.Irecommendbothwatchingthetalkandreadingthisarticlebecausethetwoarecomplementary.

在本文中,我将总结演讲的要点,并深入研究我没有时间讨论的技术细节。我建议同时观看谈话和阅读本文,因为两者是相辅相成的。

五步旅程(The5-stepjourney)

BasedonourexperiencehelpingmanyGoogleCloudcustomersgothroughadigitaltransformationjourney,therearefivestepsinthejourney:

根据我们帮助许多GoogleCloud客户进行数字化转型的经验,该过程包括五个步骤:

步骤1:简化运营并降低总拥有成本(Step1:Simplifyoperationsandlowerthetotalcostofownership)

Thefirststepformostenterprisesistofindthebudget.Movingyourenterprisedatawarehouseanddatalakestothecloudcansaveyouanywherefrom50%to75%,mostlybyreducingtheneedtospendvaluabletimedoingresourceprovisioning.Ephemeralandspikyworkloadswillalsobenefitfromautoscalingandthecloudeconomicsofpay-for-what-you-use.

对于大多数企业来说,第一步是找到预算。将企业数据仓库和数据湖移动到云中,可以节省50%到75%的费用,这主要是通过减少花费宝贵时间进行资源调配的需求。临时和尖刻的工作负载也将受益于自动扩展和按需付费的云经济。

Butwhendoingthis,makesureyouaresettingyourselfupforsuccessbecausethisisonlythefirststepofthejourney.Yourgoalisnotjusttosavemoney;itistodriveinnovation.Youcangettheabilitytohandlemoredata,moreunstructureddata,streamingdata,andbuildadataculture(“modernizeyourdataplatform”)andsavemoneyatthesametimebymovingtoacapableplatform.Makesuretopickaplatformthatisserverless,self-tuning,highlyscalable,provideshigh-performancestreamingingestion,allowsyoutooperationalizeMLwithoutmovingdata,enablesdomainexpertsto“own”thedatabutshareitbroadlywiththeorganization,anddoesallthisinarobust,secureway.

但是,在进行此操作时,请确保已为成功做好准备,因为这只是整个旅程的第一步。您的目标不仅仅是省钱;是为了推动创新。通过迁移到功能强大的平台,您可以获得处理更多数据,更多非结构化数据,流数据以及建立数据文化(“现代化数据平台”)并节省资金的能力。确保选择一个无服务器,自我调整,高度可扩展,提供高性能流接收的平台,允许您在不移动数据的情况下运行ML,使域专家“拥有”数据,但可以与组织广泛共享,并以健壮,安全的方式完成所有这些操作。

Whenitcomestoanalytics,GoogleBigQueryistherecommendeddestinationforstructuredandsemi-structureddata.GoogleCloudStorageiswhatwerecommendforunstructureddata.Wehavelow-riskmigrationofferstoquicklymoveon-premisesdata(Teradata/Netezza/Exadata),HadoopandSparkworkloads,andpointdatawarehouseslikeRedShiftandSnowflaketoBigQuery.Similarly,ifyouneedtocapturelogsorchangesfromtransactionaldatabasestothecloudforanalytics.

在分析方面,建议将GoogleBigQuery用作结构化和半结构化数据的目标。我们建议对非结构化数据使用GoogleCloudStorage。我们提供了低风险的迁移功能,可快速将本地数据(Teradata/Netezza/Exadata),Hadoop和Spark工作负载以及将RedShift和Snowflake等数据仓库指向BigQuery。同样,如果您需要捕获日志或从事务数据库到云的更改以进行分析。

步骤2:打破孤岛,使分析民主化,并建立数据文化(Step2:Breakdownsilos,democratizeanalytics,andbuildadataculture)

Myrecommendationtochoosethestoragelayerbasedontypeofdatamightseemsurprising.Shouldn’tyoustore“raw”datainadatalake,and“clean”datainadatawarehouse?No,notagoodidea.DataplatformsandrolesareconvergingandyouneedtobeawarethattraditionalterminologylikeDataLakeandDataWarehousecanleadtostatusquobiasandbadchoices.Myrecommendationinsteadisforyoutothinkaboutwhattypeofdataitis,andchooseyourstoragelayer.Someofyour“raw”data,ifitisstructured,willbeinBigQueryandsomeofyourfinal,fullyproducedmediaclipswillresideinCloudStorage.

我建议根据数据类型选择存储层可能令人惊讶。您不应该将“原始”数据存储在数据湖中,而将“干净”数据存储在数据仓库中吗?不,不是一个好主意。数据平台和角色正在融合,您需要意识到,诸如DataLake和DataWarehouse之类的传统术语可能会导致现状偏差和错误选择。相反,我的建议是让您考虑数据类型是什么,然后选择存储层。您的某些“原始”数据(如果经过结构化)将存储在BigQuery中,而某些最终的,完全生成的媒体片段将存储在CloudStorage中。

Don’tfallintothetemptationofcentralizingthecontrolofdatainordertobreakdownsilos.Dataqualityreducesthefurtherawayfromthedomainexpertsyouget.YouwanttomakesurethatdomainexpertscreatedatasetsinBigQueryandownbucketsinCloudStorage.Thisallowsforlocalcontrol,butaccesstothesedatasetswillbecontrolledthroughCloudIAMrolesandpermissions.Theuseofencryption,accesstransparency,andmaskingwithCloudDataLossPreventioncanhelpensureorgwidesecurityeveniftheresponsibilityofdataaccuracylieswiththedomainteams.

不要陷入集中控制数据以打破孤岛的诱惑。数据质量降低了您与域专家之间的距离。您要确保域专家在BigQuery中创建数据集,并在CloudStorage中拥有自己的存储桶。这允许本地控制,但是对这些数据集的访问将通过CloudIAM角色和权限进行控制。CloudDataLossPrevention的加密,访问透明性和掩码的使用可以帮助确保组织范围的安全性,即使数据准确性的责任在于域团队。

Eachanalyticsdatasetorbucketwillbeinasinglecloudregion(ormulti-regionsuchasEUorUS).FollowingZhamakDehghani’snomenclature,youcouldcallsuchastoragelayera“distributeddatamesh”toavoidgettingsidetrackedbythelakevs.warehousedebate.

每个分析数据集或存储桶都将位于单个云区域(或欧盟或美国等多个区域)中。遵循ZhamakDehghani的命名法,您可以将这样的存储层称为“分布式数据网格”,以避免因湖泊与仓库之争而陷入混乱。

Encourageteamstoprovidewideaccesstotheirdatasets(“defaultopen”).Ownersofdatacontrolaccesstodata,butsubjecttoorg-widedatagovernancepolicies.ITteamsalsohavetheabilitytotagdatasets(forprivacy,etc.).CloudIAMismanagedbyIT.Permissionstotheirdatasetsaremanagedbythedataowners.UpskillyourworkforcesothattheyarediscoveringandtaggingdatasetsthroughDataCatalog,andbuildingno-codeintegrationpipelinesusingDataFusiontocontinuallyincreasethebreadthandcoverageofyourdatamesh.

鼓励团队提供对其数据集的广泛访问(“默认打开”)。数据所有者控制对数据的访问,但要遵守组织范围内的数据治理策略。IT团队还可以标记数据集(用于隐私等)。CloudIAM由IT管理。其数据集的权限由数据所有者管理。提高您的劳动力,使他们可以通过数据目录发现和标记数据集,并使用数据融合建立无代码集成管道,从而不断增加数据网格的广度和覆盖范围。

Oneproblemyouwillrunintowhenyoubuildademocratizeddatacultureisthatyouwillstarttoseeanalyticssilos.EachtimeaKeyPerformanceIndicator(KPI)iscalculatedisonemoreopportunityforittobecalculatedthewrongway.So,encouragedataanalyticsteamstobuildasemanticlayerusingLookerandapplygovernancethroughthatsemanticlayer:

建立民主化的数据文化时,您会遇到的一个问题是,您将开始看到分析孤岛。每次计算关键绩效指标(KPI)都是一次错误的计算方法。因此,鼓励数据分析团队使用Looker构建语义层,并通过该语义层应用治理:

Thishastheadvantageofbeingmulti-vendorandmulti-cloud.Theactualqueriesarecarriedouttheunderlyingdatawarehouse,sothereisnodataduplication.

这具有成为多供应商和多云的优势。实际查询是在基础数据仓库中进行的,因此没有数据重复。

Regardlessofwhereyoustorethedata,youshouldbringcomputetothatdata.OnGoogleCloud,thecomputeandstorageareseparateandyoucanmixandmatch.Forexample,yourstructureddatacanbeinBigQuery,butyoucanchoosetodoyourprocessingusingSQLinBigQuery,Java/PythonApacheBeaminCloudDataflow,orSparkonCloudDataproc.

无论将数据存储在何处,都应将计算引入数据中。在GoogleCloud上,计算和存储是分开的,您可以混合使用。例如,您的结构化数据可以在BigQuery中,但是您可以选择在BigQuery中使用SQL,在CloudDataflow中使用Java/PythonApacheBeam或在CloudDataproc中使用Spark进行处理。

Donotmakecopiesofdata.

不要复制数据。

步骤3:根据情况更快地做出决策(Step3:Makedecisionsincontext,faster)

Thevalueofabusinessdecision,especiallyadecisionthatismadeinthelongtail,dropswithlatencyanddistance.Forexample,supposeyouareabletoapprovealoanin1minuteorin1day.The1-minuteapprovalismuch,muchmorevaluablethanthe1-dayturnaround.Similarly,ifyouareabletomakeadecisionthattakesintoaccountspatialcontext(whetheritisbasedonwheretheusercurrentlylives,orwheretheyarecurrentlyvisiting),thatdecisionismuchmorevaluablethanonedevoidofspatialcontext.

业务决策(尤其是长尾决策)的价值随延迟和距离而下降。例如,假设您能够在1分钟或1天之内批准贷款。1分钟的批准比1天的周转要有价值得多。同样,如果您能够做出考虑空间上下文的决策(无论是基于用户当前居住的位置还是他们当前正在访问的地方),那么该决策比没有空间上下文的决策更具价值。

OnegoalofyourplatformshouldbethatyoucandoGIS,streaming,andmachinelearningondatawithoutmakingcopiesofthedata.Theprincipleabove,ofbringingcomputetothedata,shouldapplytoGIS,streaming,andMLaswell.

平台的目标之一是无需复制数据就可以对数据进行GIS,流传输和机器学习。以上将计算带入数据的原理也应适用于GIS,流技术和ML。

OnGoogleCloud,youcanstreamdataintoBigQuery,andallqueriesonBigQueryarestreamingSQL.EvenasyouarestreamingdataintoBigQuery,youcancarryouttime-windowtransformations(totakeintoaccountuser-andbusiness-context)inordertoreal-timeAIandpopulatereal-timedashboards.

在GoogleCloud上,您可以将数据流式传输到BigQuery,并且BigQuery上的所有查询都在流式传输SQL。即使将数据流式传输到BigQuery中,您也可以进行时间窗口转换(以考虑用户和业务环境),以实时AI并填充实时仪表板。

第4步:借助端到端AI解决方案实现跨越式发展(Step4:Leapfrogwithend-to-endAISolutions)

ML/AIissoftware,andlikeanysoftware,youshouldconsiderwhetheryoushouldbuildorwhetheryoucanbuy.GoogleCloud’sstrategyinAIistobringthebestofGoogle’sAItoourcustomersintheformofAPIs(e.g.VisionAPI)andbuildingblocks(e.g.AutoMLVision,whereyoucanfinetuneVisionAPIonyourowndata,withtheadvantagethatyouneedmuchlessofit).

ML/AI是软件,并且像任何软件一样,您应该考虑应该构建还是可以购买。GoogleCloud在AI中的策略是以API(例如VisionAPI)和构件块(例如AutoMLVision)的形式为我们的客户提供Google最好的AI,您可以利用自己的数据微调VisionAPI您所需要的少得多)。

WhenitcomestoAI(arguably,thisistrueofalltech,butitisparticularlyapparentinAIbecauseit’ssonew),everyvendorseemstocheckalltheboxes.Wereallyencourageyoutolookatthequalityoftheunderlyingservices.ItisnotthecasethatanycompetingnaturallanguageortextclassifiercomesclosetoCloudNaturalLanguageAPIorAutoMLNaturalLanguage.Thesameholdsforourvision,speech-to-text,etc.models.

当谈到人工智能时(可以说,所有技术都是如此,但由于它太新了,所以在人工智能中尤为明显),每个供应商似乎都勾选了所有复选框。我们真的鼓励您查看基础服务的质量。并非任何竞争的自然语言或文本分类器都接近CloudNaturalLanguageAPI或AutoMLNaturalLanguage。我们的愿景,语音转文本等模型也是如此。

Wearealsoputtingtogetherourbasiccapabilitiesintohigher-value,highlyintegratedsolutions.ContactCenterAI,wherewedoautomatedcallhandling,operatorassistance,andcallanalyticsasapackagedsolutionisoneexample.AsisDocumentAI,wherewetietogetherformparsing,andknowledgeextraction.

我们还将基本能力整合到更高价值,高度集成的解决方案中。作为一个打包的解决方案,我们在其中进行自动呼叫处理,话务员帮助和呼叫分析的ContactCenterAI就是一个例子。与文档AI一样,我们将表单解析和知识提取结合在一起。

步骤5:使用扩展的AI平台增强数据和ML团队的能力(Step5:EmpowerdataandMLteamswithscaledAIplatforms)

IrecommendthatyousplityourportfolioofAIsolutionsinto3categories.Formanyproblems,usingAPIsandbuildingblockswillbesufficient.BuildoutadatascienceteamtosolveAIproblemsthatwilluniquelydifferentiateyouandgiveyousustainableadvantage.

我建议您将AI解决方案组合分为3类。对于许多问题,使用API​​和构件块就足够了。建立一支数据科学团队来解决AI问题,这些问题将使您与众不同并为您带来可持续的优势。

Onceyoudecidetobuildadatascienceteam,though,makesurethatyouenablethemtodomachinelearningefficiently.Thiswillrequiretheabilitytoexperimentonmodelsusingnotebooks,capturetheirMLworkflowsusingexperiments,deploytheirMLmodelsusingcontainers,anddoCI/CDforcontinuoustrainingandevaluation.YoushoulduseourMLPipelinesforthat.ItiswellintegratedwithourdataanalyticsplatformandwithCloudAIPlatformservices.

但是,一旦决定组建数据科学团队,请确保使他们能够高效地进行机器学习。这将需要具有使用笔记本进行模型实验,使用实验捕获其ML工作流,使用容器部署其ML模型以及进行CI/CD进行连续训练和评估的能力。您应该为此使用我们的ML管道。它与我们的数据分析平台和CloudAIPlatform服务很好地集成在一起。

AtGoogleCloud,wewillwalkwithyouineverystepinthisjourney.Contactus!

在Google云中,我们将与您一起走过这一旅程的每一步。联系我们!

下一步(NextSteps)

WatchmytalkinCloudNextOnAir.

在CloudNextOnAir中观看我的演讲。

Herearesomearticlesandwhitepapersthatmightbeuseful:

以下是一些可能有用的文章和白皮书:

Datawarehousemodernization

数据仓库现代化

MLOps:Continuousdeliveryandautomationpipelinesinmachinelearning

MLOps:机器学习中的持续交付和自动化管道

HowtoMoveBeyondaMonolithicDataLaketoaDistributedDataMesh

如何超越单片数据湖移动到分布式数据网格

CloudAIAdoptionFramework

云AI采纳框架

Fortechnicaldetails,seethesebooks

有关技术细节,请参阅这些书

BigQuery:TheDefinitiveGuide

BigQuery:权威指南

MachineLearningDesignPatterns

机器学习设计模式

DataScienceonGoogleCloudPlatform

GoogleCloudPlatform上的数据科学

AI人工智能三要素:数据、算力和算法

人工智能这两年的火爆大家有目共睹,取得的一些技术进步大家想必也有所耳闻。这里就来谈谈人工智能的三要素:数据、算力和算法。

首先,这三要素缺一不可,都是人工智能取得如此成就的必备条件。如果非要给这三者排个序的话,我认为应该是数据、算力和算法。

第一是数据。因为人工智能的根基是训练,就如同人类如果要获取一定的技能,那必须经过不断地训练才能获得,而且有熟能生巧之说。AI也是如此,只有经过大量的训练,神经网络才能总结出规律,应用到新的样本上。如果现实中出现了训练集中从未有过的场景,则网络会基本处于瞎猜状态,正确率可想而知。比如需要识别勺子,但训练集中勺子总和碗一起出现,网络很可能学到的是碗的特征,如果新的图片只有碗,没有勺子,依然很可能被分类为勺子。因此,对于AI而言,大量的数据太重要了,而且需要覆盖各种可能的场景,这样才能得到一个表现良好的模型,看起来更智能。

第二是算力。有了数据之后,需要进行训练,不断地训练。AI中有一个术语叫epoch,意思是把训练集翻过来、调过去训练多少轮。只把训练集从头到尾训练一遍网络是学不好的,就像和小孩说一个道理,一遍肯定学不会,过目不忘那就是神童了,不过我至今还没见到过。当然,除了训练(train),AI实际需要运行在硬件上,也需要推理(inference),这些都需要算力的支撑。

第三是算法。其实大家现在算法谈得很多,也显得很高端,但其实某种程度上来说算法是获取成本最低的。现在有很多不错的paper,开源的网络代码,各种AutoML自动化手段,使得算法的门槛越来越低。另外提一点,算法这块其实是创业公司比较容易的切入点,数据很多人会觉得low,会认为就是打打标签而已,所以愿意做的不多;算力需要芯片支撑,是大公司争夺的主要阵地,留下的只有算法了。

不过,如果想做一个非常成功的AI应用,这三者都需要具备,所谓天时地利人和。

 

联系我:guanxs_ai@126.com

微信公众号:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇