博舍

人工智能应用开发流程的权衡 人工智能项目开发流程怎么写好

人工智能应用开发流程的权衡

文章目录前言一、复杂和简单的取舍二、人与机器的平衡三、开发和运行的融合总结前言

人工智能应用开发过程的挑战很多,主要表现在三个方面:①开发流程复杂冗长;②算法技能要求高,需要应用开发者熟悉算法;③应用维护很频繁,可能超过传统软件应用。因此,考虑到这些挑战,往往就需要在开发过程中做一些权衡。下面将针对这三种挑战,依次分析如何有效利用平台优势和业务具体场景,做出最佳权衡。

一、复杂和简单的取舍

  由于人工智能应用无处不在,可以与各行各业相结合,所以人工智能应用的开发需要足够灵活,能够适应各种行业的需求。但是往往灵活背后的代价就是复杂,尤其对于人工智能应用开发来说,其天然具备较高的复杂度。  在开发人工智能应用之前,同时需要业务经验知识和人工智能经验知识,这样才能设计出合理的方案。对于人工智能应用开发全过程的每个处理步骤而言,输入数据的统计分布、输人数据的覆盖范围、最适合的处理逻辑、输出都是不确定的。这种不确定性会不断传递给后续的处理步骤。随着处理步骤的增多和数据的不断变化,可能需要增加、减少或改变后续的处理步骤,或者改变某个处理步骤中的具体逻辑。因此,人工智能应用开发过程其实是一个不断试错、不断调优、不断迭代的过程,很难一次性开发出一个可以满足要求并直接部署的人工智能应用。这就是人工智能应用开发过程天然具备的复杂性。  为了降低这种复杂性,通常需要固化一些开发流程模板,可以基于模板来开发自己的人工智能应用,不需要全部的灵活度,但是有时候足以解决当前面临的问题。当然这种模板也可以被用来二次加工、不断迭代和优化。这种基于已有模板的开发方式更加简单,也更容易解决相对受限领域的具体问题。

二、人与机器的平衡

  人工智能应用开发需要利用人工智能算法来处理数据,因此开发人员必须同时具备软件工程和人工智能方面的知识和技能,开发门槛相对较高。虽然基于工作流模板的开发方式可以大幅降低人工智能应用开发门槛,但是开发者(工作流的使用者)仍然需要按照工作流的每个处理步骤不停地迭代。如上所述,人工智能应用开发过程其实是一个反复迭代的过程,并且需要较强的人工干预。  大多数情况下,人工干预的程度也跟待解决问题的难度强相关。如果问题没有特别复杂,一般采用一些简单的参数调优即可,和软件工程师对数据库性能参数调优样。对于一些非常经典和成熟的机器学习算法,算法的架构基本相对稳定,即使是算法工程师也未必会对其进行大幅度的修改,更多的是一些小范围优化。这些超参数包括但不限于算法本身的一些阈值选择或训练策略选择等。因此,大部分开发者为了快速将算法应用到实际问题中,通常基于经验对这些参数进行调节,从而找到更好的算法和模型。但是如果有更强的机器,人工只需定义好规则和搜索空间,就可以利用机器强大的算力来做参数的自动选择和调优。这个调优过程就转变为一个自动化搜索过程。  现在一些传统的人工智能算法都逐渐成熟,大多数可以借助大集群算力和一定的搜索调优算法来完成最优算法的自动选择、优化和训练。  因此,很多人工不断进行调优、迭代的实验过程,逐渐地都可以交给机器来完成,尽量减少开发者的负担,这就是人与机器的平衡。如果要在算力上多投入一些,就可以在人工上少投入一些,反之亦然。开发人工智能应用需要在人和机器方面做一个平衡。人工智能应用开发平台所能够提供的是更多的灵活性和层次性,能够适应不同比例的人力投入和机器投人。

三、开发和运行的融合

  在人工智能应用开发和部署之后,需要及时维护。在维护阶段,用户可以选择应用指标监控模块来实时查看人工智能应用的推理效果。如果推理效果不满足要求,则需要手工或者自动维护,将不合适的数据回流到开发态。然后开发者可以重新查看和理解这些数据,并基于这些数据对已有人工智能应用进行迭代优化。  由于数据的变化会严重影响人工智能应用推理效果的好坏,因此人工智能应用的迭代需要非常及时。这也就使得人工智能应用的开发态和运行态紧密结合,形成一个闭环。对于有些可以自动维护并自动进行迭代优化的场景,这个闭环基本可自动运行,仅需在人工智能应用版本更迭时进行人工审核。  未来,随着人工智能应用的进一步复杂化,包括其内部模型本身的复杂,以及运行态环境的复杂(包括端、边、云),进行人工智能应用开发态和运行态的融合将更为必要,并且这种融合通过人工智能应用开发平台体现出来,可以进一步简化维护人工智能应用的难度。

总结

  总体上看,以上三个层面的权衡,其实本质上对人工智能应用开发平台提出了非常高的要求。只有提供足够多的领域模板、足够多的自动化调优能力,以及足够强大的人工智能应用开发态和运行态闭环能力,并在具体业务场景中做出最佳权衡,才能真正提升整体开发效率、降低整体开发成本,给业务方带来最终价值。

人工智能课程设计报告

人工智能课程设计报告1.引言

随着我国经济快速发展,城市人口急剧增加,带来了一系列的社会问题。交通拥堵,环境遭到破坏,公共交通的快速发展可以有效解决人们出行和交通拥堵的问题。自行车具有机动灵活、低碳环保的优点,若自行车可以取代现在的机动车,那么道路就不会那么拥挤,人们的出行效率就会大大提升,汽车废气的排放量也将大大的减少,环境的质量也会提升。同时,为了完美的解决从地铁站到公司、从公交站到家的“最后一公里”路程,共享单车应运而生.共享单车有效的解决了“走路累,公交挤,开车堵,打车贵”的苦恼。一夜之间,北上广深、甚至部分二线城市,共享单车大街小巷随处可见。继2016年9月26日ofo单车宣布获得滴滴快车数千万美元的战略投资,双方将在共享单车领域展开深度合作之后,摩拜单车也于2017年1月完成D轮2.15亿美元(约合人民币15亿元)的融资,国内共享单车更加火爆,最近一张手机截屏蹿红网络。在这张截图上,24个共享单车应用的图标霸满了整个手机屏幕,真的是“一图说明共享单车的激烈竞争”。而在街头,仿佛一夜之间,共享单车已经到了“泛滥”的地步,各大城市路边排满各种颜色的共享单车。共享经济的不断发展逐渐的改变着人们的日常生活,共享精神也逐渐深入人心。1.1任务要求要求运用人工智能相关理论和方法设计计算机系统解决实际问题。2.详细设计2.1设计步骤1.共享单车骑行数据的获取运用python库(BeautifulSoup,requests,scrapy)对优易数据网站(http://www.youedata.com/)Kaggle和进行爬取共享单车的骑行数据。将爬取的数据写入csv文件中:分析数据集:数据集来源于加利福尼亚大学欧文分校(UCI)大学的公开数据集:https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset,本次数据集的信息参考该网站。共享单车数据集包含有两个文件,一个是按天来统计的共享单车使用量数据,另一个是按照小时数来统计的使用量。共享单车数据集是在2011年至2012年间收集的,此处的共享单车是采用固定桩形式的单车,类似于中国的永安行,并不是我们目前所看到的满大街的小黄车,摩拜之类。本数据集总共有17389个样本,每个样本有16列,其中,前两列是样本序号和日期,最后三列数据是不同类型的输出结果。

2.导入并理解数据

首先导入并读取查看训练数据和测试数据:

测试数据共7列,10886行,且所以数据完整,没有缺失。然后需要我们通过模型来进行预测。导包:3.数据处理与分析在数据处理过程中,最好将训练数据与测试数据合并在一起进行处理,方便特征的转换。通过查看数据,确保测试数据均无缺失,或不一致。特别是在,日期时间特征由年、月、日和具体小时组成。可以根据日期计算其星期,然后就可以将日期时间拆分成年、月、日和星期5个特点。分析按天来统计的共享单车使用量数据集:4.数据分析规范数据后,快速查看各影响因素的结果:从相关系数,不同月份、季节对骑行人数的影响。未来更加值观地展现所有特征之间的影响,通过绘制柱状图来实现。接下来,深入分析各特征的影响规律,对每个特征进行可视化:由随机森林模型预测分析:结果说明:Instant记录号Dteday:日期Season:季节(1=春天、2=夏天、3=秋天、4=冬天)yr:年份,(0:2011,1:2012)mnth:月份(1to12)hr:小时(0to23)(在hour.csv有)holiday:是否是节假日weekday:星期中的哪天,取值为0~6workingday:是否工作日1=工作日(是否为工作日,1为工作日,0为周末或节假日weathersit:天气(1:晴天,多云;2:雾天,阴天;3:小雪,小雨;4:大雨,大雪,大雾)temp:气温摄氏度atemp:体感温度hum:湿度windspeed:风速casual:非注册用户个数registered:注册用户个数cnt:给定日期(天)时间(每小时)总租车人数,响应变量y(cnt=casual+registered)1.输出结果可以看出,这个数据集中没有缺失值,且每一列的数据特征都一致的,不需要进行额外的修改2.数据集中的season等7列是int64类型,意味着这些数据需要重新转换为独热编码格式,season中的1=spring,2=summer,3=autumn,4=winter,需改成独热编码形成的稀疏矩阵。构建随机森林回归模型:直接使用随机森林回归模型直接拟合

绘制不同特征的相对重要性直方图:3.关键技术1.导包操作:科学计算包nnumpy,pandas。可视化工具matplotlib,seabornMatplotlib是一个python的2d绘图库,我们可以通过这个库将数据绘制成各种2D图形(直方图、散点图,条形图等)。2.我们做数据可视化,其实就是对数据进行分析,pandas是一个非常强大的数据分析工具包。通常使用pandas进行下列图形的快速绘图:1.‘line’2.‘bar’forbarplots3.‘box’forboxplot4.‘area’forareaplots5.‘scatter’forscatterplots3.NumPy(NumericalPython)是目前Python数值计算中最为重要的基础包,主要包含以下内容:·高效多维数组ndarray,提供了基于数组的便捷算数操作以及灵活的广播功能;·对所有数据进行快速的矩阵计算,而无需编写循环程序;·对硬盘中数组数据进行读写的工具,并对内存映射文件进行操作;·线性代数、随机数生成以及傅里叶变换功能;·用于连接NumPy到C、C++和FORTRAN语言类库的C语言API。4.Seaborn是基于matplotlib的图形可视化python包。它提供了一种高度交互式界面,便于用户能够做出各种有吸引力的统计图表。5.在Python中,有很多数据可视化途径。Matplotlib非常强大,也很复杂,不易于学习。Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。

4.运行结果4.1运行环境硬件配置:Cpu主频2.80GHz,8GB内存软件配置:Windows操作系统(x86),python3.6,pycharm4.2运行结果打印初始数据集:直接使用随机森林回归模型结果:不同特征的相对重要性直方图:

数据可视化分析

一周内骑行时间分析

不同月份骑行人数可视化分析4.3实验结果分析

1.在没有对数据集进行任何处理的情况下,采取了默认的随机森林回归模型得到的模型在测试集上的MSE很大,解释方差分和R2都是0.93,表明模拟还可以。2.从相对重要性图中可以看出,温度对共享单车的使用有较大的影响性,从正常生活中可以理解,冬天太冷或夏天太热,骑行共享单车的人数就会显著减少。所获取的数据集是2011和2012年的,如果要得到更加可信的结果,还需要更多年份的数据。

1.可以从图表中看出秋季和冬季的骑行人数较多,可能是气候的原因,太热人们不愿意骑车出行2.早上上班和晚上下班高峰期,骑行人数有明显的增加,反观工作时间,骑车的人数较少,上下班时段为使用共享单车的高峰。3.非工作日中人们出行可能会更多使用汽车或其他公共交通出行,工作日中使用共享单车较多,周末时可能数量会相对减少。

1.在夏季5,6,7,8月份是全年的共享单车使用最多的时候,相比12月与1月是全年用车低峰,冬季户外太冷,共享单车使用急剧下降。5.心得和结论5.1结论和体会本次人工智能课程设计完成了对共享单车数据的分析和数据可视化,从中更加直观的反映不同月份,不同时间共享单车的使用情况,以及使用随机森林回归模型反应影响共享单车使用的因子的重要性。设计中通过直方图,曲线图等图表简练地反映了共享单车的使用情况。但由于数据集采用的年份较少,不能得到一个更加可信的参考结果,因此还需要更多年份的数据。影响共享单车使用还有地域等等客观因素,这些还没考虑周全,希望以后能完善对其的研究。设计中遇到的问题:1)normalize是标准化,另外你这里分别对训练和测试数据标准化是有问题的。分别处理会导致数据分布变得不一样。2)数据特征工程做的少,类别型特征没有处理。3)模型跑出来之后,完全没有结果的解析主要参考文献[1]加利福尼亚大学欧文分校(UCI)大学的公开数据集https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset,访问日期:2019年12月.[2]优易数据网站http://www.youedata.com/,访问时间:2019年12月[3]Python机器学习经典实例,PrateekJoshi著,陶俊杰,陈小莉译[4]《ProbabilisticGraphicalModels-PrinciplesandTechniques》Koller著[5]《IntroductiontoMathematicalStatistics》第六版,Hogg著[6]TwoFacesofActiveLearning50,Dasgupta,2011[7]ActiveLearningLiteratureSurvey8,Settles,2010[8]ASurveyofOnlineFailurePredictionMethods2,Salfner,2010[9]《统计学习方法》作者李航[10]《机器学习及其应用》周志华、杨强主编。[11]《数学之美》,作者吴军[12]《PatternClassification》(《模式分类》第二版)作者RichardO.Duda[5]、PeterE.Hart、David。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇