大数据&人工智能学习路线(小白都可以看懂
大数据&人工智能学习路线先来看一个大数据网站所需用到的技术图学习技术Linux:大数据基础,hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,通常都是搭建在Linux操作系统之上。Hadoop:Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop是一个数据管理系统,作为数据分析的核心,汇集了结构化和非结构化的数据,这些数据分布在传统的企业数据栈的每一层。Hadoop也是一个大规模并行处理框架,拥有超级计算能力,定位于推动企业级应用的执行。Hadoop又是一个开源社区,主要为解决大数据的问题提供工具和软件。虽然Hadoop提供了很多功能,主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心组件构成,另外还包括Sqoop、Flume等框架,用来与其他企业融合。同时,Hadoop生态系统也在不断增长,新增Mahout、Ambari、Whirr、BigTop等内容,以提供更新功能。Zookeeper:Zookeeper是一个开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和HBASE的重要组件。主要解决分布式应用一致性问题。Mysql:MySQL是最流行的关系型数据库管理系统,在WEB应用方面MySQL是最好的RDBMS(RelationalDatabaseManagementSystem:关系数据库管理系统)应用软件之一。Sqoop:Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Hive:hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive是十分适合数据仓库的统计分析和Windows注册表文件。Oozie:Oozie由Cloudera公司贡献给Apache的基于工作流引擎的开源框架,是用于Hadoop平台的开源的工作流调度引擎,是用来管理Hadoop作业,属于web应用程序,由Oozieclient和OozieServer两个组件构成,OozieServer运行于JavaServlet容器(Tomcat)中的web程序。Hbase:HBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(FileSystem)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。Kafka:Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。Spark:ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载,可用来构建大型的、低延迟的数据分析应用程序。后续提高机器学习(MachineLearning,ML):机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。深度学习(DeepLearning,DL):深度学习(DL,DeepLearning)是机器学习(ML,MachineLearning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,ArtificialIntelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。参考文章[1].https://blog.csdn.net/qq_39658251/article/details/79782094[2].https://blog.csdn.net/duozhishidai/article/details/89556296[3].https://www.cnblogs.com/safelanding/p/11008529.html[4].https://baike.baidu.com/item/sqoop/5033853?fr=aladdin[5].https://www.runoob.com/mysql/mysql-tutorial.html[6].https://baike.baidu.com/item/hive/67986?fr=aladdin[7].https://www.cnblogs.com/cac2020/p/10509950.html[8].https://baike.baidu.com/item/HBase/7670213?fr=aladdin[9].https://baike.baidu.com/item/Kafka/17930165?fr=aladdin[10].https://baike.baidu.com/item/SPARK/2229312?fr=aladdin[11].https://baike.baidu.com/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/217599?fr=aladdin[12].https://baike.baidu.com/item/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/3729729?fr=aladdin
人工智能学习心得
第1篇第2篇第3篇第4篇第5篇更多顶部目录第一篇:人工智能学习心得第二篇:人工智能学习论文第三篇:《人工智能》学习报告第四篇:对人工智能学习的感想第五篇:人工智能学习更多相关范文正文第一篇:人工智能学习心得人工智能学习心得
对人工智能的理解
通过这学期的学习,我对人工智能有了一定的感性认识,个人觉得人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,心理学和哲学。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。人工智能的定义可以分为两部分,即“人工”和“智能”。“人工”比较好理解,争议性也不大。有时我们会要考虑什么是人力所能及制造的,或者人自身的智能程度有没有高到可以创造人工智能的地步,等等。但总的来说,“人工系统”就是通常意义下的人工系统。关于什么是“智能”,就问题多多了。这涉及到其它诸如意识、自我、思维等等问题。人唯一了解的智能是人本身的智能,这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限,对构成人的智能的必要元素也了解有限,所以就很难定义什么是“人工”制造的“智能”了。关于人工智能一个大家比较容易接受的定义是这样的:人工智能是人造的智能,是计算机科学、逻辑学、认知科学交叉形成的一门科学,简称ai。
人工智能的发展历史大致可以分为这几个阶段:
第一阶段:50年代人工智能的兴起和冷落
人工智能概念首次提出后,相继出现了一批显著的成果,如机器定理证明、跳棋程序、通用问题s求解程序、lisp表处理语言等。但由于消解法推理能力的有限,以及机器翻译等的失败,使人工智能走入了低谷。
第二阶段:60年代末到70年代,专家系统出现,使人工智能研究出现新高潮。dendral化学质谱分析系统、mycin疾病诊断和治疗系统、prospectior探矿系统、hearsay-ii语音理解系统等专家系统的研究和开发,将人工智能引向了实用化。并且,1969年成立了国际人工智能联合会议
第三阶段:80年代,随着第五代计算机的研制,人工智能得到了很大发展。日本1982年开始了”第五代计算机研制计划”,即”知识信息处理计算机系统kips”,其目的是使逻辑推理达到数值运算那么快。虽然此计划最终失败,但它的开展形成了一股研究人工智能的热潮。
第四阶段:80年代末,神经网络飞速发展。
1987年,美国召开第一次神经网络国际会议,宣告了这一新学科的诞生。此后,各国在神经网络方面的投资逐渐增加,神经网络迅速发展起来。
第五阶段:90年代,人工智能出现新的研究高潮
由于网络技术特别是国际互连网的技术发展,人工智能开始由单个智能主体研究转向基于网络环境下的分布式人工智能研究。不仅研究基于同一目标的分布式问题求解,而且研究多个智能主体的多目标问题求解,将人工智能更面向实用。另外,由于hopfield多层神经网络模型的提出,使人工神经网络研究与应用出现了欣欣向荣的景象。人工智能已深入到社会生活的各个领域。
对人工智能对世界的影响的感受及未来畅想
最近看了电影《黑客帝国》一系列,对其中的科幻生活有了很大的兴趣,不觉有了疑问:现在的世界是否会如电影中一样呢?人工智能的神话是否会发生
在当前社会中的呢?
在黑客帝国的世界里,程序员成为了耶稣,控制着整个世界,黑客帝国之所以成为经典,我认为,不是因为飞来飞去的超级人物,而是因为她暗自揭示了一个人与计算机世界的关系,一个发展趋势。谁知道200年以后会不会是智能机器统治了世界?
人类正向信息化的时代迈进,信息化是当前时代的主旋律。信息抽象结晶为知识,知识构成智能的基础。因此,信息化到知识化再到智能化,必将成为人类社会发展的趋势。人工智能已经并且广泛而有深入的结合到科学技术的各门学科和社会的各个领域中,她的概念,方法和技术正在各行各业广泛渗透。而在我们的身边,智能化的例子也屡见不鲜。在军事、工业和医学等领域中人工智能的应用已经显示出了它具有明显的经济效益潜力,和提升人们生活水平的最大便利性和先进性。
智能是一个宽泛的概念。智能是人类具有的特征之一。然而,对于什么是人类智能(或者说智力),科学界至今还没有给出令人满意的定义。有人从生物学角度定义为“中枢神经系统的功能”,有人从心理学角度定义为“进行抽象思维的能力”,甚至有人同义反复地把它定义为“获得能力的能力”,或者不求甚解地说它“就是智力测验所测量的那种东西”。这些都不能准确的说明人工智能的确切内涵。
虽然难于下定义,但人工智能的发展已经是当前信息化社会的迫切要求,同时研究人工智能也对探索人类自身智能的奥秘提供有益的帮助。所以每一次人工智能技术的进步都将带动计算机科学的大跨步前进。如果将现有的计算机技术、人工智能技术及自然科学的某些相关领域结合,并有一定的理论实践依据,计算机将拥有一个新的发展方向。
个人觉得研究人工智能的目的,一方面是要创造出具有智能的机器,另一方面是要弄清人类智能的本质,因此,人工智能既属于工程的范畴,又属于科学的范畴。通过研究和开发人工智能,可以辅助,部分替代甚至拓宽人类的智能,使计算机更好的造福人类。
人工智能研究的近期目标;是使现有的计算机不仅能做一般的数值计算及非数值信息的数据处理,而且能运用知识处理问题,能模拟人类的部分智能行为。按照这一目标,根据现行的计算机的特点研究实现智能的有关理论、技术和方法,建立相应的智能系统。例如目前研究开发的专家系统,机器翻译系统、模式识别系统、机器学习系统、机器人等。随着社会的发展,技术的进步,人工智能的发展是任何人都无法想象的。通过对人工智能的学习,以及与所听所见所闻的结合,我大胆的对未来人工智能的发展做出了以下拙劣的猜想:
一,融合阶段(2014—2014年):
1、在某些城市,立法机关将主要采用人工智能专家系统来制定新的法律。
2、人们可以用语言来操纵和控制智能化计算机、互联网、收音机、电视机和移动电话,远程医疗和远程保健等远程服务变得更为完善。
3、智能化计算机和互联网在教育中扮演了重要角色,远程教育十分普及。
4、随着信息技术、生物技术和纳米技术的发展,人工智能科学逐渐完善。
5、许多植入了芯片的人体组成了人体通信网络(以后甚至可以不用植入任何芯片)。比如,将微型超级计算机植入人脑,人们就可通过植入的芯片直接进行通信。
6、抗病毒程序可以防止各种非自然因素引发灾难。
7、随着人工智能的加速发展,新制定的法律不仅可以用来更好地保护人类健康,而且能大幅度提高全社会的文明水准。比如,法律可以保护人们免受电磁烟雾的侵害,可以规范家用机器人的使用,可以更加有效地保护数据,可以禁止计算机合成技术在一些文化和艺术方面的应用(比如禁止合成电视名人),可以禁止编写具有自我保护意识的计算机程序。
三、自我发展阶段(2014—2014年):
1、智能化计算机和互联网既能自我修复,也能自行进行科学研究,还能自己生产产品。
2、一些新型材料的出现,促使智能化向更高层次发展。
3、用可植入芯片实现人类、计算机和鲸目动物之间的直接通信,在以后的发展中甚至不用植入芯片也可实现此项功能。
4、制定“机器人法”等新的法律来约束机器人的行为,使人们不受机器人的侵害。
5、高水准的智能化技术可以使火星表面环境适合人类居住和发展。
四、升华阶段(2014—2014年):
1、信息化的世界进一步发展成全息模式的世界。
2、人工智能系统可从环境中采集全息信息,身处某地的人们可以更容易地了解和知晓其他地方的情况。
3、人们对一些目前无法解释的自然现象会有更清楚的认识和更完善的解释,并将这些全新的知识应用在医疗、保健和安全等领域。
4、人工智能可以模仿人类的智能,因此会出现有关法律来规范这些行为。人工智能一但拥有长足的进步,必将带动其他计算机技术的发展。网络化将虚拟的世界变得无限大,届时,足不出户将成为一种习惯。人工智能必将带动人类的发展,起到决定性作用。
虽然不知道其中有多少在未来会得到实现,但也算是我通过对人工智能的学习所收获的总结。人工智能的繁荣景象和光明前景已展示出其诱人的魅力,让我们一起期待未来的世界吧,一个全新的人工智能世界。
第二篇:人工智能学习论文20147932唐雪琴
人工智能研究最新进展综述
一、研究领域
在大多数数学科中存在着几个不同的研究领域,每个领域都有着特有的感兴趣的研究课题、研究技术和术语。在人工智能中,这样的领域包括自然语言处理、自动定理证明、自动程序设计、智能检索、智能调度、机器学习、专家系统、机器人学、智能控制、模式识别、视觉系统、神经网络、agent、计算智能、问题求解、人工生命、人工智能方法、程序设计语言等。
在过去50多年里,已经建立了一些具有人工智能的计算机系统;例如,能够求解微分方程的,下棋的,设计分析集成电路的,合成人类自然语言的,检索情报的,诊断疾病以及控制控制太空飞行器、地面移动机器人和水下机器人的具有不同程度人工智能的计算机系统。人工智能是一种外向型的学科,它不但要求研究它的人懂得人工智能的知识,而且要求有比较扎实的数学基础,哲学和生物学基础,只有这样才可能让一台什么也不知道的机器模拟人的思维。因为人工智能的研究领域十分广阔,它总的来说是面向应用的,也就说什么地方有人在工作,它就可以用在什么地方,因为人工智能的最根本目的还是要模拟人类的思维。参照人在各种活动中的功能,我们可以得到人工智能的领域也不过就是代替人的活动而已。哪个领域有人进行的智力活动,哪个领域就是人工智能研究的领域。人工智能就是为了应用机器的长处来帮助人类进行智力活动。人工智能研究的目的就是要模拟人类神经系统的功能。
二、各领域国内外研究现状(进展成果)近年来,人工智能的研究和应用出现了许多新的领域,它们是传统人工智能的延伸和扩展。在新世纪开始的时候,这些新研究已引起人们的更密切关注。这些新领域有分布式人工智能与艾真体(agent)、计算智能与进化计算、数据挖掘与知识发现,以及人工生命等。下面逐一加以概略介绍。
1、分布式人工智能与艾真体
分布式人工智能(distributedai,dai)是分布式计算与人工智能结合的结果。dai系统以鲁棒性作为控制系统质量的标准,并具有互操作性,即不同的异构系统在快速变化的环境中具有交换信息和协同工作的能力。
分布式人工智能的研究目标是要创建一种能够描述自然系统和社会系统的精确概念模型。dai中的智能并非独立存在的概念,只能在团体协作中实现,因而其主要研究问题是各艾真体间的合作与对话,包括分布式问题求解和多艾真体系统(multiagentsystem,mas)两领域。其中,分布式问题求解把一个具体的求解问题划分为多个相互合作和知识共享的模块或结点。多艾真体系统则研究各艾真体间智能行为的协调,包括规划、知识、技术和动作的协调。这两个研究领域都要研究知识、资源和控制的划分问题,但分布式问题求解往往含有一个全局的概念模型、问题和成功标准,而mas则含有多个局部的概念模型、问题和成功标准。
mas更能体现人类的社会智能,具有更大的灵活性和适应性,更适合开放和动
态的世界环境,因而倍受重视,已成为人工智能以至计算机科学和控制科学与工程的研究热点。当前,艾真体和mas的研究包括理论、体系结构、语言、合作与协调、通讯和交互技术、mas学习和应用等。mas已在自动驾驶、机器人导航、机场管理、电力管理和信息检索等方面获得应用。
2、计算智能与进化计算
计算智能(computingintelligence)涉及神经计算、模糊计算、进化计算等研究领域。其中,神经计算和模糊计算已有较长的研究历史,而进化计算则是较新的研究领域。在此仅对进化计算加以说明。
进化计算(evolutionarycomputation)是指一类以达尔文进化论为依据来设计、控制和优化人工系统的技术和方法的总称,它包括遗传算法(geneticalgorithms)、进化策略(evolutionarystrategies)和进化规划(evolutionaryprogramming)。它们遵循相同的指导思想,但彼此存在一定差别。同时,进化计算的研究关注学科的交叉和广泛的应用背景,因而引入了许多新的方法和特征,彼此间难于分类,这些都统称为进化计算方法。目前,进化计算被广泛运用于许多复杂系统的自适应控制和复杂优化问题等研究领域,如并行计算、机器学习、电路设计、神经网络、基于艾真体的仿真、元胞自动机等。
达尔文进化论是一种鲁棒的搜索和优化机制,对计算机科学,特别是对人工智能的发展产生了很大的影响。大多数生物体通过自然选择和有性生殖进行进化。自然选择决定了群体中哪些个体能够生存和繁殖,有性生殖保证了后代基因中的混合和重组。自然选择的原则是适者生存,即物竞天择,优胜劣汰。
直到几年前,遗传算法、进化规划、进化策略三个领域的研究才开始交流,并发现它们的共同理论基础是生物进化论。因此,把这三种方法统称为进化计算,而把相应的算法称为进化算法。
3、数据挖掘与知识发现
知识获取是知识信息处理的关键问题之一。20世纪80年代人们在知识发现方面取得了一定的进展。利用样本,通过归纳学习,或者与神经计算结合起来进行知识获取已有一些试验系统。数据挖掘和知识发现是90年代初期新崛起的一个活跃的研究领域。在数据库基础上实现的知识发现系统,通过综合运用统计学、粗糙集、模糊数学、机器学习和专家系统等多种学习手段和方法,从大量的数据中提炼出抽象的知识,从而揭示出蕴涵在这些数据背后的客观世界的内在联系和本质规律,实现知识的自动获取。这是一个富有挑战性、并具有广阔应用前景的研究课题。
从数据库获取知识,即从数据中挖掘并发现知识,首先要解决被发现知识的表达问题。最好的表达方式是自然语言,因为它是人类的思维和交流语言。知识表示的最根本问题就是如何形成用自然语言表达的概念。
机器知识发现始于1974年,并在此后十年中获得一些进展。这些进展往往与专家系统的知识获取研究有关。到20世纪80年代末,数据挖掘取得突破。越来越多的研究者加入到知识发现和数据挖掘的研究行列。现在,知识发现和数据挖掘已成为人工智能研究的又一热点。
比较成功的知识发现系统有用于超级市场商品数据分析、解释和报告的
coverstory系统,用于概念性数据分析和查寻感兴趣关系的集成化系统explora,交互式大型数据库分析工具kdw,用于自动分析大规模天空观测数据的skicat系统,以及通用的数据库知识发现系统kdd等。
4、人工生命
人工生命(artificiallife,alife)的概念是由美国圣菲研究所非线性研究组的兰顿(langton)于1987年提出的,旨在用计算机和精密机械等人工媒介生成或构造出能够表现自然生命系统行为特征的仿真系统或模型系统。自然生命系统行为具有自组织、自复制、自修复等特征以及形成这些特征的混沌动力学、进化和环境适应。
人工生命所研究的人造系统能够演示具有自然生命系统特征的行为,在“生命之所能”(lifeasitcouldbe)的广阔范围内深入研究“生命之所知”(lifeasweknowit)的实质。只有从“生命之所能”的广泛内容来考察生命,才能真正理解生物的本质。人工生命与生命的形式化基础有关。生物学从问题的顶层开始,把器官、组织、细胞、细胞膜,直到分子,以探索生命的奥秘和机理。人工生命则从问题的底层开始,把器官作为简单机构的宏观群体来考察,自底向上进行综合,把简单的由规则支配的对象构成更大的集合,并在交互作用中研究非线性系统的类似生命的全局动力学特性。
人工生命的理论和方法有别于传统人工智能和神经网络的理论和方法。人工生命把生命现象所体现的自适应机理通过计算机进行仿真,对相关非线性对象进行更真实的动态描述和动态特征研究。
人工生命学科的研究内容包括生命现象的仿生系统、人工建模与仿真、进化动力学、人工生命的计算理论、进化与学习综合系统以及人工生命的应用等。比较典型的人工生命研究有计算机病毒、计算机进程、进化机器人、自催化网络、细胞自动机、人工核苷酸和人工脑等。
三、学了人工智能课程的收获
(1)了解人工智能的概念和人工智能的发展,了解国际人工智能的主要流派和路线,了解国内人工智能研究的基本情况,熟悉人工智能的研究领域。
(2)较详细地论述知识表示的各种主要方法。重点掌握了状态空间法、问题归约法和谓词逻辑法,熟悉语义网络法,了解知识表示的其他方法,如框架法、剧本法、过程法等。
(3)掌握了盲目搜索和启发式搜索的基本原理和算法,特别是宽度优先搜索、深度优先搜索、等代价搜索、启发式搜索、有序搜索、a*算法等。了解博弈树搜索、遗传算法和模拟退火算法的基本方法。
(4)掌握了消解原理、规则演绎系统和产生式系统的技术、了解不确定性推理、非单调推理的概念。
(5)概括性地了解了人工智能的主要应用领域,如专家系统、机器学习、规划系统、自然语言理解和智能控制等。
(6)基本了解人工智能程序设计的语言和工具。
四、对人工智能研究的展望
对现代社会的影响有多大?工业领域,尤其是制造业,已成功地使用了人工智能技术,包括智能设计、虚拟制造、在线分析、智能调度、仿真和规划等。金融业,股票商利用智能系统辅助其分析,判断和决策;应用卡欺诈检测系统业已得到普遍应用。人工智能还渗透到人们的日常生活,cad,cam,cai,cap,cims等一系列智能产品给大家带来了极大的方便,它还改变了传统的通信方式,语音拨号,手写短信的智能手机越来越人性化。
人工智能还影响了你们的文化和娱乐生活,引发人们更深层次的精神和哲学层面的思考,从施瓦辛格主演的《终结者》系列,到基努.里维斯主演的《黑客帝国》系列以及斯皮尔伯格导演的《人工智能》,都有意无意的提出了同样的问题:我们应该如何看待人工智能?如何看待具有智能的机器?会不会有一天机器的智能将超过人的智能?问题的答案也许千差万别,我个人认为上述担心不太可能成为现实,因为我们理解人工智能并不是让它取代人类智能,而是让它模拟人类智能,从而更好地为人类服务。
当前人工智能技术发展迅速,新思想,新理论,新技术不断涌现,如模糊技术,模糊--神经网络,遗传算法,进化程序设计,混沌理论,人工生命,计算智能等。以agent概念为基础的分布式人工智能正在异军突起,特别是对于软件的开发,“面向agent技术”将是继“面向对象技术”后的又一突破。从万维网到人工智能的研究正在如火如荼的开展。
五、对课程的建议
(1)能够结合现在最新研究成果着重讲解重点知识,以及讲述在一些研究成
果中人工智能那些知识被应用。
(2)多推荐一些过于人工智能方面的电影,如:《终结者》系列、《黑客帝国》
系列、《人工智能》等,从而增加同学对这门课程学习的兴趣。
(3)条件允许的话,可以安排一些实验课程,让同学们自己制作一些简单的
作品,增强同学对人工智能的兴趣,加强同学之间的学习。
(4)课堂上多讲解一些人工智能在各个领域方面的应用,以及着重阐述一些
新的和正在研究的人工智能方法与技术,让同学们可以了解近期发展起来的方法和技术,在讲解时最好多举例,再结合原理进行讲解,更助于同学们对人工智能的理解。
第三篇:《人工智能》学习报告深圳大学硕士研究生课程作业—人工智能
《人工智能》学习报告
深圳大学机电与控制工程学院彭建柳
学号:0943010210
1.引言
人工智能(artificialintelligence,ai),曾经有一部电影,著名导演斯蒂文?斯皮尔伯格的科幻片《人工智能》(a.i.)对许多人的头脑又一次产生了震动,引起了一些人士了解并探索人工智能领域的兴趣。人工智能对于普通人来说是那样的可望而不可及,然而它却吸引了无数研究人员为之奉献才智,从美国的麻省理工学院(mit)、卡内基-梅隆大学(cmu)到ibm公司,再到日本的本田公司、sony公司以及国内的清华大学、中科院等科研院所,全世界的实验室都在进行着ai技术的实验。
一直以来,关于人工智能的理论,我一直认为是科学的前沿,理解起来较为飘渺。但是,从本学期《人工智能》课程的学习中,本人较系统的接触到了关于人工智能的理论,从有限的课程中,通过老师的详细介绍和查阅人工智能方面的书籍,学习了关于人工智能几个主要方面的知识,如模糊控制、专家系统、神经网络等。下面是本人关于人工智能理论的一些基本认识。
2.人工智能的形成与发展
说到人工智能,首先先认识下自动控制理论,自动控制理论从形成到发展至今,已经经历了六十多年的历程,其主要分为三个阶段:
第一阶段是40年代兴起的以调节原理为标志,称为经典控制理论阶段;
第二阶段是以60年代兴起的以状态空间为标志,称为现代控制理论阶段;
第三阶段是80年代兴起的智能控制理论阶段
智能控制是在控制论人工智能系统论和信息论等多学科的高度综合与集成,是一门新兴的交叉前沿学科。智能控制技术,即是在无人干预的情况下能自主地驱动智能机器实现控制目标的自动控制技术。对许多复杂的系统,难以建立有效的数学模型和用常规的控制理论去进行定量计算和分析,而必须采用定量方法与定性方法相结合的控制方式。定量方法与定性方法相结合的目的是,要由机器用类似于人的智慧和经验来引导求解过程。因此,在研究和设计智能系统时,主要注意力不放在数学公式的表达、计算和处理方面,而是放在对任
第1页共4页
务和现实模型的描述、符号和环境的识别以及知识库和推理机的开发上,即智能控制的关键问题不是设计常规控制器,而是研制智能机器的模型。此外,智能控制的核心在高层控制,即组织控制。高层控制是对实际环境或过程进行组织、决策和规划,以实现问题求解。为了完成这些任务,需要采用符号信息处理、启发式程序设计、知识表示、自动推理和决策等有关技术。这些问题求解过程与人脑的思维过程有一定的相似性,即具有一定程度的“智能”。
随着人工智能和计算机技术的发展,已经有可能把自动控制和人工智能以及系统科学中一些有关学科分支(如系统工程、系统学、运筹学、信息论)结合起来,建立一种适用于复杂系统的控制理论和技术。智能控制正是在这种条件下产生的。它是自动控制技术的最新发展阶段,也是用计算机模拟人类智能进行控制的研究领域。1965年,傅京孙首先提出把人工智能的启发式推理规则用于学习控制系统。1985年,在美国首次召开了智能控制学术讨论会。1987年又在美国召开了智能控制的首届国际学术会议,标志着智能控制作为一个新的学科分支得到承认。智能控制具有交叉学科和定量与定性相结合的分析方法和特点。
3.模糊控制
在传统的控制领域里,控制系统动态模式的精确与否是影响控制优劣的最主要关键,系统动态的信息越详细,则越能达到精确控制的目的。然而,对于复杂的系统,由于变量太多,往往难以正确的描述系统的动态,于是工程师便利用各种方法来简化系统动态,以达成控制的目的,但却不尽理想。换言之,传统的控制理论对于明确系统有强而有力的控制能力,但对于过于复杂或难以精确描述的系统,则显得无能为力了。因此便尝试着以模糊数学来处理这些控制问题。通过课堂中,导师生动的讲解,以及引用到生活当中鲜活的例子,如冰箱温度的模糊控制,智能汽车的行驶路线控制等等,充分的认识到,模糊控制在当今社会的应用已经很广泛,只是理论知识的缺乏而感觉不到它们的存在。
一般控制架构包括:定义变量、模糊化、知识库、逻辑判断及反模糊化,详细如下:
(1)定义变量:也就是决定程序被观察的状况及考虑控制的动作,例如在一般控制问题上,输入变量有输出误差e与输出误差之变化率ce,而控制变量
则为下一个状态之输入u。其中e、ce、u统称为模糊变量。
(2)模糊化(fuzzify):将输入值以适当的比例转换到论域的数值,利用口语化变量来描述测量物理量的过程,依适合的语言值(linguisitcvalue)求该值相对之隶属度,此口语化变量我们称之为模糊子集合(fuzzysubsets)。
(3)知识库:包括数据库(database)与规则库(rulebase)两部分,其中数据库是提供处理模糊数据之相关定义;而规则库则藉由一群语言控制规则描述控制目标和策略。
(4)逻辑判断:模仿人类下判断时的模糊概念,运用模糊逻辑和模糊推论法进行推论,而得到模糊控制讯号。此部分是模糊控制器的精髓所在。
(5)解模糊化(defuzzify):将推论所得到的模糊值转换为明确的控制讯号,做为系统的输入值。
模糊控制很重要的一点就是模糊规则的制定,其规则制定的来源主要由专家的经验和知识、操作员的操作模式、自学习提供。模糊规则的形式则分为状态评估和目标评估两种。但都是以模糊控制为基础,达到自动控制的目的。
4.专家系统
专家系统(expertsystem)是人工智能应用研究最活跃和最广泛的课题之
一。运用特定领域的专门知识,通过推理来模拟通常由人类专家才能解决的各种复杂的、具体的问题,达到与专家具有同等解决问题能力的计算机智能程序系统。它能对决策的过程作出解释,并有学习功能,即能自动增长解决问题所需的知识。
专家系统的发展已经历了3个阶段,正向第四代过渡和发展。第一代专家系统(dendral、macsyma等)以高度专业化、求解专门问题的能力强为特点。但在体系结构的完整性、可移植性等方面存在缺陷,求解问题的能力弱。第二代专家系统(mycin、casnet、prospector、hearsay等)属单学科专业型、应用型系统,其体系结构较完整,移植性方面也有所改善,而且在系统的人机接口、解释机制、知识获取技术、不确定推理技术、增强专家系统的知识表示和推理方法的启发性、通用性等方面都有所改进。第三代专家系统属多学科综合型系统,采用多种人工智能语言,综合采用各种知识表示方法和多种推理机制及控制策略,并开始运用各种知识工程语言、骨架系统及专家系统开发工具和
环境来研制大型综合专家系统。在总结前三代专家系统的设计方法和实现技术的基础上,已开始采用大型多专家协作系统、多种知识表示、综合知识库、自组织解题机制、多学科协同解题与并行推理、专家系统工具与环境、人工神经网络知识获取及学习机制等最新人工智能技术来实现具有多知识库、多主体的第四代专家系统。
对专家系统可以按不同的方法分类。通常,可以按应用领域、知识表示方法、控制策略、任务类型等分类。如按任务类型来划分,常见的有解释型、预测型、诊断型、调试型、维护型、规划型、设计型、监督型、控制型、教育型等。
简而言之,专家系统是一种模拟人类专家解决领域问题的计算机程序系统。
5.神经网络
由于神经网络是多学科交叉的产物,各个相关的学科领域对神经网络都有各自的看法,因此,关于神经网络的定义,在科学界存在许多不同的见解。目前使用得最广泛的是t.koholen的定义,即“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。”
人工神经网络是模拟人思维的第二种方式。这是一个非线性动力学系统,其特色在于信息的分布式存储和并行协同处理。虽然单个神经元的结构极其简单,功能有限,但大量神经元构成的网络系统所能实现的行为却是极其丰富多彩的。
6.小结
关于人工智能的学习,我现在所学习到的仅仅是皮毛。但对于一个刚刚接触人工智能学习的学生,了解如模糊控制、专家系统、神经网络等人工智能的知识入门尤为重要,为将来进一步学习人工智能的理论打下基础,并将理论应用于生活和工作当中,这才是学习的最终目的。
参考文献:
《人工智能控制》作者:蔡自兴,出版社:化学工业出版社,2014-7-1
第四篇:对人工智能学习的感想学校:
学院:班级:
姓名:学号:
谈谈人工智能的学习感想
人工智能(artificialintelligence),英文缩写为ai。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
人工智能技术导论这门课的学习,让我知道了人工智能从诞生发展到今天经历了一条漫长的路,许多科研人员为此而不懈努力。人工智能的开始可以追溯到电子学出现以前。象布尔和其他一些哲学家和数学家建立的理论原则后来成为人工智能逻辑学的基础。而人工智能真正引起研究者的兴趣则是1943年计算机发明以后的事。技术的发展最终使得人们可以仿真人类的智能行为,至少看起来不太遥远。接下来的四十年里,尽管碰到许多阻碍,人工智能仍然从最初只有十几个研究者成长到现在数以千计的工程师和专家在研究;从一开始只有一些下棋的小程序到现在的用于疾病诊断的专家系统,人工智能的发展有目共睹。
人工智能经过几十年的发展,其应用在不少领域得到发展,在我们的日常生活和学习当中也有许多地方得到应用。我通过网络查找,知道了以下领域的人工智能的发展。
1.机器翻译
机器翻译是利用计算机把一种自然语言转变成另一种自然语言的过程,用以完成这一过程的软件系统叫做机器翻译系统。几十年来,国内外许多专家、学者为机器翻译的研究付出了大量的心血和汗水。虽然至今还没有一个实用、全面、高质量的自动翻译系统出现,不过也取得了很大的进展,特别是作为人们的辅助翻译工具,机器翻译已经得到大多数人的认可。目前,国内的机器翻译软件不下百种,根据这些软件的翻译特点,大致可以分为三大类:词典翻译类、汉化翻译类和专业翻译类。词典类翻译软件代表是“金山词霸”了,堪称是多快好省的电子词典,它可以迅速查询英文单词或词组的词义,并提供单词的发音,为用户了解单词或词组含义提供了极大的便利。汉化翻译软件的典型代表是“东方快车2014”,它首先提出了“智能汉化”的概念,使翻译软件的辅助翻译作用更加明显。以“译星”、“雅信译霸”为代表的专业翻译系统,是面对专业或行业用户的翻译软件,但其专业翻译的质量与人们的实用性还有不少差距,有人评价说“满篇英文难不住,满篇中文看不懂”,该说法虽然比较极端,但机译译文的质量确实却一直是个老大难问题。这里,我们不妨对现有的机译和人译过程作一比较,从中可以看出一些原因。
机器翻译:
1.一句一句处理,上下文缺乏联系;
2.对源语言的分析只是求解句法关系,完全不是意义上的理解;
3.缺乏领域知识,从计算机到医学,从化工到法律都通用,就换专业词典;
4.译文转换是基于源语言的句法结构的,受源语言的句法结构的束缚;
5.翻译只是句法结构的和词汇的机械对应。
人工翻译:
1.一般会先通读全文,会前后照应;
2.对源语言是求得意义上的理解;
3.只有专业翻译人员,而没有万能翻译人员;
4.译文是基于他对源语言的理解,不受源语言的句法结构的束缚;
5.翻译是一个再创造的过程。
在目前的情况下,计算机辅助翻译应该是一个比较好的实际选择。事实上,在很多领域中,计算机辅助人类工作的方式已经得到了广泛的应用,例如cad软件。如果计算机辅助技术用于语言的翻译研究,应该同样可以起到很大的辅助作用,这就是所谓的“计算机辅助翻译”。它集机器记忆式翻译、语法分析式翻译和人际交互式翻译为一体,把翻译过程中机械、重复、琐碎的工作交给计算机来完成。这样,翻译者只需将精力集中在创造性的思考上,有利于工作效率的提高。
机器翻译研究归根结底是一个知识处理问题,它涉及到有关语言内的知识、语言间的知识、以及语言外的世界知识,其中包括常识和相关领域的专门知识。随着因特网的普及与发展,机器翻译的应用前景十分广阔。作为人类探索自己智能和操作知识的机制的窗口,机器翻译的研究与应用将更加诱人。国际上有关专家分析认为机器翻译要想达到类似人工翻译一样的流畅程度,至少还要经历15年时间的持续研究,但在人类对语言研究还没有清楚“人脑是如何进行语言的模糊识别和判断”的情况下,机器翻译要想达到100%的准确率是不可能的。
2.专家系统
专家系统是一种模拟人类专家解决领域问题的计算机程序系统。专家系统内部含有大量的某个领域的专家水平的知识与经验,能够运用人类专家的知识和解决问题的方法进行推理和判断,模拟人类专家的决策过程,来解决该领域的复杂问题。专家系统是人工智能应用研究最活跃和最广泛的应用领域之一,涉及到社会各个方面,各种专家系统已遍布各个专业领域,取得很大的成功。根据专家系统处理的问题的类型,把专家系统分为解释型、诊断型、调试型、维修型、教育型、预测型、规划型、设计型和控制型等10种类型。具体应用就很多了,例如血液凝结疾病诊断系统、电话电缆维护专家系统、花布图案设计和花布印染专家系统等等。
为了实现专家系统,必须要存储有该专门领域中经过事先总结、分析并按某种模式表示的专家知识(组成知识库),以及拥有类似于领域专家解决实际问题的推理机制(构成推理机)。系统能对输入信息进行处理,并运用知识进行推理,做出决策和判断,其解决问题的水平达到或接近专家的水平,因此能起到专家或专家助手的作用。
开发专家系统的关键是表示和运用专家知识,即来自领域专家的己被证明对解决有关领域内的典型问题有用的事实和过程。目前,专家系统主要采用基于规则的知识表示和推理技术。由于领域的知识更多是不精确或不确定的,因此,不确定的知识表示与知识推理是专家系统开发与研究的重要课题。此外,专家系统开发工具的研制发展也很迅速,这对扩大专家系统的应用范围,加快专家系统的开发过程,将起到积极地促进作用。随着计算机科学技术整体水平的提高,分布式专家系统、协同式专家系统等新一代专家系统的研究也发展很快。在新一代专家系统中,不但采用基于规则的推理方法,而且采用了诸如人工神经网络的方法与技术。
3.符号计算
计算机最主要的用途之一就是科学计算,科学计算可分为两类:一类是纯数值的计算,例如求函数的值,方程的数值解,比如天气预报、油藏模拟、航天等领域;。另一类是符号计算,又称代数运算,这是一种智能化的计算,处理的是符号。符号可以代表整数、有理数、实数和复数,也可以代表多项式,函数,集合等。。长期以来,人们一直盼望有一个可以进行符号计算的计算机软件系统。。早在50年代末,人们就开始对此研究。。进入80年代后,随着计算机的普及和人工智能的发展,相继出现了多
种功能齐全的计算机代数系统软件,其中mathematica和maple是它们的代表,由于它们都是用c语言写成的,所以可以在绝大多数计算机上使用。。mathematica是第一个将符号运算,数值计算和图形显示很好地结合在一起的数学软件,用户能够方便地用它进行多种形式的数学处理。
计算机代数系统的优越性主要在于它能够进行大规模的代数运算。。通常我们用笔和纸进行代数运算只能处理符号较少的算式,当算式的符号上升到百位数后,手工计算就很困难了,这时用计算机代数系统进行运算就可以做到准确,快捷,有效。。现在符号计算软件有一些共同的特点就是在可以进行符号运算、数值计算和图形显示等同时,还具有高效的可编程功能。在操作界面上一般都支持交互式处理,人们通过键盘输入命令,计算机处理后即显示结果。并且人机界面友好,命令输入方便灵活,很容易寻求帮助。
尽管计算机代数系统在代替人繁琐的符号运算上有着无比的优越性,但是,计算机毕竟是机器,它只能执行人们给它的指令,有一定的局限性。首先,多数计算机代数系统对计算机硬件有较高的要求,在进行符号运算时,通常需要很大的内存和较长的计算时间,而精确的代数运算以时间和空间为代价的。第二个问题是用计算机代数系统进行数值计算,虽然计算精度可以到任意位,但由于计算机代数系统是用软件本身浮点运算代替硬件算术运算,所以在速度要比用fortran语言算同样的问题慢百倍甚至千倍。另外,虽然计算机代数系统包含大量的数学知识,但这仅仅是数学中的一小部分,目前仍有许多数学领域未能被计算机代数系统涉及。计算机代数系统仍在不断地发展、完善之中。
如今,人工智能研究出现了新的高潮,这一方面是因为在人工智能理论方面有了新的进展,另一方面也是因为计算机硬件突飞猛进的发展。随着计算机速度的不断提高、存储容量的不断扩大、价格的不断降低以及网络技术的不断发展,许多原来无法完成的工作现在已经能够实现。
人工智能的学习,让我明白了人工智能始终处于计算机发展的最前沿。高级计算机语言、计算机界面及文字处理器的存在或多或少都得归功于人工智能的研究。人工智能研究带来的理论和洞察力指引了计算技术发展的未来方向。现有的人工智能产品相对于即将到来的人工智能应用可以说微不足道,但是它们预示着人工智能的未来。将来我们会对人工智有能更高层次的需求,人工智能也会继续影响我们的工作、学习和生活,我们也要支持人工智能的发展!
第五篇:人工智能学习人工智能学习-知识要点总结[nirvana发表于2014-1-213:32:24]
人工智能是在计算机科学、控制论、信息论、神经心理学、哲学、语言学等多种学科研究的基础上发展起来的,是一门综合性边缘学科,延伸人脑的功能,实现了脑力劳动的自动化。
1、认知科学认为智能的核心是思维,知识阙值理论认为智能行为取决于知识的数量及其一般化程度,智能就是在巨大搜索空间中迅速找到一个满意解的能力;进化理论的核心是用控制取代表示,取消概念、模型及显示表示知识,否定抽象对于智能及智能模拟的必要性,强调分结构对于智能进化的可能性与必要性。综合上述观点,认为智能是知识与智力的总和,具有如下特征:
(1)记忆与思维能力,(2)学习能力及自适应能力,(3)行为能力。
人工智能是人造智能,是一门研究如何构造智能机器(智能计算机)或智能系统,使它能模拟、延伸、扩展人类智能的学科。通过图灵测试可以判断一个系统是否具有智能和智能的水平。
人工智能研究内容:
(1)机器感知(2)机器思维(3)机器学习(4)机器行为(5)智能系统构造技术
人工智能研究途径:
(1)符号处理(2)网络连接机制(3)系统集成
2、知识是智能的基础,对人工智能的研究必须以知识为中心来进行,由于对知识的表示、利用、获取等的研究取得较大进展,特别是不确定性知识表示与推理取得的突破,建立了主观bayes理论、确定性理论、证据理论、可能性理论,对人工智能其他领域(如模式识别,自然语言理解等)的发展提供了支持。数据是信息的载体和表示,信息是数据在特定场合的具体含义,信息是数据的语义;把有关信息关联在一起所形成的信息结构叫知识。具有:相对正确性,不确定性,可表示性,可利用性等特征;按作用范围分为常识性知识,领域性知识;按作用及表示分为事实性知识,过程性知识,控制性知识。按确定性分为确定性知识,不确定性知识;按结构及表现形式分为逻辑性知识,形象性知识;从抽象的,整体的观点来划分可分为零级知识,一级知识,二级知识。知识表示方法总体上分为符号表(转载请注明来源:www.HaOWOrd.coM)示法,连接机制表示法;目前用得较多的知识表示方法主要有:一阶谓词逻辑表示,产生式,框架,语义网络,脚本,过程,petrio网,面向对象表示法。选择知识表示法时,要注意以下几个方面:
(1)充分表示领域知识(2)有利于对知识的利用(3)便于对知识的组织、维护与管理(4)便于理解和实现
3、产生式系统构成:规则库,控制系统,综合数据库。综合数据库中已知事实表示:(特性对象值可信度因子)控制系统的求解过程是一个不断地从规则库中选取可用规则与综合数据库中已知事实进行匹配的过程。产生式系统分类:按推理方向分为前向、后向和双向产生式系统;按表示知识的确定性可分为确定性及不确定性产生式系统;按数据库性质及结构特征进行分类为可交换的产生式系统,可分解的产生式系统,可恢复的产生式系统。框架是一种描述所论对象属性的数据结构,由槽结构组成,槽分为若干侧面。问题求解主要通过匹配和填槽实现的;产生式表示法主要用于描述事物间的因果关系,框架表示法主要用于描述事物内部结构及事物间的类属关系。语义网络是通过概念及其语义关系来表达知识的一种网络图。一个过程规则包括激发条件,演绎操作,状态转换及返回四个部分。
4、推理就是按某种策略由已知判断推出另一判断的思维过程。按从新判断推出的途径来划分,推理可分为演绎推理、归纳推理和默认推理;按所用知识确定性分为确定性推理,不确定性推理;按推出的结论是否单调地增加来划分为单调推理,非单调推理;按是否运用与问题有关的启发性知识分为启发式推理,非启发式推理;按基于方法的分为基于知识的推理,统计推理,直觉推理。推理的控制策略:推理方向,搜索策略,冲突消解策略,求解策略和限制策略。推理方向可确定推理的驱动方式:正向推理,逆向推理,混合推理及双向推理。
从一组已知为真的事实出发,直接运用经典逻辑的推理规则推出结论的过程称为自然演绎推理,基本推理规则是p规则,t规则,假言推理,拒绝式推理等:
p规则:任何步骤可引入前提a
t规则:前面步骤有一个或多个公式永真蕴涵公式s,可引入s
假言推理:p,p—>q=>q
拒绝式推理:p—>q,非q=>非p
归结演绎推理中,空字句是不满足的,因此归结的目标是通过归结使字句集中包含空字句,从而证明原命题的不可满足性。归结式是亲本字句的逻辑结论。
不确定性推理是从不确定性的初始证据出发,通过运用不确定性的知识,最终推出具有一定程度的不确定性但却是合理或者近乎合理的理论的思维过程。
不确定推理的基本问题:推理方向,推理方法,控制策略,不确定性的表示和度量,不确定性匹配,不确定性传递算法,不确定性的合成。
知识的不确定性称为知识的静态强度;证据的不确定性称为动态强度
5、组合证据的不确定性算法:
最大最小方法
概率方法
有界方法
不确定性传递算法:
结论不确定性的合成:
6、主观bayes方法:
(1)知识不确定性表示(产生式规则):
(2)证据不确定性表示:
(3)组合证据不确定性的算法:
(4)不确定性传递算法:
(5)结论不确定性的合成算法:
7、可信度方法:(c-f模型是基于可信度表示的不确定性推理的基本方法)
在可信度推理方法中的c-f模型里,可信度cf(h,e)的含义是:cf(h,e)>0表示e的出现增加了h的可信度;cf(h,e)=0表示e的出现与h可信度无关;cf(h,e)=bel(a),bel(a)表示对a为真的信任程度,pl(a)表示对a为非假的信任程度。pl(a)-bel(a)表示对a不知道的程度,即既非对a信任又不信任的那部分。
知识的不确定表示:ifethenh={h1,h2,…,hn}cf={c1,c2,…,cn}cf是可信度因子
含有模糊概念、模糊数据或带有确信程度的语句称为模糊命题。一般表示形式为:
xisa(cf)x是论域上的变量,a是模糊数,cf是该模糊命题的确信程度或
相应事件发生的可能性程度。
10、人工智能解决的问题:结构不良,非结构化;盲目搜索按预定的控制策略进行搜索,在搜索过程中获得的中间信息不用来改进控制策略;启发式搜索加入了与问题有关的启发性信息,用以指导搜索朝着最有希望的方向前进,加速问题的求解过程并找到最优解。
状态空间表示法:(s,f,g)
11、专家系统就是一种在相关领域中具有专家水平解题能力的智能程序系统,它能运用领域专家多年积累的经验与专门知识,模拟人类专家的思维过程,求解需要专家才能解决的困难问题。
特征:专家知识,有效推理,获取知识能力,灵活性,透明性,交互性,复杂性
专家系统与常规计算机程序比较:*
(1)常规程序=数据结构+算法,专家系统=知识+推理
(2)常规程序分为数据级+程序级,专家系统数据级+知识库级+控制级
(3)常规程序面向数值计算和数据处理,专家系统本质上是面向符号处理的
(4)常规程序处理的数据多是精确的,专家系统处理不精确,模糊知识
(5)解释功能
(6)都是程序系统
12、机器学习是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断改善性能,实现自我完善:
三个方面的研究内容:(1)学习机理研究(2)学习方法研究(3)面向任务研究
学习系统是指能够在一定程度上实现机器学习的系统,能够从某个过程或环境的未知特征中学到有关信息,并且能把学到的信息用于未来的估计、分类、决策或控制,以便改进系统的性能。在结构上主要包括:学习环境,学习机构,执行与评估机构和知识库四个部分;各种符号学习方法中推理能力最强的学习方法是机械式学习,推理能力最弱的方法是观察和发现,神经网络学习获得的知识被存储在神经元之间的连接中。
学习系统具有的条件能力:
(1)具有适当的学习环境
(2)具有一定学习能力
(3)能应用学到的知识求解问题
(4)能提高系统的性能
推荐更多范文:人工智能学习资料
人工智能心得体会
人工智能
人工智能
人工智能
大数据:发展现状与未来趋势
中国特色社会主义进入新时代,实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略,吹响了加快发展数字经济、建设数字中国的号角。习近平总书记在十九届中共中央政治局第二次集体学习时的重要讲话中指出:“大数据是信息化发展的新阶段”,并做出了“推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升国家治理现代化水平、运用大数据促进保障和改善民生、切实保障国家数据安全”的战略部署,为我国构筑大数据时代国家综合竞争新优势指明了方向!
今天,我拟回顾大数据的发端、发展和现状,研判大数据的未来趋势,简述我国大数据发展的态势,并汇报我对信息化新阶段和数字经济的认识,以及对我国发展大数据的若干思考和建议。
一、大数据的发端与发展
从文明之初的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而,直到以电子计算机为代表的现代信息技术出现后,为数据处理提供了自动的方法和手段,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源。
“大数据”作为一种概念和思潮由计算领域发端,之后逐渐延伸到科学和商业领域。大多数学者认为,“大数据”这一概念最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰·马西(John Mashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“Big Data(大数据)”来描述这一挑战,在计算领域引发思考。2007年,数据库领域的先驱人物吉姆·格雷(Jim Gray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。2012年,牛津大学教授维克托·迈尔-舍恩伯格(Viktor Mayer-Schnberger)在其畅销著作《大数据时代(Big Data: A Revolution That Will Transform How We Live,Work,and Think)》中指出,数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。
大数据于2012、2013年达到其宣传高潮,2014年后概念体系逐渐成形,对其认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展,逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善,其发展热点呈现了从技术向应用、再向治理的逐渐迁移。经过多年来的发展和沉淀,人们对大数据已经形成基本共识:大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。
大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。就理论上而言,在足够小的时间和空间尺度上,对现实世界数字化,可以构造一个现实世界的数字虚拟映像,这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下,对这个数字虚拟映像的深度分析,将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。
二、大数据的现状与趋势
全球范围内,研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面对当前大数据的现状与趋势进行梳理。
一是已有众多成功的大数据应用,但就其效果和深度而言,当前大数据应用尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。
按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。第一层,描述性分析应用,是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。第二层,预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个,准确率达87.5%。第三层,指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。
当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次分析应用偏少。一般而言,人们做出决策的流程通常包括:认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如:第一层次的描述性分析中,计算机仅负责将与现状相关的信息和知识展现给人类专家,而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深,计算机承担的任务越多、越复杂,效率提升也越大,价值也越大。然而,随着研究应用的不断深入,人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。因此,虽然应用层次最深的决策指导性应用,当前已在人机博弈等非关键性领域取得较好应用效果,但是,在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密关联的领域,要真正获得有效应用,仍面临一系列待解决的重大基础理论和核心技术挑战。在此之前,人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着,虽然已有很多成功的大数据应用案例,但还远未达到我们的预期,大数据应用仍处于初级阶段。未来,随着应用领域的拓展、技术的提升、数据共享开放机制的完善,以及产业生态的成熟,具有更大潜在价值的预测性和指导性应用将是发展的重点。
二是大数据治理体系远未形成,特别是隐私保护、数据安全与数据共享利用效率之间尚存在明显矛盾,成为制约大数据发展的重要短板,各界已经意识到构建大数据治理体系的重要意义,相关的研究与实践将持续加强。
随着大数据作为战略资源的地位日益凸显,人们越来越强烈地意识到制约大数据发展最大的短板之一就是:数据治理体系远未形成,如数据资产地位的确立尚未达成共识,数据的确权、流通和管控面临多重挑战;数据壁垒广泛存在,阻碍了数据的共享和开放;法律法规发展滞后,导致大数据应用存在安全与隐私风险;等等。如此种种因素,制约了数据资源中所蕴含价值的挖掘与转化。
其中,隐私、安全与共享利用之间的矛盾问题尤为凸显。一方面,数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展,主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言,往往靠自身的积累难以聚集足够的高质量数据。另外,大数据应用的威力,在很多情况下源于对多源数据的综合融合和深度分析,从而获得从不同角度观察、认知事物的全方位视图。而单个系统、组织的数据往往仅包含事物某个片面、局部的信息,因此,只有通过共享开放和数据跨域流通才能建立信息完整的数据集。
然而,另一方面,数据的无序流通与共享,又可能导致隐私保护和数据安全方面的重大风险,必须对其加以规范和限制。例如,鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题,欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(General Data Protection Regulation,GDPR),并于2018年5月25日正式生效。《条例》生效后,Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款,并被推上舆论的风口浪尖。2020年1月1日,被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)将正式生效。CCPA规定了新的消费者权利,旨在加强消费者隐私权和数据安全保护,涉及企业收集的个人信息的访问、删除和共享,企业负有保护个人信息的责任,消费者控制并拥有其个人信息,这是美国目前最具典型意义的州隐私立法,提高了美国保护隐私的标准。在这种情况下,过去利用互联网平台中心化搜集用户数据,实现平台化的精准营销的这一典型互联网商业模式将面临重大挑战。
我国在个人信息保护方面也开展了较长时间的工作,针对互联网环境下的个人信息保护,制定了《全国人民代表大会常务委员会关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《全国人民代表大会常务委员会关于维护互联网安全的决定》和《消费者权益保护法》等相关法律文件。特别是2016年11月7日,全国人大常委会通过的《中华人民共和国网络安全法》中明确了对个人信息收集、使用及保护的要求,并规定了个人对其个人信息进行更正或删除的权利。2019年,中央网信办发布了《数据安全管理办法(征求意见稿)》,向社会公开征求意见,明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。然而,从体系化、确保一致性、避免碎片化考虑,制订专门的数据安全法、个人信息保护法是必要的。
另一方面,我们也应看到,这些法律法规也将在客观上不可避免地增加数据流通的成本、降低数据综合利用的效率。如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下,不因噎废食,不对大数据价值的挖掘利用造成过分的负面影响,是当前全世界在数据治理中面临的共同课题。
近年来,围绕大数据治理这一主题及其相关问题,国际上已有不少成功的实践和研究探索工作,诸如在国家层面推出的促进数据共享开放、保障数据安全和保护公民隐私的相关政策和法规,针对企业机构的数据管理能力评估和改善,面向数据质量保证的方法与技术,促进数据互操作的技术规范和标准等。然而,考察当前的研究和实践,仍存在三个方面的主要问题。
一是大数据治理概念的使用相对“狭义”,研究和实践大都以企业组织为对象,仅从个体组织的角度考虑大数据治理的相关问题,这与大数据跨界流动的迫切需求存在矛盾,限制了大数据价值的发挥。二是现有研究实践对大数据治理内涵的理解尚未形成共识,不同研究者从流程设计、信息治理和数据管理应用等不同视角,给出了大数据治理的不同定义,共识的形成尚有待时日!三是大数据治理相关的研究实践多条线索并行,关联性、完整性和一致性不足。诸如,国家层面的政策法规和法律制定等较少被纳入大数据治理的视角;数据作为一种资产的地位仍未通过法律法规予以确立,难以进行有效的管理和应用;大数据管理已有不少可用技术与产品,但还缺乏完善的多层级管理体制和高效管理机制;如何有机结合技术与标准,建立良好的大数据共享与开放环境仍需要进一步探索。缺少系统化设计,仅仅在已有的相关体系上进行扩展和延伸,可能会导致数据治理的“碎片化”和一致性缺失等等。
当前,各界已经普遍认识到了大数据治理的重要意义,大数据治理体系建设已经成为大数据发展重点,但仍处在发展的雏形阶段,推进大数据治理体系建设将是未来较长一段时间内需要持续努力的方向。
三是数据规模高速增长,现有技术体系难以满足大数据应用的需求,大数据理论与技术远未成熟,未来信息技术体系将需要颠覆式创新和变革。
近年来,数据规模呈几何级数高速成长。据国际信息技术咨询企业国际数据公司(IDC)的报告,2020年全球数据存储量将达到44ZB(1021),到2030年将达到2500ZB。当前,需要处理的数据量已经大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”。据国际商业机器公司(IBM)的研究报告估计,大多数企业仅对其所有数据的1%进行了分析应用。
近年来,大数据获取、存储、管理、处理、分析等相关的技术已有显著进展,但是大数据技术体系尚不完善,大数据基础理论的研究仍处于萌芽期。首先,大数据定义虽已达成初步共识,但许多本质问题仍存在争议,例如:数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等;其次,针对特定数据集和特定问题域已有不少专用解决方案,是否有可能形成“通用”或“领域通用”的统一技术体系,仍有待未来的技术发展给出答案;其三,应用超前于理论和技术发展,数据分析的结论往往缺乏坚实的理论基础,对这些结论的使用仍需保持谨慎态度。
推演信息技术的未来发展趋势,较长时期内仍将保持渐进式发展态势,随技术发展带来的数据处理能力的提升将远远落后于按指数增长模式快速递增的数据体量,数据处理能力与数据资源规模之间的“剪刀差”将随时间持续扩大,大数据现象将长期存在。在此背景下,大数据现象倒逼技术变革,将使得信息技术体系进行一次重构,这也带来了颠覆式发展的机遇。例如,计算机体系结构以数据为中心的宏观走向和存算一体的微观走向,软件定义方法论的广泛采用,云边端融合的新型计算模式等;网络通信向宽带、移动、泛在发展,海量数据的快速传输和汇聚带来的网络的Pb/s级带宽需求,千亿级设备联网带来的Gb/s级高密度泛在移动接入需求;大数据的时空复杂度亟需在表示、组织、处理和分析等方面的基础性原理性突破,高性能、高时效、高吞吐等极端化需求呼唤基础器件的创新和变革;软硬件开源开放趋势导致产业发展生态的重构;等等。
三、大数据与数字经济
大数据是信息技术发展的必然产物,更是信息化进程的新阶段,其发展推动了数字经济的形成与繁荣。信息化已经历了两次高速发展的浪潮,始于上世纪80年代,随个人计算机大规模普及应用所带来的以单机应用为主要特征的数字化(信息化1.0),及始于上世纪90年代中期,随互联网大规模商用进程所推动的以联网应用为主要特征的网络化(信息化2.0)。当前,我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化3.0)。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数字化、网络化和智能化呈融合发展新态势。
在信息化发展历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现能力,通过多源数据的融合分析呈现信息应用的类人智能,帮助人类更好地认知复杂事物和解决问题。
信息化新阶段开启的另一个重要表征是信息技术开始从助力经济发展的辅助工具向引领经济发展的核心引擎转变,进而催生一种新的经济范式—“数字经济”。数字经济是指以数字化知识和信息为关键生产要素、以现代信息网络为重要载体、以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动,是以新一代信息技术和产业为依托,继农业经济、工业经济之后的新经济形态。从构成上看,农业经济属单层结构,以农业为主,配合以其他行业,以人力、畜力和自然力为动力,使用手工工具,以家庭为单位自给自足,社会分工不明显,行业间相对独立;工业经济是两层结构,即提供能源动力和行业制造设备的装备制造产业,以及工业化后的各行各业,并形成分工合作的工业体系。数字经济则可分为三个层次:提供核心动能的信息技术及其装备产业、深度信息化的各行各业以及跨行业数据融合应用的数据增值产业。当前,数字经济正处于成型展开期,将进入信息技术引领经济发展的爆发期、黄金期!
从另一个视角来看,如果说过去20多年,互联网高速发展引发了一场社会经济的“革命”,深刻地改变了人类社会,现在可以看到,互联网革命的上半场已经结束。上半场的主要特征是“2C”(面向最终用户),主战场是面向个人提供社交、购物、教育、娱乐等服务,可称为“消费互联网”。而互联网革命的下半场正在开启,其主要特征将是“2B”(面向组织机构),重点在于促进供给侧的深刻变革,互联网应用将面向各行业,特别是制造业,以优化资源配置、提质增效为目标,构建以工业物联为基础和工业大数据为要素的工业互联网。作为互联网发展的新领域,工业互联网是新一代信息技术与生产技术深度融合的产物,它通过人、机、物的深度互联,全要素、全产业链、全价值链的全面链接,推动形成新的工业生产制造和服务体系。当前,新一轮工业革命正在拉开帷幕,在全球范围内不断颠覆传统制造模式、生产组织方式和产业形态,而我国正处于由数量和规模扩张向质量和效益提升转变的关键期,需要抓住历史机遇期,促进新旧动能转换,形成竞争新优势。我国是制造大国和互联网大国,推动工业互联网创新发展具备丰富的应用场景、广阔的市场空间和巨大的推进动力。
数字经济未来发展呈现如下趋势:一是以互联网为核心的新一代信息技术正逐步演化为人类社会经济活动的基础设施,并将对原有的物理基础设施完成深度信息化改造和软件定义,在其支撑下,人类极大地突破了沟通和协作的时空约束,推动平台经济、共享经济等新经济模式快速发展。以平台经济中的零售平台为例,百货大楼在前互联网时代对促进零售业发展起到了重要作用。而从上世纪九十年代中后期开始,伴随互联网的普及,电子商务平台逐渐兴起。与要求供需方必须在同一时空达成交易的百货大楼不同,电子商务平台依托互联网,将遍布全球各个角落的消费者、供货方连接在一起,并聚合物流、支付、信用管理等配套服务,突破了时空约束,大幅减少了中间环节,降低了交易成本,提高了交易效率。按阿里研究院的报告,过去十年间,中国电子商务规模增长了10倍,并呈加速发展趋势。二是各行业工业互联网的构建将促进各种业态围绕信息化主线深度协作、融合,在完成自身提升变革的同时,不断催生新的业态,并使一些传统业态走向消亡。如随着无人驾驶汽车技术的成熟和应用,传统出租车业态将可能面临消亡。其他很多重复性的、对创新创意要求不高的传统行业也将退出历史舞台。2017年10月,《纽约客》杂志报道了剑桥大学两名研究者对未来365种职业被信息技术淘汰的可能性分析,其中电话推销员、打字员、会计等职业高居榜首。三是在信息化理念和政务大数据的支撑下,政府的综合管理服务能力和政务服务的便捷性持续提升,公众积极参与社会治理,形成共策共商共治的良好生态。四是信息技术体系将完成蜕变升华式的重构,释放出远超当前的技术能力,从而使蕴含在大数据中的巨大价值得以充分释放,带来数字经济的爆发式增长。
四、我国大数据发展的态势
党的十八届五中全会将大数据上升为国家战略。回顾过去几年的发展,我国大数据发展可总结为:“进步长足,基础渐厚;喧嚣已逝,理性回归;成果丰硕,短板仍在;势头强劲,前景光明”。
作为人口大国和制造大国,我国数据产生能力巨大,大数据资源极为丰富。随着数字中国建设的推进,各行业的数据资源采集、应用能力不断提升,将会导致更快更多的数据积累。预计到2020年,我国数据总量有望达到8000EB(1018),占全球数据总量的21%,将成为名列前茅的数据资源大国和全球数据中心。
我国互联网大数据领域发展态势良好,市场化程度较高,一些互联网公司建成了具有国际领先水平的大数据存储与处理平台,并在移动支付、网络征信、电子商务等应用领域取得国际先进甚至领先的重要进展。然而,大数据与实体经济融合还远不够,行业大数据应用的广度和深度明显不足,生态系统亟待形成和发展。
随着政务信息化的不断发展,各级政府积累了大量与公众生产生活息息相关的信息系统和数据,并成为最具价值数据的保有者。如何盘活这些数据,更好地支撑政府决策和便民服务,进而引领促进大数据事业发展,是事关全局的关键。2015年9月,国务院发布《促进大数据发展行动纲要》,其中重要任务之一就是“加快政府数据开放共享,推动资源整合,提升治理能力”,并明确了时间节点,2017年跨部门数据资源共享共用格局基本形成;2018年建成政府主导的数据共享开放平台,打通政府部门、企事业单位间的数据壁垒,并在部分领域开展应用试点;2020年实现政府数据集的普遍开放。随后,国务院和国务院办公厅又陆续印发了系列文件,推进政务信息资源共享管理、政务信息系统整合共享、互联网+政务服务试点、政务服务一网一门一次改革等,推进跨层级、跨地域、跨系统、跨部门、跨业务的政务信息系统整合、互联、协同和数据共享,用政务大数据支撑“放管服”改革落地,建设数字政府和智慧政府。目前,我国政务领域的数据开放共享已取得了重要进展和明显效果。例如:浙江省推出的“最多跑一次”改革,是推进供给侧结构性改革、落实“放管服”改革、优化营商环境的重要举措。以衢州市不动产交易为例,通过设立综合窗口再造业务流程,群众由原来跑国土、住建、税务3个窗口8次提交3套材料,变为只跑综合窗口1个窗口1次提交1套材料,效率大幅提高。据有关统计,截至2019年上半年,我国已有82个省级、副省级和地级政府上线了数据开放平台,涉及41.93%的省级行政区、66.67%的副省级城市和18.55%的地级城市。
我国已经具备加快技术创新的良好基础。在科研投入方面,前期通过国家科技计划在大规模集群计算、服务器、处理器芯片、基础软件等方面系统性部署了研发任务,成绩斐然。“十三五”期间在国家重点研发计划中实施了“云计算和大数据”重点专项。当前科技创新2030大数据重大项目正在紧锣密鼓地筹划、部署中。我国在大数据内存计算、协处理芯片、分析方法等方面突破了一些关键技术,特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平;在大数据存储、处理方面,研发了一些重要产品,有效地支撑了大数据应用;国内互联网公司推出的大数据平台和服务,处理能力跻身世界前列。
国家大数据战略实施以来,地方政府纷纷响应联动、积极谋划布局。国家发改委组织建设11个国家大数据工程实验室,为大数据领域相关技术创新提供支撑和服务。发改委、工信部、中央网信办联合批复贵州、上海、京津冀、珠三角等8个综合试验区,正在加快建设。各地方政府纷纷出台促进大数据发展的指导政策、发展方案、专项政策和规章制度等,使大数据发展呈蓬勃之势。
然而,我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。
一是大数据治理体系尚待构建。首先,法律法规滞后。目前,我国尚无真正意义上的数据管理法规,只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容,难以满足快速增长的数据管理需求。其次,共享开放程度低。推动数据资源共享开放,将有利于打通不同部门和系统的壁垒,促进数据流转,形成覆盖全面的大数据资源,为大数据分析应用奠定基础。我国政府机构和公共部门已经掌握巨大的数据资源,但存在“不愿”、“不敢”和“不会”共享开放的问题。例如:在“最多跑一次”改革中,由于技术人员缺乏,政务业务流程优化不足,涉及部门多、链条长,长期以来多头管理、各自为政等问题,导致很多地区、乡镇的综合性窗口难建立、数据难流动、业务系统难协调。同时,由于办事流程不规范,网上办事大厅指南五花八门,以至于同一个县市办理同一项事件,需要的材料、需要集成的数据在各乡镇的政务审批系统里却各有不同,造成群众不能一次性获得准确的相关信息而需要“跑多次”。当前,我国的政务数据共享开放进程,相对于《行动纲要》明确的时间节点,已明显落后,且数据质量堪忧。不少地方的政务数据开放平台,仍然存在标准不统一、数据不完整、不好用甚至不可用等问题。政务数据共享开放意义重大,仍需要坚持不懈地持续推进。此外,在数据共享与开放的实施过程中,各地还存在片面强调数据物理集中的“一刀切”现象,对已有信息化建设投资保护不足,造成新的浪费。第三,安全隐患增多。近年来,数据安全和隐私数据泄露事件频发,凸显大数据发展面临的严峻挑战。在大数据环境下,数据在采集、存储、跨境跨系统流转、利用、交易和销毁等环节的全生命周期过程中,所有权与管理权分离,真假难辨,多系统、多环节的信息隐性留存,导致数据跨境跨系统流转追踪难、控制难,数据确权和可信销毁也更加困难。
二是核心技术薄弱。基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题,大数据时代需避免此问题在新一轮发展中再次出现。近年来,我国在大数据应用领域取得较大进展,但是基础理论、核心器件和算法、软件等层面,较之美国等技术发达国家仍明显落后。在大数据管理、处理系统与工具方面,我国主要依赖国外开源社区的开源软件,然而,由于我国对国际开源社区的影响力较弱,导致对大数据技术生态缺乏自主可控能力,成为制约我国大数据产业发展和国际化运营的重大隐患。
三是融合应用有待深化。我国大数据与实体经济融合不够深入,主要问题表现在:基础设施配置不到位,数据采集难度大;缺乏有效引导与支撑,实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。当前,工业互联网成为互联网发展的新领域,然而仍存在不少问题:政府热、企业冷,政府时有“项目式”、“运动式”推进,而企业由于没看到直接、快捷的好处,接受度低;设备设施的数字化率和联网率偏低;大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统,而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位,这些企业纷纷推出相应的工业互联网平台,抢占工业领域的大数据基础服务市场。
五、若干思考和建议
最后,我想基于自己在大数据领域的研究实践,汇报若干思考和建议。一家之见,仅供参考。
(一)大力发展行业大数据应用
当前,我国互联网领域的大数据应用市场化程度高、发展较好,但行业应用广度和深度明显不足,生态系统亟待形成和发展。事实上,与实体经济紧密结合的行业大数据应用蕴含了更加巨大的发展潜力和价值。以制造业为例,麦肯锡研究报告称:制造企业在利用大数据技术后,其生产成本能够降低10%—15%。而大数据技术对制造业的影响远非成本这一个方面。利用源于产品生命周期中市场、设计、制造、服务、再利用等各个环节数据,制造业企业可以更加精细、个性化地了解客户需求;建立更加精益化、柔性化、智能化的生产系统;创造包括销售产品、服务、价值等多样的商业模式;并实现从应激式到预防式的工业系统运转管理模式的转变。制造业是国民经济不可或缺的一环,也是一个国家竞争力背后的强大力量支撑。我国制造业位居世界第一,却大而不强。企业创新能力不足,高端和高价值产品欠缺,在国际产业分工中处于中低端,大力推动制造业大数据应用的发展,对产业升级转型至关重要。
当前,我国不同行业领域正在积极推进数字化转型、网络化重构、智能化提升,推动行业大数据应用,也是推进数字中国建设的重要途径和基础。
(二)建立系统全面的大数据治理体系
大数据是数字经济的关键要素,强大的信息技术产业和全面深度信息化赋能的传统行业无疑是数字经济的基础!大数据治理须从营造大数据产业发展环境的视角予以全面、系统化考虑!
我以为,在一国之范围内,大数据治理体系建设涉及国家、行业和组织三个层次,至少包含数据的资产地位确立、管理体制机制、共享与开放、安全与隐私保护等四方面内容,需要从制度法规、标准规范、应用实践和支撑技术等视角多管齐下,提供支撑。
在国家层次,重点是要在法律法规层面明确数据的资产地位,奠定数据确权、流通、交易和保护的基础,制定促进数据共享开放的政策法规和标准规范,促进政务数据和行业数据的融合应用,并且出台数据安全与隐私保护的法律法规,保障国家、组织和个人的数据安全。在行业层次,重点是要在国家相关法律法规框架下,充分考虑本行业中企业的共同利益与长效发展,建立规范行业数据管理的组织机构和数据管控制度,制定行业内数据共享与开放的规则和技术规范,促进行业内数据的共享交换和融合应用。在组织层次,重点是要提升企业对数据全生命期的管理能力,促进企业内部和企业间的数据流通,提升数据变现能力,保障企业自身的数据安全及客户的数据安全和隐私信息。
在数据治理体系建设中,数据共享开放是大数据资源建设的前提,在现阶段重要性尤其突出。在平衡数据共享开放和隐私保护、数据安全的关系时,我以为,还是需要强调应用先行、安全并重的原则。数据共享开放不应被孤立看待,可能需要综合考虑数据的使用场合及数据主体的权益。如,数据集中管理可能带来保管上的安全问题,然而数据融合才能产生价值,一定程度的集中是趋势所在,也更利于建立更强大可靠的保护机制;多源数据的融合可能导致信息泄露,然而在确知风险前,是否需要因其“可能性”而拒绝技术的应用?数据脱敏仍然可能存在隐私泄露的风险,是否允许个体在知情前提下“用隐私换方便”、“用隐私换治疗换健康”?是否允许使用符合当前“标准”、但无法确保未来一定不出现信息泄露的脱敏方法,并对相关应用予以免责?当然,加强兼顾隐私保护、数据安全和数据流动利用的新技术研发,也非常必要。当前,如安全多方计算、同态加密、联邦学习等技术研发,希望允许拥有数据的各方在不向其他组织或个人公开数据中所含敏感信息的情况下,实现数据的融合利用。虽然这些技术尚处于发展的初级阶段,但因其广阔的应用前景而受到普遍关注。
另外,打破信息孤岛、盘活数据存量是当前一项紧迫的任务,而在此过程中,不宜过分强调物理集中,而应将逻辑互联作为打通信息“孤岛”的手段,逻辑互联先行,物理集中跟进。在数据共享体系建设中,需要在一定层级上构建物理分散、逻辑统一、管控可信、标准一致的政务信息资源共享交换体系,在不改变现有信息系统与数据资源的所有权及管理格局的前提下,明晰责权利,即:数据应用部门提需求、数据拥有部门做响应、交换平台管理部门保流转。同时,集约化的政务云建设正成为政府、企业建设新的信息系统的首选方案,如何在新一轮建设热潮中,从规划、立项审批、建设、审计等环节以及方案指导、标准规范和技术支持等方面给予全方位保障,尽可能避免新“孤岛”的产生,也是一项重大挑战。
(三)以开源为基础构建自主可控的大数据产业生态
在大数据时代,软件开源和硬件开放已成为不可逆的趋势,掌控开源生态,已成为国际产业竞争的焦点。建议采用“参与融入、蓄势引领”的开源推进策略,一方面鼓励我国企业积极“参与融入”国际成熟的开源社区,争取话语权;另一方面,也要在建设基于中文的开源社区方面加大投入,汇聚国内软硬件资源和开源人才,打造自主可控开源生态,在学习实践中逐渐成长壮大,伺机实现引领发展。中文开源社区的建设,需要国家在开源相关政策法规和开源基金会制度建立方面给予支持。此外,在开源背景下,对“自主可控”的内涵定义也有待更新,不一定强调硬件设计和软件代码的所有权,更多应体现在对硬件设计方案和软件代码的理解、掌握、改进及应用能力。
(四)积极推动国际合作并筹划布局跨国数据共享机制
2018年11月17日,习近平总书记在APEC工商领导人峰会上发表主旨演讲指出“经济全球化是人类社会发展必经之路”,“各国都是全球合作链条中的一环”。在数字经济快速发展的时代背景下,我国应该积极推动在大数据技术和应用方面的国际合作,建立跨国数据共享机制,与其他国家一起分享数字经济的红利,同时也使我国获得更多发展机遇和更大发展空间,积极促进数字经济下人类利益共同体和命运共同体的构建。当前,我国正在积极推动“一带一路”合作发展。各国在合作的各个领域都将产生大量的数据。建议积极推进跨国的大数据治理合作,在保障数据安全的前提下,促进数据跨境流动,从而形成围绕国家合作各个领域的大数据资源,为数字经济领域的国际合作奠定坚实的基础。“一带一路”沿线大都属发展中国家,无论技术还是经济水平较之发达国家都有明显差距。而数字经济这一新经济形态的成型发展将带给包括中国在内的各发展中国家经济转型发展的历史性机遇期。经济后发国家有机会在新经济的全球垄断性格局形成之前,与发达国家站在同一起跑线上,并且由于没有“路径依赖”所带来的历史包袱,也有可能在新一轮的竞争中占有优势。
(五)未雨绸缪,防范大数据发展可能带来的新风险
大数据发展可能导致一系列新的风险。例如,数据垄断可能导致数据“黑洞”现象。一些企业凭借先发展起来的行业优势,不断获取行业数据,但却“有收无放”,呈现出数据垄断的趋势。这种数据垄断不仅不利于行业的健康发展,而且有可能对国家安全带来冲击和影响。又如,数据和算法可能导致人们对其过分“依赖”及社会“被割裂”等伦理问题。大数据分析算法根据各种数据推测用户的偏好并推荐内容,在带来便利的同时,也导致人们只看到自己“希望看到的”信息,从而使人群被割裂为多个相互之间难以沟通、理解的群体,其可能引发的社会问题将是难以“亡羊补牢”的。
需要看到,以互联网为代表的新一代信息技术所带来的这场社会经济“革命”,在广度、深度和速度上都将是空前的,也会是远远超出我们从工业社会获得的常识和认知、远远超出我们的预期的,适应信息社会的个体素质的养成、满足未来各种新兴业态就业需求的合格劳动者的培养,将是我们面临的巨大挑战!唯有全民提升对大数据的正确认知,具备用大数据思维认识和解决问题的基本素质和能力,才有可能积极防范大数据带来的新风险;唯有加快培养适应未来需求的合格人才,才有可能在数字经济时代形成国家的综合竞争力。
我的汇报结束,谢谢大家!
(主讲人系中国人民解放军军事科学院副院长)
名词解释:
API:应用编程接口(Application Programming Interface)的首字母缩写,是指某软件系统或平台为其他应用软件系统提供的一组函数,通过调用这些函数,其他应用软件系统可以使用此软件系统或平台的部分功能或访问某些数据。
开源平台:“开源”是开放源代码的简称,开源平台是指支持开源社区活动,管理开放源代码,向所有开源社区参与者提供相关服务的软件平台(平台基于互联网构建并通过互联网通过服务)。任何人都可以获得开源软件的源代码并加以修改,并在某个预先约定的开源协议限制范围内发布修改后的新版本。结合上下文,这里的开源平台是指提供大数据管理、处理、分析等方面能力的开源软件的软件平台。
可伸缩的计算体系结构:可伸缩英文为scalable,指一个计算系统的能力和性能随应用负载的增加,通过极少的改动或配置甚至只是简单的硬件资源增加,而保持线性增长的能力,是表征计算系统处理能力的一个重要的设计指标。可伸缩的计算体系结构是计算系统体系结构设计追求的重要指标,软件定义、虚拟化、资源池化等方法和技术常用于可伸缩性的实现。
鲁棒性:鲁棒是英文Robust的音译,也就是健壮的意思,因此鲁棒性也被翻译为健壮性。鲁棒性一般用于描述一个系统在异常或极端情况下仍然可以工作的能力。结合上下文,这里谈及的大数据分析模型的鲁棒性是指在数据存在错误、噪音、缺失,甚至在恶意数据攻击等异常情况下,模型仍然能得到较为准确结论的能力。
数据互操作:数据互操作是指不同信息系统之间可以通过网络连接对彼此的数据进行访问,包括对其他系统数据的读取与写入。数据互操作是实现数据共享的基础。
“全数据”:“全数据”也称“全量数据”,是与“采样数据”相对的概念。传统的数据分析受限于数据采集、存储、处理的成本,一般都仅对问题相关的所有数据进行局部采样,并基于采样获得的部分数据进行分析,得出结论,结论的准确性与采样方法以及对被采样数据的统计假设密切相关。而大数据时代,人们开始提出“全数据”的概念,即,并不采样,而是将与问题相关的所有数据全部输入到分析模型中分析。这种方法避免了因采样而可能带来的误差,但是也增加了计算成本。
云边端融合:云是指云计算中心,边是指边缘计算设备,端是指终端设备。以智能家居为例,智能电视、冰箱、空调等直接与用户交互的设备是“端”,通过互联网连接的异地的云计算平台是“云”,而安装在每个家庭的智能家居中控服务器是“边”。云计算中心具有强大的计算存储能力,一般用于复杂的数据计算处理;终端设备距离最终用户较近,对用户的操作响应快,一般负责与用户进行交互;边缘计算设备介于“云”和“端”之间,负责对端所采集的数据做本地化处理,同时将需要更强大计算能力支持的任务和数据发往云计算中心处理,并将“云”返回的结果提供给端设备。云边端融合是一种“云”、“边”、“端”不同计算设备各司其职,密切协同且优势互补的新型计算模式。
宽带、移动、泛在的网络通信:“宽带”是指通信速率高,海量大数据的高速传输需求推动骨干网络向Pb/s发展;“移动”是指移动通信;“泛在”是指无所不在。宽带、移动、泛在通信是指:未来大量移动终端和物联网设备通过无所不在的接入网络接入主干网并通过高速主干网络进行通信。
安全多方计算:安全多方计算是为解决在保护隐私信息以及没有可信第三方的前提下,一组互不信任的参与方之间的协同计算问题而提出的理论框架。安全多方计算能够同时确保输入的隐私性和计算的正确性,在无可信第三方的前提下通过数学理论保证参与计算的各方成员输入信息不暴露,且同时能够获得准确的运算结果。此项技术的研究尚处于初级阶段。
同态加密:同态加密是一种密码学技术,其核心在于保证:对经过同态加密的数据进行处理(如:运行某种数据分析算法)后得到输出,将这一输出进行解密,其结果与用同一方法(即上述数据分析算法)处理未加密的原始数据得到的输出结果一致。同态加密技术使得数据拥有者可以将数据加密后交给第三方处理,从第三方获得处理结果后,对此结果进行解密便可获得所期望的结果。如此一来,数据拥有者就不必担心因将原始数据交给第三方而存在的隐私泄露风险,同时又能获得第三方提供的数据分析服务。此项技术的研究尚处于初级阶段。
联邦学习:联邦机器学习是一个多组织协同的机器学习框架,使得一个组织在不共享原始数据的情况下,可以利用其他组织数据中所蕴含的信息和知识,建立协同的机器学习模型。此模型比各组织仅利用本组织内部数据而训练的机器学习模型有更高的性能。此项技术的研究尚处于初级阶段。
ZB、EB、Pb/s、Gb/s:在计算机领域,一个二进制位称为一个比特,一般用小写b表示;而8个二进制位称一个字节,用大写B表示。简言之:1B=8b。计算数据量或数据所需存储空间大小时,习惯用字节为单位(用B表示)。1KB=1024B,1MB=1024KB,1GB=1024MB(通常简记为109),1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB。1EB约等于10亿GB,而1ZB约等于1万亿GB。假设一首长为3分钟的歌曲录制成MP3文件(44K/320kbps音质),大小约为8MB,那么1ZB的数据存储空间可存储MP3格式歌曲140万亿多首,如果全部听一遍,需要8亿多年。计算网络传输速率时习惯上用比特每秒为单位(用b/s表示)。1Pb/S和1Gb/S分别代表1秒钟传输的数据是1P(1000万亿)个比特和1G(10亿)个比特。网络速率1Gb/S(此处是小写b)的情况下,下载一个2GB(此处是大写B)的电影,需要16秒;而网络速率1Pb/S的情况下,仅需要0.016毫秒。