知识发现的主要方法人工智能知识发现的问题有哪些

发表时间：2023-07-17 19:18:40

知识发现的主要方法

知识发现的主要方法时间：2022-03-04理论教育版权反馈【摘要】：知识发现方法主要由人工智能、机器学习这两个领域中的相关方法发展而来。信息论方法是利用信息论的原理建立决策树。BACON发现系统完成了物理学中大量定律的重新发现。该系统所发现的公式比BACON系统发现的公式更宽些。在数据挖掘过程中，通过采用合适的知识表示方法将专家知识建模与组织，可以指导数据挖掘系统的运作。

6.3.4知识发现的主要方法

知识发现方法主要由人工智能、机器学习这两个领域中的相关方法发展而来。它将信息论方法、统计分析方法、模糊数学方法、知识处理方法相融合，形成了由归纳学习方法、仿生物技术方法、公式发现方法、统计分析方法、模糊数学方法以及基于知识的挖掘这六大类方法所构成的方法体系。

1.归纳学习方法

归纳学习方法依据事物的特征，执行归纳推理，产生描述一类数据对象的普遍特征的规则。归纳学习方法是目前重点研究的方向，研究成果较多。从所采用的技术上看，又可细分为两类:信息论方法和集合论方法，每类方法又包含多个具体实现方法。

(1)信息论方法。信息论方法是利用信息论的原理建立决策树。由于该方法最后获得的知识表示形式是决策树，故一般文献中称它为决策树方法。该类方法的实用效果好，影响较大。其中较有特色的实现方法有:

①ID3方法:ID3方法是利用信息论中互信息(信息增益)寻找数据库中具有最大信息量的字段，建立决策树的一个结点，再根据字段的不同取值建立树的分支，再由每个分支的数据子集重复建立树的下层结点和分支的过程，这样，就建立了决策树。ID3方法在国际上影响很大。继ID3方法以后，又陆续开发了ID4、IDS、C4.5等方法。

②IBLE方法:该方法利用信息论中的信道容量，寻找数据库中信息量从大到小的多个字段的取值建立决策规则树的一个结点，将该结点中指定字段取值的权值之和与两个阈值比较，建立左、中、右三个分支，在各分支子集中重复建树结点和分支，最终形成决策规则树。IBLE方法比ID3方法在识别率上提高了10%。

(2)集合论方法。集合论方法是开展研究较早的方法。近年来，由于粗集理论的发展使集合论方法得到了迅速的发展。这类方法包括:覆盖正例排斥反例的方法(如AQ系列方法)、概念树方法和粗集方法。

①覆盖正例排斥反例方法。它利用覆盖所有正例、排斥所有反例的思想来寻找规则。比较典型的是AQ系列方法。AQ系列的核心算法是在正例集中任选一个种子，与反例集中的元素逐个比较，相容则舍去，相斥则保留。按此思想循环所有正例种子，最终将得到正例集的规则。

②概念树方法。将数据库中的属性字段按归类方式合并后所建立起来的层次结构称为概念树。如“城市”概念树的最下层是具体市名或县名(如长沙、南京等)，它的直接上层是省名(湖南、江苏等)，省名的直接上层是国家行政区(华南、华东等)，再上层是国名。利用概念树提升的方法可以大大浓缩数据库中的记录。对多个属性字段的概念树提升，将得到高度概括的知识基表，再将它转换成规则。

③粗集方法。在数据库中将行元素看成对象，将列元素看成属性(分为条件属性和决策属性)。等价关系R定义为不同对象在某个(或几个)属性上取值相同，这些满足等价关系的对象组成的集合称为该等价关系R的等价类。条件属性上的等价类E与决策属性上的等价类Y之间有三种情况:下近似，Y包含E;上近似，Y和E的交非空;无关，Y和E的交为空。对下近似建立确定性规则，对上近似建立不确定性规则(含可信度)，对无关情况不存在规则。

2.仿生物技术方法

仿生物技术典型的方法是神经网络方法和遗传算法。这两类方法已经形成了独立的研究体系。它们在数据挖掘中也发挥了巨大的作用，我们将它们归并为仿生物技术类。

(1)神经网络方法。它模拟了人脑神经元结构，以MP模型和Hebb学习规则为基础，建立了三大类多种神经网络模型。

①前馈式网络。以感知机、BP反向传播模型、函数型网络为代表，可用于预测、模式识别等方面。

②反馈式网络。它以Hopfield的离散模型和连续模型为代表，分别用于联想记忆和优化计算。

③自组织网络。它以ART模型、Kohonen模型为代表，可用于聚类。

神经网络的知识体现在网络连接的权值上，是一个分布式矩阵结构。神经网络的学习体现在神经网络权值的逐步计算上(包括反复迭代计算或者是累加计算)。

(2)遗传算法。这是模拟生物进化过程的算法。它由三个基本算子组成:

①繁殖(选择)。从一个旧种群(父代)选择出生命力强的个体产生新种群(后代)的过程。

②交叉(重组)。选择两个不同个体(染色体)的部分(基因)进行交换，形成新个体。

③变异(突变)。对某些个体的某些基因进行变异(1变0，0变1)。

这种遗传算法起到了筛选、产生优良后代的作用。这些后代需要满足适应值，经过若干代的遗传，将得到满足要求的后代(问题的解)。遗传算法已在优化计算和分类机器学习方面显示了显著的效果。

3.公式发现方法

在工程和科学数据库(由实验数据组成)中对若干数据项(变量)进行一定的数学运算，求得相应的数学公式。

(1)物理定律发现系统BACON

BACON发现系统完成了物理学中大量定律的重新发现。它的基本思想是对数据项进行初等数学运算(加、减、乘、除等)形成组合数据项，若它的值为常数时，我们就得到了组合数据项等于常数的公式。

(2)经验公式发现系统FDD

基本思想是若对两个数据项交替取初等函数后与另一数据项的线性组合为直线，就找到了数据项(变量)的初等函数的线性组合公式。该系统所发现的公式比BACON系统发现的公式更宽些。

4.统计分析方法

利用统计学原理对数据库中的数据进行分析，主要分析方法如下:

①常用统计:求大量数据中的最大值、最小值、总和、平均值等。

②相关分析:求相关系数，度量变量间的相关程度。

③回归分析:求回归方程(线性或非线性)来表示变量间的数量关系。

④差异分析:从样本统计量的值得出差异，确定总体参数之间是否存在差异(假设检验)。

⑤聚类分析:直接比较样本中各样本之间的距离，将距离较近的归为一类，而将距离较远的分在不同类中。

⑥判别分析:建立一个或多个判别函数，并确定一个判别标准。对未知对象利用判别函数将它划归某一个类别。

5.模糊数学方法

利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。

6.基于知识的挖掘方法

目前，数据挖掘中开始引入了本体、知识抽取和知识组织等知识处理技术等，实现基于知识的挖掘。

(1)利用领域本体知识。数据挖掘所面临的对象是海量的数据，这些数据具有非常复杂的属性和关系，需要花费较长的处理时间探索并发现其中的规律知识。因此，应根据问题需要引入相关的领域知识，用于合理选择相关属性，进行多抽象层次、不同知识层面的语义挖掘，减少数据处理量，降低处理复杂属性关系时的难度，提高挖掘质量。本体作为领域知识的一种先进的表示方法，可帮助机器理解概念，消除数据的歧义性，实现概念的规范化和泛化，辅助挖掘进程从不同层次获取隐含的关联知识。

(2)利用用户知识。有效的数据挖掘过程需要让用户真正参与到挖掘过程中，将用户兴趣知识、背景知识、需求模型融入到系统中，通过用户与系统之间的反复交互约束、聚焦数据挖掘进程方向，并可以保证所发现知识的有效性和利用价值。

(3)利用专家知识。专家知识是执行专种任务的决策规则和技能，是专家在长期的生产实践中积累起来的财富。作为领域知识与具体问题解决方案相结合的产物，专家知识是系统执行各种推理、评价、判断的基础。在数据挖掘过程中，通过采用合适的知识表示方法将专家知识建模与组织，可以指导数据挖掘系统的运作。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

人工智能期末试题及答案

一单项选择题（每小题2分，共10分）

1.首次提出“人工智能”是在（D）年

A.1946 B.1960 C.1916 D.1956

2.人工智能应用研究的两个最重要最广泛领域为：B

A.专家系统、自动规划 B.专家系统、机器学习

C.机器学习、智能控制 D.机器学习、自然语言理解

3.下列不是知识表示法的是 A 。

A：计算机表示法 B：“与/或”图表示法

C：状态空间表示法 D：产生式规则表示法

4.下列关于不确定性知识描述错误的是 C 。

A：不确定性知识是不可以精确表示的

B：专家知识通常属于不确定性知识

C：不确定性知识是经过处理过的知识

D：不确定性知识的事实与结论的关系不是简单的“是”或“不是”。

5.下图是一个迷宫，S0是入口，Sg是出口，把入口作为初始节点，出口作为目标节点，通道作为分支，画出从入口S0出发，寻找出口Sg的状态树。根据深度优先搜索方法搜索的路径是 C 。

A：s0-s4-s5-s6-s9-sg B：s0-s4-s1-s2-s3-s6-s9-sg

C：s0-s4-s1-s2-s3-s5-s6-s8-s9-sg D：s0-s4-s7-s5-s6-s9-sg

二填空题（每空2分，共20分）

1.目前人工智能的主要学派有三家：符号主义、进化主义和连接主义。

2.问题的状态空间包含三种说明的集合，初始状态集合S、操作符集合F以及目标状态集合G。

3、启发式搜索中，利用一些线索来帮助足迹选择搜索方向，这些线索称为启发式(Heuristic)信息。

4、计算智能是人工智能研究的新内容，涉及神经计算、模糊计算和进化计算等。

5、不确定性推理主要有两种不确定性，即关于结论的不确定性和关于证据的不确定性。

三名称解释（每词4分，共20分）

人工智能专家系统遗传算法机器学习数据挖掘

答：

（1）人工智能

人工智能(ArtificialIntelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等

（2）专家系统

专家系统是一个含有大量的某个领域专家水平的知识与经验智能计算机程序系统,能够利用人类专家的知识和解决问题的方法来处理该领域问题.简而言之,专家系统是一种模拟人类专家解决领域问题的计算机程序系统

（3）遗传算法

遗传算法是一种以“电子束搜索”特点抑制搜索空间的计算量爆炸的搜索方法，它能以解空间的多点充分搜索，运用基因算法，反复交叉，以突变方式的操作，模拟事物内部多样性和对环境变化的高度适应性，其特点是操作性强，并能同时避免陷入局部极小点，使问题快速地全局收敛，是一类能将多个信息全局利用的自律分散系统。运用遗传算法(GA)等进化方法制成的可进化硬件(EHW)，可产生超出现有模型的技术综合及设计者能力的新颖电路，特别是GA独特的全局优化性能，使其自学习、自适应、自组织、自进化能力获得更充分的发挥，为在无人空间场所进行自动综合、扩展大规模并行处理(MPP)以及实时、灵活地配置、调用基于EPGA的函数级EHW，解决多维空间中不确定性的复杂问题开通了航向

（4）机器学习

机器学习(MachineLearning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎

（5）数据挖掘

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程，这些信息的表现形式为：规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据，并从中发现隐藏的关系和模式，进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。

四简答题（每小题5分，共30分）

1. 人工智能有哪些研究领域和应用领域？

答：（1）研究领域

自然语言处理，知识表现，智能搜索，推理，规划，机器学习，知识获取，组合调度问题，感知问题，模式识别，逻辑程序设计，软计算，不精确和不确定的管理，人工生命，神经网络，复杂系统，遗传算法

（2）应用领域

智能控制，机器人学，语言和图像理解，遗传编程

2. 简述模式识别的基本过程

答：（1）信息获取

（2）预处理：对获取信号进行规范化等各种处理（3）特征提取与选择：将识别样本构造成便于比较、分析的描述量即特征向量（4）分类器设计：由训练过程将训练样本提供的信息变为判别事物的判别函数（5）分类决策：对样本特征分量按判别函数的计算结果进行分类

3.状态空间法、谓词逻辑法和语义网络的要点分别是什么？

答：（1）状态空间法是以状态和算符为基础来表示和求解问题的，三个要点是：状态，算符，问题的状态空间

（2）谓词逻辑法要点：命题真值，论域与谓词，连接词和量词，项与合式公式，自由变元和约束变元

（3）语义网络要点：类属关系，包含关系，属性关系，时间关系，位置关系，相近关系，推论关系

4.简述Agent的定义和基本特征

答：（1）Agent定义：Agent指的是一种实体，而且是一种具有智能的实体。这种实体可以是智能软件、智能设备、智能机器人或智能计算机系统等等，甚至也可以是人

（2）Agent基本特征：

a.自主性

Agent具有属于其自身的计算资源和局部于自身的行为控制机制,能够在没有外界直接操纵的情况下,根据其内部状态和感知到的环境信息,决定和控制自身的行为。例如,SNMP中的agent就是独立运行在被管理单元上的自主进程。

b.交互性

Agent能够与其他Agent(包括人),用Agent通信语言实施灵活多样的交互,能够有效地与其他Agent协同工作。例如,一个Internet上的用户需要使用Agent通信语言向主动服务Agent陈述信息需求。

c.反应性

Agent能够感知所处的环境(可能是物理世界,操纵图形界面的用户,或其他Agent等),并对相关事件作出适时反应。例如,一个模拟飞机的Agent能够对用户的操纵作出适时反应。

d.主动性

Agent能够遵循承诺采取主动行动,表现出面向目标的行为。例如,一个Internet上的主动服务Agent,在获得新的信息之后能够按照约定主动将其提交给需要的用户;一个工作流管理Agent,能够按照约定将最新的工作进展情况主动通报给有关的工作站

5. 根据自己的理解给出人工神经网络的定义，并指出其特征。

答：（1）人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型（2）特征：a.非线性非线性关系是自然界的普遍特性。大脑智慧就是一种非线性现象。人工神经元处于激活或抑制二种不同的状态，这种行为在数学上表现为一种非线性关系。具有阈值的神经元构成的网络具有更好的性能，可以提高容错性和存储量

b.非局限性一个神经网络通常由多个神经元广泛连接而成。一个系统的整体行为不仅取决于单个神经元的特征，而且可能主要由单元之间的相互作用、相互连接所决定。通过单元之间的大量连接模拟大脑的非局限性。联想记忆是非局限性的典型例子

c.非常定性人工神经网络具有自适应、自组织、自学习能力。神经网络不但处理的信息可以有各种变化，而且在处理信息的同时，非线性动力系统本身也在不断变化。经常采用迭代过程描写动力系统的演化过程

d.非凸性一个系统的演化方向，在一定条件下将取决于某个特定的状态函数。例如能量函数，它的极值相应于系统比较稳定的状态。非凸性是指这种函数有多个极值，故系统具有多个较稳定的平衡态，这将导致系统演化的多样性

6. 有一个农夫带一只狐狸、一只小羊和一篮菜过河。假设农夫每次只能带一样东西过河，考虑安全，无农夫看管时，狐狸和小羊不能在一起，小羊和菜篮不能在一起。试设计求解该问题的状态空间，并画出状态空间图。

答：以变量m、f、s、v分别指示农夫、狐狸、小羊、菜,且每个变量只可取值1(表示在左岸)或0(表示在右岸)。问题状态可以四元组(m、f、s、v)描述,设初始状态下均在左岸,目标状态下都到达右岸。从而,问题求解任务可描述为(1,1,1,1)->(0,0,0,0)

由于问题简单,状态空间中可能的状态总数为2×2×2×2=16,由于要遵从安全限制,合法的状态只有(除初、目状态外): 1110，1101，1011，1010，0101，0001，0010，0100；不合法状态有:0111,1000,1100,0011,0110,1001

设计二类操作算子:Lx、Rx,x为m、f、s、v时分别指示农夫独自,带狐狸,带小羊,带菜过河；状态空间图如下所示.由于Lx和Rx是互逆操作,故而解答路径可有无数条,但最近的只有二条;都是7个操作步

五．综述题（20分）

1.（本题10分）对于八数码难题按下式定义估价函数：

f(x)=d(x)+h(x)

其中，d(x)为节点x的深度；h(x)是所有棋子偏离目标位置的曼哈顿距离（棋子偏离目标位置的水平距离和垂直距离和），例如下图所示的初始状态S0：8的曼哈顿距离为2；2的曼哈顿距离为1；1的曼哈顿距离为1；6的曼哈顿距离为1；h(S0)=5。

（1）用A*搜索法搜索目标，列出头三步搜索中的OPEN、CLOSED表的内容和当前扩展节点的f值。

（2）画出搜索树和当前扩展节点的f值。

解：（1）如下表

（2）搜索树如下图，右上角的数字是其估价函数值

2.(本题10)您认为《人工智能》课程的哪一部分内容对您的毕业设计或者您以后的工作特别有用？如果有，请叙述其原理；如果没有，请您谈谈人工智能的发展对人类有哪些的影响？

答：我认为人工智能的发展对人类的影响主要有以下五个方面

（1）劳务就业问题。由于人工智能能够代替人类进行各种脑力劳动，例如用专家系统代替管理人员或医生进行决策或诊断与治疗病人疾病，所以，将会使一部分人不得不改变他们的工种，甚至造成失业。人工智能在科技和工程中的应用，会使一些人失去介入信息处理活动(如规划、诊断、理解和决策等)的机会，甚至不得不改变自己的工作方式。

（2）社会结构变化。人们一方面希望人工智能和智能机器能够代替人类从事各种劳动，另一方面又担心它们的发展会引起新的社会问题。实际上，近十多年来，社会结构正在发生一种静悄悄的变化。

（3）思维方式与观念的变化。人工智能的发展与推广应用，将影响到人类的思维方式和传统观念，并使它们发生改变。过分地依赖计算机的建议而不加分析地接受，将会使智能机器用户的认知能力下降，并增加误解。

（4）心理上的威胁。人工智能还使一部分社会成员感到心理上的威胁，或叫做精神威胁。人们一般认为，只有人类才具有感知精神，而且以此与机器相别。如果有一天，这些人开始相信机器也能够思维和创作，那么他们可能会感到失望，甚至感到威胁。他们担心：有朝一日，智能机器的人工智能会超过人类的自然智能，使人类沦为智能机器和智能系统的奴隶。

（5）技术失控的危险。任何新技术最大危险莫过于人类对它失去了控制，或者是它落入那些企图利用新技术反对人类的人手中

知识发现的主要方法 人工智能知识发现的问题有哪些