数据预处理与特征工程总结人工智能数据预处理工作总结

发表时间：2023-07-09 13:08:57

数据预处理与特征工程总结

根据菜菜的课程进行整理，方便记忆理解

代码位置如下：

Embedded嵌入法

嵌入法是一种让算法自己决定使用哪些特征的方法，即特征选择和算法训练同时进行

在使用嵌入法时，

先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从大到小选择特征（这些权值系数往往代表了特征对于模型的某种贡献或某种重要性）我们就可以基于这种贡献的评估，找出对模型建立最有用的特征。相比于过滤法，嵌入法的结果会更加精确到模型的效用本身，对于提高模型效力有更好的效果考虑特征对模型的贡献，因此无关的特征（需要相关性过滤的特征）和无区分度的特征（需要方差过滤的特征）都会因为缺乏对模型的贡献而被删除掉，可谓是过滤法的进化版

缺点过滤法中使用的统计量可以使用统计知识和常识来查找范围（如p值应当低于显著性水平0.05），而嵌入法中使用的权值系数却没有这样的范围可找——我们可以说，权值系数为0的特征对模型丝毫没有作用，但当大量特征都对模型有贡献且贡献不一时，我们就很难去界定一个有效的临界值。这种情况下，模型权值系数就是我们的超参数，我们或许需要学习曲线，或者根据模型本身的某些性质去判断这个超参数的最佳值究竟应该是多少。探究随机森林和决策树模型的嵌入法。嵌入法引入了算法来挑选特征，因此其计算速度也会和应用的算法有很大的关系。如果采用计算量很大，计算缓慢的算法，嵌入法本身也会非常耗时耗力。并且，在选择完毕之后，我们还是需要自己来评估模型。feature_selection.SelectFromModel

classsklearn.feature_selection.SelectFromModel(estimator,threshold=None,prefit=False,norm_order=1,max_features=None)

SelectFromModel是一个元变换器，可以与任何在拟合后具有coef_，feature_importances_属性或参数中可选惩罚项的评估器一起使用（比如随机森林和树模型就具有属性feature_importances_，逻辑回归就带有l1和l2惩罚项，线性支持向量机也支持l2惩罚项）。对于有feature_importances_的模型来说，若重要性低于提供的阈值参数，则认为这些特征不重要并被移除。feature_importances_的取值范围是[0,1]，如果设置阈值很小，比如0.001，就可以删除那些对标签预测完全没贡献的特征。如果设置得很接近1，可能只有一两个特征能够被留下。使用惩罚项的模型的嵌入法而对于使用惩罚项的模型来说，正则化惩罚项越大，特征在模型中对应的系数就会越小。当正则化惩罚项大到一定的程度的时候，部分特征系数会变成0，当正则化惩罚项继续增大到一定程度时，所有的特征系数都会趋于0。但是我们会发现一部分特征系数会更容易先变成0，这部分系数就是可以筛掉的。也就是说，我们选择特征系数较大的特征。支持向量机和逻辑回归使用参数C来控制返回的特征矩阵的稀疏性，参数C越小，返回的特征越少。Lasso回归，用alpha参数来控制返回的特征矩阵，alpha的值越大，返回的特征越少。参数说明estimator使用的模型评估器，只要是带feature_importances_或者coef_属性，或带有l1和l2惩罚项的模型都可以使用threshold特征重要性的阈值，重要性低于这个阈值的特征都将被删除prefit默认False，判断是否将实例化后的模型直接传递给构造函数。如果为True，则必须直接调用fit和transform，不能使用fit_transform，并且SelectFromModel不能与cross_val_score，GridSearchCV和克隆估计器的类似实用程序一起使用。norm_orderk可输入非零整数，正无穷，负无穷，默认值为1在评估器的coef_属性高于一维的情况下，用于过滤低于阈值的系数的向量的范数的阶数。max_features在阈值设定下，要选择的最大特征数。要禁用阈值并仅根据max_features选择，请设置threshold=-np.inf

我们重点要考虑的是前两个参数。在这里，我们使用随机森林为例，则需要学习曲线来帮助我们寻找最佳特征值。

fromsklearn.feature_selectionimportSelectFromModelfromsklearn.ensembleimportRandomForestClassifierasRFCRFC_=RFC(n_estimators=10,random_state=0)x_embedded=SelectFromModel(RFC_,threshold=0.005).fit_transform(x,y)x_embedded"""array([[0,0,0,...,253,0,0],[254,254,254,...,254,255,254],[9,254,254,...,0,254,254],...,[0,0,0,...,0,255,255],[0,0,27,...,242,0,0],[0,0,0,...,0,0,0]],dtype=int64)"""x_embedded.shape#(42000,47)复制代码使用学习曲线结合#我们来绘制threshold的学习曲线importnumpyasnpimportmatplotlib.pyplotaspltRFC_.fit(X,y).feature_importances_threshold=np.linspace(0,(RFC_.fit(X,y).feature_importances_).max(),20)score=[]foriinthreshold:X_embedded=SelectFromModel(RFC_,threshold=i).fit_transform(x,y)once=cross_val_score(RFC_,X_embedded,y,cv=5).mean()score.append(once)plt.plot(threshold,score)plt.show()复制代码

从图像上来看，随着阈值越来越高，模型的效果逐渐变差，被删除的特征越来越多，信息损失也逐渐变大

验证特征选择过后，模型的效果X_embedded=SelectFromModel(RFC_,threshold=0.00067).fit_transform(x,y)X_embedded.shapecross_val_score(RFC_,X_embedded,y,cv=5).mean()#0.9391190476190475复制代码

特征个数瞬间缩小到324多，这比我们在方差过滤的时候选择中位数过滤出来的结果392列要小，并且交叉验证分数0.9399高于方差过滤后的结果0.9388，这是由于嵌入法比方差过滤更具体到模型的表现的缘故

我们可以细化学习曲线score2=[]foriinnp.linspace(0,0.00134,20):X_embedded=SelectFromModel(RFC_,threshold=i).fit_transform(x,y)once=cross_val_score(RFC_,X_embedded,y,cv=5).mean()score2.append(once)plt.figure(figsize=[20,5])plt.plot(np.linspace(0,0.00134,20),score2)plt.xticks(np.linspace(0,0.00134,20))plt.show()复制代码

找最佳位置的阈值参数X_embedded=SelectFromModel(RFC_,threshold=0.000071).fit_transform(x,y)X_embedded.shape#(42000,340)cross_val_score(RFC_,X_embedded,y,cv=5).mean()#0.9392857142857144复制代码

在嵌入法下，我们很容易就能够实现特征选择的目标：减少计算量，提升模型表现

比起要思考很多统计量的过滤法来说，嵌入法可能是更有效的一种方法。然而，在算法本身很复杂的时候，过滤法的计算远远比嵌入法要快，所以大型数据中，我们还是会优先考虑过滤法。

Wrapper包装法与嵌入法相似部分是一个特征选择和算法训练同时进行的方法依赖于算法自身的选择，比如coef_属性或feature_importances_属性来完成特征选择。与嵌入法不同部分我们往往使用一个目标函数作为黑盒来帮助我们选取特征，而不是自己输入某个评估指标或统计量的阈值。区别于过滤法和嵌入法的一次训练解决所有问题，包装法要使用特征子集进行多次训练，因此它所需要的计算成本是最高的。包装法在初始特征集上训练评估器，并且通过coef_属性或通过feature_importances_属性获得每个特征的重要性。然后，从当前的一组特征中修剪最不重要的特征。在修剪的集合上递归地重复该过程，直到最终到达所需数量的要选择的特征。

注意，在这个图中的“算法”，指的不是我们最终用来导入数据的分类或回归算法（即不是随机森林），而是专业的数据挖掘算法，即我们的目标函数。这些数据挖掘算法的核心功能就是选取最佳特征子集。最典型的目标函数是递归特征消除法（Recursivefeatureelimination,简写为RFE）。它是一种贪婪的优化算法，旨在找到性能最佳的特征子集。它反复创建模型，并在每次迭代时保留最佳特征或剔除最差特征，下一次迭代时，它会使用上一次建模中没有被选中的特征来构建下一个模型，直到所有特征都耗尽为止。然后，它根据自己保留或剔除特征的顺序来对特征进行排名，最终选出一个最佳子集。包装法的效果是所有特征选择方法中最利于提升模型表现的，它可以使用很少的特征达到很优秀的效果。除此之外，在特征数目相同时，包装法和嵌入法的效果能够匹敌，不过它比嵌入法算得更见缓慢，所以也不适用于太大型的数据。相比之下，包装法是最能保证模型效果的特征选择方法。

feature_selection.RFE

classsklearn.feature_selection.RFE(estimator,n_features_to_select=None,step=1,verbose=0)

参数：estimator：是需要填写的实例化后的评估器**n_features_to_select：**是想要选择的特征个数step：表示每次迭代中希望移除的特征个数属性.support_：返回所有的特征的是否最后被选中的布尔矩阵.ranking_：返回特征的按数次迭代中综合重要性的排名特点它是一种贪婪的优化算法，旨在找到性能最佳的特征子集。它反复创建模型，并在每次迭代时保留最佳特征或剔除最差特征，下一次迭代时，它会使用上一次建模中没有被选中的特征来构建下一个模型，直到所有特征都耗尽为止。优点包装法的效果是所有特征选择方法中最利于提升模型表现的，它可以使用很少的特征达到很优秀的效果包装法是最能保证模型效果的特征选择方法缺点在特征数目相同时，包装法和嵌入法的效果能够匹敌，不过它比嵌入法算得更见缓慢，所以也不适用于太大型的数据feature_selection.RFECV

会在交叉验证循环中执行RFE以找到最佳数量的特征，增加参数cv，其他用法都和RFE一模一样。

###递归特征消除法feature_selection.RFEfromsklearn.feature_selectionimportRFERFC_=RFC(n_estimators=10,random_state=0)selector=RFE(RFC_,n_features_to_select=340,step=50).fit(x,y)selector.support_"""array([False,False,False,False,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,False,False,False,False,False,False,False,False,False,False,False,False,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,False,False,False,False,False,False,False,False,False,False,False,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True,False,False,False])"""复制代码属性展示selector.support_.sum()#340selector.ranking_"""array([10,9,8,7,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,7,7,6,6,5,6,5,6,6,6,6,6,6,6,6,6,6,7,6,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,6,6,5,4,4,5,3,4,4,4,5,4,5,7,6,7,7,7,8,8,8,8,8,8,8,8,6,7,4,3,1,2,3,3,1,1,1,1])"""复制代码验证特征选择的结果X_wrapper=selector.transform(x)cross_val_score(RFC_,X_wrapper,y,cv=5).mean()#0.9379761904761905#绘制学习曲线score=[]foriinrange(1,751,50):X_wrapper=RFE(RFC_,n_features_to_select=i,step=50).fit_transform(x,y)once=cross_val_score(RFC_,X_wrapper,y,cv=5).mean()score.append(once)plt.figure(figsize=[20,5])plt.plot(range(1,751,50),score)plt.xticks(range(1,751,50))plt.show()复制代码

在包装法下面，应用50个特征时，模型的表现就已经达到了90%以上，比嵌入法和过滤法都高效很多

特征选择总结过滤法更快速，但更粗糙。包装法和嵌入法更精确，比较适合具体到算法去调整，但计算量比较大，运行时间长。当数据量很大的时候，优先使用方差过滤和互信息法调整，再上其他特征选择方法。使用逻辑回归时，优先使用嵌入法。使用支持向量机时，优先使用包装法

人工智能（AI）是如何处理数据的

AI处理数据主要是通过数据挖掘和数据分析。

一、数据挖掘（Datamining），又译为资料探勘、数据采矿。它是数据库知识发现（Knowledge-DiscoveryinDatabases，简称KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。

利用数据挖掘进行数据处理常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等，它们分别从不同的角度对数据进行挖掘。

①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别。如一个汽车零售商将客户按照对汽车的喜好划分成不同的类，这样营销人员就可以将新型汽车的广告手册直接邮寄到特定的客户手中，从而大大增加了商业机会。

②回归分析。回归分析方法反映的是数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系。

③聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别，其目的是使得属于同一类别的数据间的相似性尽可能大，不同类别中的数据间的相似性尽可能小。

④关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则。即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现，即隐藏在数据间的关联或相互关系。

⑤特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取，可以得到导致客户流失的一系列原因和主要特征，利用这些特征可以有效地预防客户的流失。

⑥变化和偏差分析。偏差包括很大一类潜在有趣的知识，如分类中的反常实例，模式的例外，观察结果对期望的偏差等，其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中，管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

⑦Web页挖掘。随着Internet的迅速发展及Web的全球普及，使得Web上的信息量无比丰富，通过对Web的挖掘，可以利用Web的海量数据进行分析，收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息，集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息，并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆，对这些信息进行分析和处理，以便识别、分析、评价和管理危机。

二、数据分析是数学与计算机科学相结合的产物，是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实际生活应用中，数据分析可帮助人们作出判断，以便采取适当行动。

在统计学领域，有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析；其中，探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。

①探索性数据分析：是指为了形成值得假设的检验而对数据进行分析的一种方法，是对传统统计学假设检验手段的补充。

②定性数据分析：又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”，是指对诸如词语、照片、观察结果之类的非数值型数据的分析。

大量的数据分析需求都与特定的应用相关，需要相关领域知识的支持。通用的数据挖掘工具在处理特定应用问题时有其局限性，常常需要开发针对特定应用的数据分析系统。因此数据分析系统设计的第一步是对特定应用的业务进行深入地分析与研究，总结归纳分析思路并细分出所需的分析功能。

数据分析主要包含下面几个功能：

数据分析是组织有目的地收集数据、分析数据，使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期，包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程，以提升有效性。

在实用中，数据可为AI提供基础要素，可帮助AI作出判断，以便AI进行学习。例如，来自马萨诸塞州总医院和哈佛医学院放射科的研究人员使用卷积神经网络来识别CT图像，基于训练数据大小来评估神经网络的准确性。随着训练规模的增大，精度将被提高。

今天的大多数深度学习是监督的或半监督的，意味着用于训练模型的所有或一些数据必须由人标记。无监督的机器学习是AI中当前的“圣杯”，因为可以利用原始未标记的数据来训练模型。广泛采用深度学习可能与大数据集的增长以及无人监督的机器学习的发展有关。然而，我们认为大型差异化数据集（电子健康记录，组学数据，地质数据，天气数据等）可能是未来十年企业利润创造的核心驱动力。

参考IDC报告，全世界创造的信息量预计到2020年将以36％的复合年增长率增长，达到44泽字节（440亿GB）。连接的设备（消费者和工业领域），机器到机器通信和远程传感器的增加和组合可以创建大型数据集，然后可以挖掘洞察和训练自适应算法。

AI之所以拥有人的思维，人的智慧，其核心在于AI可以通过海量的数据进行机器学习和深度学习。拥有的数据越多，神经网络就变得越有效率，意味着随着数据量的增长，机器语言可以解决的问题的数量也在增长。移动手机、物联网、低耗数据存储的成熟和处理技术（通常在云端）已经在数量、大小、可靠数据结构方面创造了大量的成长。例如：

5G的首次展示将最适当地加速数据可被获取和转移的机率。根据IDC的数字领域报告，到2020年，每年数据量将达到44ZB（万亿G），5年内年复合增长率达到141%，暗示我们刚开始看到这些科技可以达到的应用场景。

数据（Data）是指对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据处理（dataprocessing）是对数据的采集、存储、检索、加工、变换和传输，贯穿于社会生产和社会生活的各个领域。数据经过解释并赋予一定的意义之后，便成为信息。

人工智能出现之前，传统数据的处理主要包括了8个方面：

通过这个8方面，从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。传统意义上的数据处理离不开软件的支持，每次处理数据大概都需要使用至少三次软件，这对人力物力都是一种极大的浪费。

而在AI时代，数据的处理就变得简单多了，就拿最近比较热门的车联网来说。

车联网一个系统通过在车辆仪表台安装车载终端设备，就对车辆所有工作情况和静、动态信息的采集、存储并发送。车联网系统分为三大部分：车载终端、云计算处理平台、数据分析平台，根据不同行业对车辆的不同的功能需求实现对车辆有效监控管理。车辆的运行往往涉及多项开关量、传感器模拟量、CAN信号数据等等，驾驶员在操作车辆运行过程中，产生的车辆数据不断回发到后台数据库，形成海量数据，由云计算平台实现对海量数据的“过滤清洗”，数据分析平台对数据进行报表式处理，供管理人员查看。

作者：造数科技链接：https://www.zhihu.com/question/264417928/answer/282811201来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

1人工智能概述

文章目录1.4机器学习工作流程学习目标1什么是机器学习2机器学习工作流程机器学习工作流程总结2.1获取到的数据集介绍2.2数据基本处理2.3特征工程2.4机器学习2.5模型评估拓展阅读完整机器学习项目的流程3小结1.4机器学习工作流程学习目标了解机器学习的定义知道机器学习的工作流程掌握获取到的数据集的特性1什么是机器学习

－机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测。

2机器学习工作流程

机器学习工作流程总结

1.获取数据2.数据基本处理3.特征工程4.机器学习（模型训练）5.模型评估

结果达到要求，上线服务没有达到要求，重新上面步骤2.1获取到的数据集介绍

数据简介在数据集中一般：

一行数据我们称为一个样本一列数据我们成为一个特征有些数据有目标值（标签值），有些数据没有目标值（如上表中，电影类型就是这个数据集的目标值）

数据类型构成：

数据类型一：特征值+目标值（目标值是连续的和离散的）数据类型二：只有特征值，没有目标值

数据分割：机器学习一般的数据集会划分为两个部分：

训练数据：用于训练，构建模型测试数据：在模型检验时使用，用于评估模型是否有效

划分比例：

训练集：70%80%75%测试集：30%20%25%2.2数据基本处理

－即对数据进行缺失值、去除异常值等处理

2.3特征工程

2.3.1什么是特征工程特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。

意义：会直接影响机器学习的效果

2.3.2为什么需要特征工程（FeatureEngineering）机器学习领域的大神AndrewNg（吴恩达）老师说“Comingupwithfeaturesisdificult，time-consuming，requiresexpertknowledge.“Appliedmachinelearning"isbasicallyfeatureengineering.”注：业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。2.3.3特征工程包含内容

特征提取特征预处理特征降维

2.3.4各概念具体解释特征提取

将任意数据（如文本或图像）转换为可用于机器学习的数字特征特征预处理通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程特征降维指在某些限定条件下，降低随机变量（特征）个数，得到一组“不相关”主变量的过程2.4机器学习

选择合适的算法对模型进行训练（具体内容见1.5）

2.5模型评估

对训练好的模型进行评估（具体内容见1.6）

拓展阅读完整机器学习项目的流程

1抽象成数学问题明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情，胡乱尝试时间成本是非常高的。这里的抽象成数学问题，指的明确我们可以获得什么样的数据，抽象出的问题，是一个分类还是回归或者是聚类的问题。2获取数据

数据决定了机a学习结果的上限，而算法只是尽可能逼近这个上限。数据要有代表性，否则必然会过拟合。而且对于分类问题，数据偏斜不能过于严重，不同类别的数据数量不要有数量级的差距。而且还要对数据的量级有一个评估，多少个样本，多少个特征，可以估算出其对内存的消耗程度，判断训练过程中内存是否能够放得下。如果放不下就得考虑改进算法或者使用一些降维的技巧了。如果数据量实在太大，那就要考虑分布式了。

3特征预处理与特征选择

良好的数据要能够提取出良好的特征才能真正发挥作用。特征预处理、数据清洗是很关键的步骤，往往能够使得算法的效果和性能得到显著提高。归一化、离散化、因子化、缺失值处理、去除共线性等，数据挖掘过程中很多时间就花在它们上面。这些工作简单可复制，收益稳定可预期，是机器学习的基础必备步骤。筛选出显著特征、摒弃非显著特征，需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择好了，非常简单的算法也能得出良好、稳定的结果。这需要运用特征有效性分析的相关技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。

4训练模型与调优

直到这一步才用到我们上面说的算法进行训练。现在很多算法都能够封装成黑盒供人使用。但是真正考验水平的是调整这些算法的（超）参数，使得结果变得更加优良。这需要我们对算法的原理有深入的理解。理解越深入，就越能发现问题的症结，提出良好的调优方案。

5模型诊断如何确定模型调优的方向与思路呢？这就需要对模型讲行诊断的技术。

3小结

机器学习义【掌握】

机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测

·机器学习工作流程总结【掌握】1.获取数据2.数据基本处理3.特征工程4.机器学习（模型训练）5.模型评估

结果达到要求，上线服务没有达到要求，重新上面步骤

获取到的数据集介绍【掌握】

数据集中一行数据一般称为一个样本，一列数据一般称为一个特征。数据集的构成：-由特征值+目标值（部分数据集没有）构成为了模型的训练和测试，把数据集分为：-训练数据（70%-80%）和测试数据（20%-30%）特征工程包含内容【了解】特征提取特征预处理特征降维

人工智能常用数据预处理（标准化，归一化）等

人工智能常用数据预处理数据预处理正态化、标准化、归一化、正则化区别和作用标准差，方差，均方差，均方误差，均方根误差数据预处理

1.读数据2.合并训练和测试2.填充空白数据4.改变非数字为数字5.去除无关数据6.降为（合并相关数据）7.正态化数据（碗圆）

正态化、标准化、归一化、正则化区别和作用

1.正态化归一化是为了碗形状圆，加快训练速度2.归一化和标准化区别现在说的归一化和标准化都是指标准化，而真正的归一化一般用不到。

3.正则化解决过拟合

标准差，方差，均方差，均方误差，均方根误差

标准差==√方差==均方差（用来观察数据离散程度）均方根误差==√均方误差（用来比较预测和实际值之间的差距）

数据预处理与特征工程总结 人工智能数据预处理工作总结