人工智能数学基础知识人工智能高等数学基础

发表时间：2023-07-29 21:30:33

人工智能数学基础知识

转载于公众号“赛氪”

**线性代数：**如何将研究对象形式化？概率论：如何描述统计规律？**数理统计：**如何以小见大**最优化理论：**如何找到最优解？信息论：如何定量度量不确定性？形式逻辑：如何实现抽象推理？

**线性代数：**如何将研究对象形式化？事实上，线性代数不仅仅是人工智能的基础，更是现代数学和以现代数学作为主要分析方法的众多学科的基础。从量子力学到图像处理都离不开向量和矩阵的使用。而在向量和矩阵背后，线性代数的核心意义在于提供了一个看待世界的抽象视角：万事万物都可以被抽象成某种特征的组合，并在由预制规则定义的框架之下以静态和动态的方式加以观察。

着重于抽象概念的解释而非具体的数学公式来看，线性代数要点如下：线性代数的本质在于将具体的事物抽象为数学对象，并描述其静态和动态的特性；向量的实质是n维线性空间中的静止点；线性变换描述了向量或者作为参考系的坐标系的变化，可以用矩阵表示；矩阵的特征值和特质向量描述了变化的速度与方向。

总之，线性代数至于人工智能如同加法之于高等数学，是一个基础的工具集。

概率论：如何描述统计规律？

出来线性代数之外，概率论也是人工智能研究中必备的数学基础。随着连接主义学派的兴起，概率统计已经取代了数理逻辑，成为人工智能研究的主流工具。在数据爆炸式增长和计算力指数化增强的今天，概率论已经在机器学习中扮演了核心角色。

同线性代数一样，概率论也代表了一种看待世界的方式，其关注的焦点是无处不在的可能性。频率学派认为先验分布式固定的，模型参数要靠最大似然估计计算；贝叶斯学派认为先验分布式随机的，模型参数要靠后验概率最大化计算；正态分布式最重要的一种随机变量的分布。

**数理统计：**如何以小见大

在人工智能的研究中，数理统计同样不可或缺。基础的统计理论有助于对机器学习的算法和数据挖掘的结果做出解释，只有做出合理的解读，数据的价值才能够体现。数理统计根据观察或实验得到的数据来研究随机现象，并对研究对象的客观规律做出合理的估计和判断。

虽然数理统计以概率论为理论基础，但两者之间存在方法上的本质却别。概率论作用的前提是随机变量的分布已知，根据已知的分布来分析随机变量的特质与规律；数理统计的研究对象则是未知分布的随机变量，研究方法是对随机变量进行独立重复的观察，根据得到的观察结果对原始分布做出推断。

用一句不严谨但直观的话讲：数理统计可以看成是逆向的概率论。数理统计的任务是根据可观察的样本反过来推断总体的性质；推断的工具是统计量，统计量是样本的函数，是个随机变量；参数估计通过随机抽取的样本来估计总体分布的未知参数，包括点估计和区间估计；假设检验通过随机抽取的样本来接受或拒绝关于总体的某个判断，常用于估计机器学习模型的泛化错误率。

**最优化理论：**如何找到最优解？

本质上讲，人工智能的目标就是最优化：在复杂环境与多体交互中做出最优决策。几乎所有的人工智能问题最后都会归结为一个优化问题的求解，因而最优化理论同样是人工智能必备的基础知识。最优化理论研究的问题是判定给定目标函数的最大值（最小值）是否存在，并找到另目标函数取最大值（最小值）的数值。如果把给定的目标函数看成是一座山脉，最优化的过程就是判断顶峰的位置并找到到达顶峰路径的过程。

通常情况下，最优化问题是在无约束情况下求解给定目标函数的最小值；在线性搜索中，确定寻找最小值时的搜索方向需要使用目标函数的一阶导数和二阶导数；置信域算法的思想是先确定搜索步长，再确定搜索方向；以人工神经网络为代表的启发式算法是另外一类重要的优化算法。

信息论：如何定量度量不确定性？

近年来的科学研究不断正式，不确定性就是客观世界的本质属性。换句话说，上帝还真就掷骰子。不确定性的世界只能使用概率模型来描述，这促成了信息论的诞生。

信息论使用“信息熵”的概念，对单个信源的信息量和通信中传递信息的数量与效率等问题做出了解释，并在世界的不确定性和信息的可测量性之间搭建起一座桥梁。

总之，信息论处理的是客观世界中的不确定性；条件熵和信息增益是分类问题中的重要参数；KL散度用于描述两个不同概率分布之间的差异；最大熵原理是分类问题汇总的常用准则。

形式逻辑：如何实现抽象推理？

1956年召开的达特茅斯会议宣告了人工智能的诞生。在人工智能的襁褓期，各位奠基者们，包括约翰，麦卡锡。赫伯特，西蒙；马文，闵斯基等未来的图灵奖得主，他们的愿景是让“具备抽象思考能力的程序解释合成的物质如何能够拥有人类的心智。”通俗的说，理想的人工智能应该具有抽象意义上的学习，推理与归纳能力，其通用性将远远强于解决国际象棋或者围棋等的具体问题的算法。

如果将认知过程定义为对符号的逻辑运算，人工智能的基础就是形式逻辑；谓词逻辑是只是表示的主要方法；基于谓词逻辑系统可以实现具有自动推理能力的人工智能；不完备性定理向“认知的本质是计算”这一人工智能的基本理念提出挑战。

人工智能

线性代数

今天的种种人工智能技术归根到底都建立在数学模型之上，而这些数学模型又都离不开线性代数（linearalgebra）的理论框架。

其要点如下：

线性代数的本质在于将具体事物抽象为数学对象，并描述其静态和动态的特性；向量的实质是n维线性空间中的静止点；线性变换描述了向量或者作为参考系的坐标系的变化，可以用矩阵表示；矩阵的特征值和特征向量描述了变化的速度与方向。在实际问题中，向量的意义不仅是某些数字的组合，更可能是某些对象或某些行为的特征。范数和内积能够处理这些表示特征的数学模型，进而提取出原始对象或原始行为中的隐含关系。线性空间的一个重要特征是能够承载变化。当作为参考系的标准正交基确定后，空间中的点就可以用向量表示。当这个点从一个位置移动到另一个位置时，描述它的向量也会发生改变。点的变化对应着向量的线性变换（lineartransformation），而描述对象变化抑或向量变换的数学语言，正是矩阵。概率论

概率论（probabilitytheory）也是人工智能研究中必备的数学基础。今天，概率论已经在机器学习中扮演了核心角色。

其要点如下：

概率论关注的是生活中的不确定性或可能性；概率论是线性代数之外，人工智能的另一个理论基础，多数机器学习模型采用的都是基于概率论的方法。但由于实际任务中可供使用的训练数据有限，因而需要对概率分布的参数进行估计，这也是机器学习的核心任务。概率的估计有两种方法：最大似然估计法（maximumlikelihoodestimation）和最大后验概率法（maximumaposterioriestimation），两者分别体现出频率学派和贝叶斯学派对概率的理解方式。除了概率质量函数/概率密度函数之外，另一类描述随机变量的参数是其数字特征。数字特征是用于刻画随机变量某些特性的常数，包括数学期望（expectedvalue）、方差（variance）和协方差（covariance）。频率学派认为先验分布是固定的，模型参数要靠最大似然估计计算；贝叶斯学派认为先验分布是随机的，模型参数要靠后验概率最大化计算；正态分布是最重要的一种随机变量的分布。数理统计

在人工智能的研究中，数理统计同样不可或缺。基础的统计理论有助于对机器学习的算法和数据挖掘的结果做出解释，只有做出合理的解读，数据的价值才能够体现。

其要点如下：

数理统计的任务是根据可观察的样本反过来推断总体的性质；推断的工具是统计量，统计量是样本的函数，是个随机变量；参数估计通过随机抽取的样本来估计总体分布的未知参数，包括点估计和区间估计；假设检验通过随机抽取的样本来接受或拒绝关于总体的某个判断，常用于估计机器学习模型的泛化错误率。最优化方法

从本质上讲，人工智能的目标就是最优化：在复杂环境与多体交互中做出最优决策。几乎所有的人工智能问题最后都会归结为一个优化问题的求解，因而最优化理论同样是人工智能必备的基础知识。

其要点如下：

通常情况下，最优化问题是在无约束情况下求解给定目标函数的最小值；在线性搜索中，确定寻找最小值时的搜索方向需要使用目标函数的一阶导数和二阶导数；置信域算法的思想是先确定搜索步长，再确定搜索方向；以人工神经网络为代表的启发式算法是另外一类重要的优化方法。信息论

近年来的科学研究不断证实，不确定性才是客观世界的本质属性。不确定性的世界只能使用概率模型来描述，正是对概率的刻画促成了信息论的诞生。

其要点如下：

信息论处理的是客观世界中的不确定性；条件熵和信息增益是分类问题中的重要参数；在机器学习中，信息增益常常被用于分类特征的选择。KL散度用于描述两个不同概率分布之间的差异；最大熵原理是分类问题中的常用准则。最大熵原理的本质在于在推断未知分布时不引入任何多余的约束和假设，因而可以得到最不确定的结果，预测的风险也就最小。形式逻辑

其要点如下：

如果将认知过程定义为对符号的逻辑运算，人工智能的基础就是形式逻辑；谓词逻辑是知识表示的主要方法；基于谓词逻辑系统可以实现具有自动推理能力的人工智能；不完备性定理向“认知的本质是计算”这一人工智能的基本理念提出挑战。在哥德尔不完备性定理的阴影下，基于图灵可计算概念的“认知可计算主义”研究纲领已经显示出其极大的局限。今天，依靠人工神经网络逐渐崛起的连接主义学派大放异彩，与此同时，以形式逻辑为依据的符号主义学派则已经走向没落。

机器学习是否需要完整扎实的数学基础

一个比较高质量的参考语雀网站https://www.yuque.com/angsweet/machine-learning/jian-jie

线代高数概率论高数，微积分，线代，概率论，运筹学（优化）

微积分、线性代数、概率与统计、矩阵和数值分析、优化方法线代，微积分，概率论，数理统计，一些算法思想的数学基础

微积分，线性代数，概率与统计，最优化方法建议读5～6遍，哈哈

这是基础，高等点做研究的，需要学习randomdata，

概率论贝叶斯，微积分泰勒公式，泛函分析，pca，实变函数等等

理解线代，概率与统计，凸优化

基本上就可以完成一个机器学习项目了

如果你的目标是成为一位偏工程的engineer，那么其实数学基础没有那么重要；如果你的目标是成为一位优秀的AIResearcher，也希望将来在企业做研发的工作，那我想扎实的数学能力是必要的。但是不管是上述哪两个position，对于基本的学习算法的理论都是需要牢固掌握的，需要能够做到遇到问题，分析问题并且用相应的方式去解决问题。LZ在实验室里做研究，那么初期其实要求没有那么高，没有必要去刻意补充大量数学课，我个人觉得直接学习对应的机器学习/深度学习课程就好，这儿网上有很多有用的课程资源，比如CS224n，CS231，李宏毅机器学习等。认真坚持下来，在videos和slides学理论，在assignments中学习实践，我想慢慢就适应了这个学习过程！后面，直接研读你相应领域的文献即可，在不断复现论文的过程中试错、思考与成长！

需要，甚至可以说机器学习就是某种意义上的应用数学。与传统数学教育不同的是，从小学到高中之前学的数学都是偏向计算，更多的是确定性思维。机器学习则偏向于概率统计，更多的是不确定性思维。为什么说机器学习就是数学呢？针对具体问题场景，机器学习通常会根据概率统计进行建模，比如二分类问题天然符合伯努利分布，多分类问题符合多项分布，回归问题符合高斯分布，如果要预测可数数值问题可以用泊松分布进行建模等等。建立好模型之后，我们就需要求解模型参数，这时候就有点估计，区间估计之分。在点估计场景中，常用的方法有最大似然估计，最大后验估计等。这就是为什么机器学习一言不合就开始最大似然估计的原因，传统模型都是在做由因推果的事情。但是在很多实际场景中，我们是先知道结果，然后去反推出各种原因的概率。这时候，贝叶斯公式就起到了关键作用。所以，通常面对这样的问题场景，都会使用贝叶斯公式或者贝叶斯估计就行建模。一般，贝叶斯公式会搭配最大后验参数估计使用。机器学习把概率和图结合起来组成概率图模型，进一步提升了模型的描述能力。典型代表是：有向图中的贝叶斯网络，无向图中的马尔科夫条件随机场等。概率图模型中还有受限玻尔兹曼机等，在就越来越像机器学习的另一个分支深度学习。机器学习的另一个强大的分支——深度学习，深度学习的理论模型很简单，就是多层感知机。单个感知机算法其实很笨，几乎算是机器学习中当兵作战能力最弱的算法了，但是，多层感知机就完全不一样了。在辛顿大神没有把反向传播算法完善之前，多层感知机算法可谓是命途多舛，险些把深度学习扼杀在摇篮之中。反向传播算法形式上也不难，学过微积分大学数学的都不陌生。正是由这些简单的零部件组合出了这个惊世骇俗的神兵利器。深度学习之所以是机器学习的一个分支就在于，深度学习并没有脱离机器学习的思想范畴，仍是建立模型，求解模型参数，利用模型进行预测这一套流程。最大的区别是深度学习可以做到端到端的训练，机器学习中的特征工程部分自动由模型完成。深度学习强大的特征提取能力是它风光无限的法宝，典型代表是CNN卷积神经网络。如果深究的话，特征提取器——卷积核就是某种“滤波器”，这在数学或信号与系统中都有相应的理论支撑。写得很乱，想到哪儿就写到哪儿了。总之，机器学习不夸张的说就是数学。但是，此数学非彼数学。我们都接受过了十几年的数学教育，但是我们接受的传统数学教育，都过于关注确定性计算问题。这么多年的数学教育并没有给我们带来思维层面的提升，甚至现在日常生活中的计算问题都交给了计算器，我们更加感受不到数学的重要性。或许人类并不擅长计算，所以上帝才会派图灵，冯·诺依曼等大神送来了计算机。传统的确定性数学将会逐步交给计算机接管，这些重复机械性的工作都交给计算机。以牛顿为代表的经典物理学派为啥被以爱因斯坦，冯·诺依曼为代表的近现代物理学派击败。主要原因是他们选用的理论工具不一样，牛顿可谓是确定性思维的巅峰，其传世之作《自然哲学的数学原理》足以证明他的雄心勃勃，类似的还有“麦克斯韦妖”。但是，这个世界就是不会按照任何一个人的意愿去运转。以爱因斯坦为代表的近现代物理学家们扔掉了破旧的工具，换上了概率统计，矩阵等这些强大的新时代理论工具。如果说“彼数学”是传统数学的话，那么“此数学”就是以集合论图论，概率统计，矩阵线性代数，微积分为代表的高等数学。图论，概率统计用来建立模型，张量用来存储数据，矩阵用来描述操作，微积分用来求解模型等等。从这个角度来看，机器学习可不就是数学吗？

研究的话，像搞优化理论的，涉及到变分推断的，随机过程的，等等，这些数学要求就会大于本科的那几门大家都要学的数学课。其他方向的话，学好微积分，线性代数，概率论勉强够用。搞cv，nlp的如果不是很硬核的话也不用学太多。然后是像ICML,NIPS,AAAI,IJCAI这些会议的数学要求比较高。具体到某个应用的会议，比如cvpr，eccv等，理论部分要求会低一些。文科转的话，可能基础那几门还要好好再学学，打牢基础。其实未来去向如果是工业界搞开发，以你现在的情况，会编程，能快速实现算法最重要。

原回答：不需要，我就会点高数线代概率论

我学的是数学专业，现在在做算法工作，数学内容很多，从头打数学基础需要花费大量时间，人工智能用的多的其实主要是数学分析、高等代数、概率论以及数值分析这几门课程的知识点，现用现学最好了，遇到不懂的概念和知识点，再去查，慢慢就都会了。研究室没这么多时间让你去拿出时间打数学基础，每天有很多工作，需要阅读很多论文，汇报论文进度。

我认为不需要，任何基于兴趣的入门都不是把全套理论学透了才开始干。我是先学的机器学习，然后惊叹于她逻辑的的精巧，爱上了机器学习，后来自己探索才发现，这些点其实是数学。所以我认为数学是机器学习的灵魂，但我们不需要完整扎实的理论才能去做。

如果是应用，可以先学会实现，现成的应该不难，很多东西都是做着做着才学会，也有可能你都做完了，做过很多遍就懂了。一些基本的数学概念还是要的。。。如果是搞机器学习基础算法研发的，这就不用问了，想来你应该不会搞这个

数学很重要！数学可以说是目前一切学科发展的基础。机器学习算法很在程度上都是用数学公式推导出来的，所以不会数学是不行的。当然我们在用机器学习算法时候，如果只是调参的话，确实用不到数学，在实际工作中，很多机器学习工程师都是依靠经验来做的，真正依靠数学的不多。工业界很多机器学习任务都是利用现有的理论模型和框架进行修改调整来完成的，并不需要特别深的数学功底，只要你能把别人的论文进行复现，能够达到非常不错的预期效果。在学术界数学公式是必须的，写论文没有数学公式做依据，得出结论总让人感觉不靠谱，学术界更侧重于创新，写论文时候基本要求都有创新这一点，必须得有一定的创新，否则就难毕业，或者投稿难中。看你是想往那方面发展了，其实也不必专门去拿一本数学书一直看，为避免本末倒置，还是可以先学习机器学习，在学习过程中遇到了哪些公式不理解，专门去寻找资料，在实际应用中学习数学能够达到更好的效果，专门学习数学可能数学还没学完就放弃了，或者渐渐忘记学数学的目的。

最低的要求，微积分，线代，概率论

往上还有统计，优化，博弈论

需要，感觉学学高数，概率论，线代也就一个多月吧，主要是把公式推推。

机器学习是一个多学科交杂的领域，涉及概率论、统计学、计算机、算法等，对于数学需要一定基础，比如在选择哪种算法，要考虑模型复杂度、参数选择、特征选择，估计参数的置信区间等等，都需要数学理论基础来解答。机器学习这个方向要做好是需要扎实的理论来实现，但是如果要入门机器学习不需要对数学有很大的恐惧，干中学也是一个方法，用到哪些理论深入学习，多做复盘，慢慢完善个人的理论体系，简言之，要做好是一定需要扎实的基础的。处。

人工智能数学基础知识 人工智能高等数学基础