人工智能 vivo的人工智能是什么

发表时间：2023-06-21 13:50:32

人工智能

概述什么是人工智能?人工智能（ArtificialIntelligence），英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它试图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能，但能像人那样的思考，甚至超过人的智能。

第一阶段:Python

利用Python解析数据速度,效率方面比较轻量级i.轻量级指的是部署到服务器里面,可以提高服务器访问并发ii.轻量级指的是业务与业务之间的逻辑性很强,兼容性很强,降低耦合度iii.轻量级指的是业务与数据之间的一种关系体现很轻,简单说:获取数据集的方式很快,多样化

Java语言也可以实现人工智能的数据操作—不建议—重量级i.重量级的操作不适合’数据集’的采集操作ii.重量级操作不适合数据集的清理操作iii.重量级的业务与数据之间很难进行数据解析操作

人工智能的历史

1956年夏天：达特茅斯会议，提出“人工智能“20世纪60年代：感知机20世纪70年代：专家系统、知识工程20世纪80年代：日本第五代机20世纪90年代：统计机器学习2006年：深度学习2012年：卷积神经网络…人工智能的分类弱人工智能ArtificialNarrowIntelligence(ANI):弱人工智能是擅长于单个方面的人工智能。强人工智能ArtificialGeneralIntelligence(AGI):人类级别的人工智能。强人工智能是指在各方面都能和人类比肩的人工智能，人类能干的脑力活它都能干。超人工智能ArtificialSuperIntelligence(ASI):知名人工智能思想家NickBostrom把超级智能定义为”在几乎所有领域都比最聪明的人类大脑都聪明很多，包括科学创新、通识和社交技能“。人工智能的机器学习

机器学习需要’思考’

机器学习是一门从数据中研究算法的科学学科‘数据’---->>‘算法’如何实现’数据’到’算法’的过程?数据采集(Python)>>数据分析(Python)>>数据挖掘(Hadoop)>>模型建立(算法)>>预测未来

机器学习理性认识

机器学习的算法公式思想

数据1:x轴x1,x2,x3…xn数据2:y轴y1,y2,y3…yn目标值:x---->y误差趋近于零的时候就是目标值,误差最小->数据输出

结果公式:{(x1,y1),(x2,y2),(x3,y3)…(xn,yn)}g:x->y备注:g表示最终的公式

导论结果:其实’数据集’就是一种算法的实现

算法(T):根据业务需要和数据特征选择的相关算法,也就是一个数学公式模型(E):基于数据和算法构件出来的模型评估/测试§：对模型进行评估的策略

训练数据

:"训练"数据训练指的是是：一种学习行为----转化为：“经验”-----通过经验采集的数据才是训练数据！训练数据是存在很大的不合理性！并不能满足机器的学习使用！

数据集是训练数据吗？数据集可以让机器学习使用！

机器学习概念

拟合构建的算法符合给定数据的特征x(i):表示第i个样本的x向量xi:x向量的第i维度的值

鲁棒性也就是健壮性、稳健性、强健性,是系统的健壮性；当存在异常数据的时候，算法也会拟合数据

过拟合算法太符合样本数据的特征，对于实际生产中的数据特征无法拟合,目标数据和预测数据差距太大！

欠拟合算法不太符合样本的数据特征

人工智能的3大框架

sciket-learn(Python)基于Python语言开发的人工智能—大量使用(效率最高)http://scikit-learn.org/stable/

Mahout(Hadoop生态圈基于MapReduce)基于大数据Hadoop的人工智能—不建议(大数据直接与AI结合)—成本高http://mahout.apache.org/

SparkMLlib基于SparkMLlib处理数据解析数据集—处理数据集的速度高于hedoophttp://spark.apache.org/

OpenStack云机房很高端,但对技术要求过高

机器学习之商业个性化推荐：个性化指的是根据各种因素来改变用户体验和呈现给用户内容，这些因素可能包含用户的行为数据和外部因素；推荐常指系统向用户呈现一个用户可能感兴趣的物品列表。精准营销：从用户群众中找出特定的要求的营销对象。客户细分：试图将用户群体分为不同的组，根据给定的用户特征进行客户分组。预测建模及分析：根据已有的数据进行建模，并使用得到的模型预测未机器学习、数据分析、数据挖掘区别与联系

数据分析：数据分析是指用适当的统计分析方法对收集的大量数据进行分析，并提取有用的信息，以及形成结论，从而对数据进行详细的研究和概括过程。在实际工作中，数据分析可帮助人们做出判断；数据分析一般而言可以分为统计分析、探索性数据分析和验证性数据分析三大类。

数据挖掘：一般指从大量的数据中通过算法搜索隐藏于其中的信息的过程。通常通过统计、检索、机器学习、模式匹配等诸多方法来实现这个过程。

机器学习：是数据分析和数据挖掘的一种比较常用、比较好的手段。

机器学习分类有监督学习

用已知某种或某些特性的样本作为训练集，以建立一个数学模型，再用已建立的模型来预测未知样本，此种方法被称为有监督学习，是最常用的一种机器学习方法。是从标签化训练数据集中推断出模型的机器学习任务。

重点算法判别式模型(DiscriminativeModel)：直接对条件概率p(y|x)进行建模，常见判别模型有：线性回归、决策树、支持向量机SVM、k近邻、神经网络等；

生成式模型(GenerativeModel)：对联合分布概率p(x,y)进行建模，常见生成式模型有：隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等；

区别:

生成式模型更普适；判别式模型更直接，目标性更强生成式模型关注数据是如何产生的，寻找的是数据分布模型；判别式模型关注的数据的差异性，寻找的是分类面由生成式模型可以产生判别式模型，但是由判别式模式没法形成生成式模型无监督学习

与监督学习相比，无监督学习的训练集中没有人为的标注的结果，在非监督的学习过程中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。

无监督学习试图学习或者提取数据背后的数据特征，或者从数据中抽取出重要的特征信息，常见的算法有聚类、降维、文本处理(特征抽取)等。

无监督学习一般是作为有监督学习的前期数据处理，功能是从原始数据中抽取出必要的标签信息

半监督学习(SSL)

考虑如何利用少量的’标注样本’和大量的’未标注样本’进行训练和分类的问题，是有监督学习和无监督学习的结合

主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价，提高学习机器性能具有非常重大的实际意义。

SSL的成立依赖于模型假设，主要分为三大类：平滑假设、聚类假设、流行假设；其中流行假设更具有普遍性。

SSL类型的算法主要分为四大类：半监督分类、半监督回归、半监督聚类、半监督降维。

缺点：抗干扰能力弱，仅适合于实验室环境，其现实意义还没有体现出来；未来的发展主要是聚焦于新模型假设的产生

机器学习分类2分类通过分类模型，将样本数据集中的样本映射到某个给定的类别中聚类通过聚类模型，将样本数据集中的样本分为几个类别，属于同一类别的样本相似性比较大回归反映了样本数据集中样本的属性值的特性，通过函数表达样本映射的关系来发现属性值之间的依赖关系关联规则获取隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现频率机器学习算法算法名称算法描述C4.5分类决策树算法，决策树的核心算法，ID3算法的改进算法。CART分类与回归树(ClassificationandRegressionTrees)kNNK近邻分类算法；如果一个样本在特征空间中的k个最相似的样本中大多数属于某一个类别，那么该样本也属于该类别NaiveBayes贝叶斯分类模型；该模型比较适合属性相关性比较小的时候，如果属性相关性比较大的时候，决策树模型比贝叶斯分类模型效果好(原因：贝叶斯模型假设属性之间是互不影响的)SVM支持向量机，一种有监督学习的统计学习方法，广泛应用于统计分类和回归分析中。EM最大期望算法，常用于机器学习和计算机视觉中的数据集聚领域Apriori关联规则挖掘算法K-Means聚类算法，功能是将n个对象根据属性特征分为k个分割(k