学人工智能必知的英文单词
转自推特@Will3.6-6.16硅谷。
【1】Accelerator加速器:一类为加速AI应用而设计的微处理器。
【2】Agents代理:可以独立并主动地执行某些任务的软件,无需人类干预,通常利用一套工具如计算器或网络浏览器。
【3】AGI(ArtificialGeneralIntelligence)AGI(人工通用智能):尽管并未广泛达成一致,但微软的研究人员已将AGI定义为在任何智力任务上都能与人类匹敌的人工智能。
【4】Alignment对齐:确保AI系统的目标与人类价值观相符的任务。
【5】ASI(ArtificialSuperIntelligence)ASI(人工超级智能):尽管存在争议,ASI通常被定义为超越人类思维能力的人工智能。
【6】Attention注意力机制:在神经网络的上下文中,注意力机制帮助模型在产生输出时专注于输入的相关部分。
【7】BackPropagation反向传播:在训练神经网络中常用的一种算法,指计算损失函数相对于网络权重的梯度的方法。
【8】Bias偏见AI模型对数据做出的假设。"偏见方差权衡"是需要达成的平衡,即模型对数据的假设和模型的预测在不同训练数据下的变化程度之间的平衡。归纳偏见是机器学习算法对数据底层分布的一组假设。
【9】ChainofThought思维链条:在AI中,这个术语通常用来描述AI模型用来做出决策的一系列推理步骤。
【10】Chatbot聊天机器人:一种通过文本或语音交互模拟人类对话的计算机程序。聊天机器人通常使用自然语言处理技术来理解用户输入并提供相关的回应。
【11】ChatGPT:OpenAI开发的一种大规模的AI语言模型,可以生成类人的文本。
【12】CLIP(ContrastiveLanguage–ImagePretraining)CLIP(对比语言-图像预训练):OpenAI开发的一种AI模型,可以连接图像和文本,使其能够理解和生成图像的描述。
【13】Compute计算在训练或运行AI模型中使用的计算资源(如CPU或GPU时间)。
【14】ConvolutionalNeuralNetwork(CNN)卷积神经网络(CNN)一种深度学习模型,通过应用一系列过滤器来处理具有网格状拓扑结构的数据(例如,图像)。这样的模型通常用于图像识别任务。
【15】DataAugmentation数据增强:通过添加对现有数据的轻微修改的副本,增加用于训练模型的数据量和多样性的过程。
【16】DeepLearning深度学习:机器学习的一个子领域,专注于训练具有多层的神经网络,从而实现复杂模式的学习。
【17】Diffusion扩散:在AI和机器学习中,一种通过开始使用一部分真实数据并添加随机噪声来生成新数据的技术。扩散模型是一种生成模型,在该模型中,神经网络被训练以预测当随机噪声被添加到数据时的反向过程。扩散模型被用来生成与训练数据相似的新数据样本。
【18】DoubleDescent双下降:机器学习中的一种现象,其中模型性能随着复杂性的增加而提高,然后恶化,然后再次提高。
【19】Embedding嵌入:数据的新型表示,通常是向量空间。相似的数据点具有更相似的嵌入。
【20】Emergence/EmergentBehavior(“sharpleftturns,”intelligenceexplosions)出现/新兴行为(“急转弯”,智力爆炸):在AI中,新兴行为指的是从简单的规则或交互中产生的复杂行为。“急转弯”和“智力爆炸”是AI发展突然并急剧变化的推测性场景,通常与AGI的到来有关。
【21】End-to-EndLearning端到端学习:一种机器学习模型,无需手动设计特征。模型只需输入原始数据,并从这些输入中学习。
【22】ExpertSystems专家系统:应用人工智能技术为特定领域内的复杂问题提供解决方案。
【23】ExplainableAI(XAI)可解释AI(XAI):专注于创建提供明确和可理解的决策解释的透明模型的AI子领域。
【24】Fine-tuning微调:采取一个已经在大数据集上预训练的模型,然后在特定的、更小的数据集上进行二次训练以适应特定的任务或问题。
【25】ForwardPropagation正向传播在神经网络中,正向传播是将输入数据输入到网络并通过每一层(从输入层到隐藏层,最后到输出层)传递以产生输出的过程。网络应用权重和偏置到输入,并使用激活函数生成最终输出。
【26】FoundationModel基础模型:在广泛数据上训练的大型AI模型,用于适应特定任务。
【27】GeneralAdversarialNetwork(GAN)生成对抗网络(GAN)一种用于生成与某些现有数据相似的新数据的机器学习模型。它将两个神经网络互相对抗:一个“生成器”创建新数据,一个“判别器”试图区分该数据和真实数据。
【28】GenerativeAI生成型AI:一个专注于创建可以基于现有数据的模式和示例生成新的、原创的内容(如图像、音乐或文本)的模型的AI分支。
【29】GPT(GenerativePretrainedTransformer)GPT(生成预训练变压器)由OpenAI开发的大型AI语言模型,可以生成类似人类的文本。
【30】GPU(GraphicsProcessingUnit)GPU(图形处理单元):一种专用的微处理器类型,主要设计用于快速渲染图像以输出到显示器。GPU还非常有效地执行训练和运行神经网络所需的计算。
【31】GradientDescent梯度下降:在机器学习中,梯度下降是一种优化方法,通过根据其损失函数的最大改善方向逐渐调整模型的参数。例如,在线性回归中,梯度下降通过反复调整线的斜率和截距来寻找最佳拟合线,以最小化预测错误。
【32】Hallucinate/Hallucination幻觉/幻想:在AI的上下文中,幻想指的是模型生成的内容不基于实际数据或与现实大相径庭的现象。
【33】HiddenLayer隐藏层:在神经网络中,隐藏层是人工神经元的层,这些神经元并未直接连接到输入或输出。
【34】HyperparameterTuning超参数调优:选择机器学习模型的超参数(数据未学习的参数)的适当值的过程。
【35】Inference推理:用已训练的机器学习模型进行预测的过程。
【36】InstructionTuning指令调优:一种机器学习技术,其中模型根据数据集中给出的特定指令进行微调。
【37】LargeLanguageModel(LLM)大型语言模型(LLM):一种可以生成类人类文本的AI模型,训练在广泛的数据集上。
【38】LatentSpace潜在空间:在机器学习中,这个术语指的是模型(如神经网络)创建的数据的压缩表示。相似的数据点在潜在空间中更接近。
【39】LossFunction(orCostFunction)损失函数(或成本函数)机器学习模型在训练期间试图最小化的函数。它量化了模型预测与真实值的差距。
【40】MachineLearning机器学习一种人工智能类型,使系统能够在无需明确编程的情况下自动学习并从经验中改进。
【41】MixtureofExperts专家混合一种机器学习技术,其中训练了几个专门的子模型(“专家”),并且他们的预测是以取决于输入的方式组合的。
【42】Multimodal多模态在AI中,这指的是可以理解和生成跨多种数据类型(如文本和图像)的信息的模型。
【43】NaturalLanguageProcessing(NLP)自然语言处理(NLP)一个关注计算机和人类通过自然语言进行交互的AI子领域。NLP的最终目标是阅读,解读,理解,并以有价值的方式理解人类语言。
【44】NeRF(NeuralRadianceFields)NeRF(神经辐射场):使用神经网络从2D图像创建3D场景的方法。它可以用于照片真实的渲染,视图合成等等。
【45】NeuralNetwork神经网络:一种受人脑启发的AI模型。它由连接在一起的单位或节点组成——称为神经元——这些神经元按层次组织。神经元接收输入,对它们进行一些计算,并产生输出。
【46】ObjectiveFunction目标函数:机器学习模型在训练期间试图最大化或最小化的函数。
【47】Overfitting过拟合:当一个统计模型或机器学习算法无法充分捕获数据的基础结构时发生的建模错误。
【48】Parameters参数:在机器学习中,参数是模型用来做预测的内部变量。它们在训练过程中从训练数据中学习。例如,在神经网络中,权重和偏差就是参数。
【49】Pre-training预训练:训练机器学习模型的初始阶段,其中模型从数据中学习通用特征、模式和表示,而不需要具体了解将来将应用的任务的具体知识。这种无监督或半监督的学习过程使模型能够发展出对基础数据分布的基础理解,并提取出可以用于特定任务的后续微调中的有意义的特征。
【50】Prompt提示:设置任务或查询模型的初始上下文或指示。
【51】Regularization正则化在机器学习中,正则化是一种用于防止过拟合的技术,通过在模型的损失函数中添加一个惩罚项。这个惩罚阻止模型过度依赖训练数据中的复杂模式,从而提倡更具普遍性和不易过拟合的模型。
【52】ReinforcementLearning强化学习:一种机器学习类型,其中一个代理通过在环境中采取行动来最大化某些奖励来学习做决策。
【53】RLHF(ReinforcementLearningfromHumanFeedback)RLHF(来自人类反馈的强化学习):一种通过学习人类对模型输出给予的反馈来训练AI模型的方法。
【54】Singularity奇点:在AI的上下文中,奇点(也被称为技术奇点)指的是一个假设的未来时点,当时技术增长变得无法控制和不可逆转,导致对人类文明的不可预见的变化。
【55】SupervisedLearning监督学习:一种机器学习类型,在该类型中,模型被提供带有标签的训练数据。
【56】SymbolicArtificialIntelligence符号人工智能:一种利用符号推理解决问题和表示知识的AI类型。
【57】TensorFlow:由Google开发的用于构建和训练机器学习模型的开源机器学习平台。
【58】TPU(TensorProcessingUnit)TPU(张量处理单元):Google专门开发的用于加速机器学习工作负载的一种微处理器类型。
【59】TrainingData训练数据:用于训练机器学习模型的数据集。
【60】TransferLearning迁移学习:机器学习中使用预训练模型用于新问题的一种方法。
【61】Transformer:主要用于处理自然语言等序列数据的一种特定类型的神经网络架构。由于一种叫做“注意力”的机制,Transformer模型能够处理数据中的长距离依赖关系,这种机制允许模型在产生输出时权衡不同输入的重要性。
【62】Underfitting欠拟合:当统计模型或机器学习算法不能充分捕获数据的基础结构时发生的建模错误。
【63】UnsupervisedLearning无监督学习:一种机器学习类型,其中模型并未提供带标签的训练数据,而必须自行识别数据中的模式。
【64】ValidationData验证数据:机器学习中用于调整超参数(即,架构,而非权重)的模型的数据集子集,该子集与训练和测试数据集分开。
【65】XAI(ExplainableAI)XAI(可解释的AI):一种AI子领域,专注于创建提供其决策的清晰和可理解解释的透明模型。
【66】Zero-shotLearning零样本学习:一种机器学习类型,其中模型对在训练期间未见过的条件进行预测,无需任何微调。
人工智能——数据挖掘1
1.概述从技术角度,数据挖掘(datamining)是从大量的不完全的、有噪南的(模糊的随机的实际应用数据中提取隐含在其中的、人们事先不知道的,但又是潜化有用的信身和知识的过程。与数据挖掘相近的同义词包括数据融合、数据分析和决策持第。预处理过程这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的:发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
从商业角度,数据挖掘是一.种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。
简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的有效方法。
数据挖掘作为一一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。
此外数据挖掘还与神经网络、模式识别、空间数据分析图像处理、信号处理、概率论、图论和归纳逻辑等领域关系密切。
数据挖掘与统计学有密切关系.近几年.人们逐渐发现数据挖掘中有许多工作是由统计方法来完成的。甚至有些人(尤其是统计学家)认为数据挖掘是统计学的一个分支,当然大多数人(包括绝大多数数据挖掘研究人员)并不这么认为。
但是,统计学和数据挖掘的目标非常相似,而且数据挖掘中的许多算法也源于数理统计,统计学对数据挖掘发展的贡献功不可没。
数据挖掘与传统数据分析方法主要有以下两点区别:
首先,数据挖掘的数据源与以前相比有了显著的改变,包括数据是海量的,数据有噪声,数据可能是非结构化的。
其次,传统的数据分析方法一般都是先给出一个假设,然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来的。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。
在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”里面的数据几乎不再被访问。也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,也就演化为数据挖掘。
研究数据挖掘的目的,不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息进而获得利润。目前所有企业北面临的一个共同问题是,企业数据量非常大.而其中真正有价值的信息却很少,因此需要经过深层分析,从大量的数据中获得有利于商业运作,提高竞争力的信息,就像从矿石中石中淘金一样.数据挖掘也由此而得名。