中欧人工智能产创融合峰会成功举办
6月16日,第十三届中国留学人员南京国际交流与合作大会——中欧人工智能产创融合峰会在南京国际博览会议中心举行。本次峰会以“AI赋能新时代,融创驱动新业态”为主题,围绕人工智能与实体经济的深度融合这一主线。
上午9时30分,中欧人工智能产创融合峰会正式开幕。南京市工信局副局长乔翠聪发表致辞:当前人工智能技术发展迅猛,人工智能产业已成为当今世界国际竞争的新焦点、经济发展的新引擎、推进供给侧改革的新动能、振兴实体经济的新机遇。南京市高度重视人工智能产业发展,采取了一系列措施,开展了一系列工作,具备一定基础。下一步将加大开放交流合作力度,推动人工智能与实体经济深度融合为主线,以智能制造为切入点,通过聚集整合创新资源、支持核心突破、提供广泛应用场景,发展壮大重点智能产品等措施,推动新—代人工智能产业发展,力争把人工智能产业打造成为工业和信息化行业的新亮点。
本届峰会邀请到了法国科学院、德国科学院、欧洲科学院三院院士EricWesthof(韦斯特霍夫)院士,欧洲科学与艺术院院士、英国曼彻斯特城市大学终身教授石昕院士,前新加坡国立大学工业系统工程系系主任林良才教授,中国人工智能学会理事、南京大学计算机系副主任高阳教授,南京航空航天大学计算机科学与技术学院(人工智能学院)副院长、国家优秀青年基金获得者张道强教授,东南大学计算机科学与工程学院博士生导师杨鹏教授,EricWesthof(韦斯特霍夫)院士通过远程连线为大家分享了《人工智能再RNA结构预测中的应用》,石昕院士通过远程连线为大家分享了《基于对于融合、统计和AI交叉的研究方法》,新加坡国立大学教授林良才为大家介绍了《从虚拟新加坡国立大学园区到智慧城市》,南京大学高阳教授现场为大家分享了《南京人工智能产业链发展的若干思考》,南航张道强教授现场为大家分享了《脑影像智能分析与脑疾病早期诊断》,东南大学杨鹏教授给大家介绍了《支持互联网治理的内容元素国家标准》,6位人工智能专家围绕大会主题,结合各自研究成果与实践探索,对人工智能的现实与未来,以及人工智能在制造、互联网、5G、航天、能源等领域的发展和应用进行了分享。
记者现场采访了参会人员南京玖佰智能科技有限公司总经理陈福立,陈福立说,参加人工智能的活动很多,第一次同时听两位院士分享专业领域知识,今天的学习让他更深入的学习到了专业的知识,更多的了解到了国际人工智能产业发展的动态,通过今天的峰会,跟南京高校的教授们做了跟深层次的交流并达成初步产学研共建意向。记者了解到参加本次峰会的多数为留学人员和国内从事人工智能产业的硕、博人才,一位参会留学人员杨博士说虽然第一次来南京,但是对南京这座城市感觉特别好,感谢南京市政府举办高规格的人工智能峰会,通过参加这次峰会帮助他不仅认识了6位人工智能领域专家,而且结识了很多从事人工智能工作的朋友,还认识了几位人工智能领域企业负责人,通过跟江宁一家企业负责人交流初步达成就业意向,已经跟企业约好活动结束后到该企业去看看,参会人员对本次峰会给与高度评价,希望能更多的组织类似活动,帮助大家学习更多的人工智能专业知识,了解更多的行业前沿资讯,提供更好的交流平台。
最全人工智能专业术语表(中英文对照)
人工智能不仅是指寻求如何替代人类的机器人或人类寻求自我挑战的游戏,更是指运用复杂的程序化数学,其结果与高质量的训练数据相结合,推动了我们在日常生活中所看到的技术进步。从无人驾驶汽车到寻找癌症的治疗方法,人工智能正在逐渐渗透我们的生活之中。
以下是内容由“澳鹏|AI与机器学习干货大本营”编辑,希望能帮助对人工智能领域感兴趣的学者或是专业人士,如果有任何遗漏也请随时回复我们,我们将及时更新!(按英语首字母顺序排列)
AA/BTesting(A/B测试)一种受控的真实实验,用于比较系统或模型的两个变体A和B。
ActivationFunction(激活函数)在人工神经网络的情境中,接受来自上一层的所有输入的加权和并生成输出值来激活下一层的函数。
ActiveLearning(ActiveLearningStrategy)(主动学习/主动学习策略)半监督机器学习的一种特殊情况,在这种情况下,学习代理能够以交互的方式查询数据库(通常是人工标注员),以获取新数据点的标签。
Algorithm(算法)一种关于如何解决某一类问题的过程的明确规范,它能够执行计算、处理数据并进行自动推理。
Annotation(标注)附加到一条数据之上的元数据,通常由人工标注员提供。
AreaUndertheCurve(AUC)(曲线下面积)机器学习中用于确定在多个使用的模型中哪个模型具有最高性能的一种方法。
ArtificialIntelligence(人工智能)机器模拟人类智力和行为做出决策、执行任务的能力。
ArtificialNeuralNetworks(人工神经网络)由简单互联单元(称作神经元)的连续层所构成的一种架构,这些单元与非线性激活函数交织在一起,会让人模糊地联想到动物大脑中的神经元。
AssociationRuleLearning(关联规则学习)一种基于规则的机器学习方法,用于发现大型数据集中变量之间的关系。
Autoencoder(自动解码器)一种人工神经网络,用于以无监督、非线性的方式生成高效的数据表示,通常用于降低维度。
AutomatedSpeechRecognition(自动语音识别)计算语言学的一个子领域,主要是关于通过计算机识别和翻译口语的方法。
BBackpropagation(BackpropagationThroughTime)(反向传播/基于时间的反向传播)用于训练人工神经网络,进而计算网络权重计算所需梯度的一种方法。
Batch(批量)在模型训练的单个梯度更新中使用的示例集。
Bayes’sTheorem(贝叶斯定理)统计学家根据可能与某个存在相关的先验条件知识描述某个事件的概率时所用的一个著名定理。
Bias(InductiveBias,ConfirmationBias)(偏差-归纳偏差、确认偏差)归纳偏差:学习者在给定输入条件下预测尚未遇到的输出时所用的假设事项集。确认偏差:以确认自己的信念或假设的方式搜索、解释、赞成和回想信息,而较少关注与之相矛盾的信息的趋势。
Bias-VarianceTradeoff(偏差与方差权衡)当数据科学家尝试同时最大程度地减小偏差和方差时所产生的冲突,该冲突不利于监督算法推广到他们的训练集范围之外。
Boosting(提升)主要用于减少监督学习中的偏差和方差的一种机器学习集成元算法,以及将弱学习者转化为强学习者的一系列机器学习算法。
BoundingBox(边界框)完全包含一组点或一个对象的最小(矩形)框。
CChatbot(聊天机器人)一种旨在通过对话与人类用户进行交互的计算机程序或AI。
Classification(分类)对映射函数进行从输入变量到离散输出变量的近似处理的任务,或者从广义上来说,是指用于确定特定实例所属的类的某一类机器学习算法。
Clustering(聚类)在机器学习中,是指对一组对象进行分组,使得同一组(即集群)中的对象彼此之间的“相似性”高于与其他组中的对象“相似性”的无监督任务。
Cold-Start(冷启动)由于系统无法针对尚未收集到足够信息的用户或项目推断出任何信息而引起的潜在问题。
CollaborativeFiltering(协作过滤)在推荐系统中使用的一种方法,用于通过收集来自较大用户组的偏好来预测用户的兴趣。
ComputerVision(计算机视觉)机器学习的领域之一,主要研究如何获得对图像或视频的高级理解。
ConfidenceInterval(置信区间)一种区间估计,可能包含未知总体参数的真实值。该区间与置信水平相关,而置信水平用于量化参数在区间中的置信度。
Contributor(贡献者)提供标注服务的人工标注员。
ConvolutionalNeuralNetwork(CNN)(卷积神经网络)一种深层、前馈人工神经网络类别,通常用于计算机视觉。
CentralProcessingUnit(CPU)(中央处理单元)计算机中通过执行指令指定的基本算术、逻辑、控制和输入/输出操作来执行计算机程序的指令的电子电路。
Cross-Validation(k-foldCross-Validation,Leave-p-outCross-Validation)(交叉验证-k折交叉验证、留p法交叉验证)旨在评估如何将预测模型的结果推广到新数据集的一组流程,包括k折交叉验证及留p法交叉验证。
DData(StructuredData,UnstructuredData,Dataaugmentation)(数据-结构化数据、非结构化数据、数据增强)所有机器学习和人工智能项目的最基本要素。
非结构化数据:未经处理的原始数据。文本数据是非结构化数据的完美示例,因为它没有格式化为特定功能。
结构化数据:以机器学习算法可摄取的方式处理的数据;如果是监督机器学习,则为已标记的、经处理后的数据。
数据增强:将内外部来源衍生的新信息添加到数据集的过程(一般通过标注来实现)。
DecisionTree(决策树)监督机器学习算法的一个类别,在此类算法中,数据会根据给定参数或条件进行迭代拆分。
DeepBlue(深蓝)由IBM开发的国际象棋游戏计算机,作为全球首个在常规时限内同时战胜了国际象棋游戏和国际象棋比赛卫冕世界冠军的计算机国际象棋游戏系统而闻名。
DeepLearning(DeepReinforcementLearning)(深度学习/深度强化学习)与特定任务的算法相反,基于学习数据表示的更广泛的机器学习方法系列。深度学习包括监督学习、半监督学习或无监督学习。
维度(降维、维度灾难)降维:通过获取一组主变量来减少所考虑的随机变量数量的过程。另请参见特征选择。
维度灾难:由于维数越多,可用数据量越稀疏这一事实,在高维空间中分析和组织数据时出现的一种现象。
EEmbedding(WordEmbedding)(嵌入/词嵌入)某个实例中所含的某个数学结构的另一个实例,例如作为另一个组的子组的组。
EnsembleMethods(集成方法)在统计和机器学习中,集成方法使用多种学习算法来获得更好的预测性能,而这种性能可以单独从任何组合式学习算法中获得。与统计力学中通常是无限的统计集成不同,机器学习集成仅由一组有限的替代模型组成,但通常允许在这些替代模型之间存在更灵活的结构。
Entropy(熵)随机数据源传达的平均信息量。
Epoch(时期)在深度学习模型训练场景中,完整训练数据集的一次训练循环。
FFeature(FeatureSelection,FeatureLearning)(特征-特征选择、特征学习)用作模型输入的变量。
FeatureLearning(特征学习)旨在自动从原始数据中发现特征检测或分类所需的表示的一组技术。
FalsePositive(误报)由于结果在虚无假设原本不应该存在的情况下拒绝虚无假设而导致的误差。
FalseNegative(漏报)由于结果在虚无假设应该存在的情况下未拒绝虚无假设而导致的误差。
Feed-Forward(Neural)Networks(前馈神经网络)一种人工神经网络,其中神经元之间的连接不会向后移动或形成循环。
F-Score(F得分)衡量模型准确性的一个指标,它会考量准确率和召回率来计算得分。更具体地说,F得分是准确率和召回率的调和平均值,该平均值的最大值为1(完美的准确率和召回率),最小值为0。
GGarbageIn,GarbageOut(垃圾进垃圾出)一项原则,具体说的是:只要输入数据存在缺陷,就会导致误导性的结果并产生无意义的输出,也就是“垃圾”。
GeneralDataProtectionRegulation(GDPR)(通用数据保护条例)欧盟颁布的一部针对欧盟内所有个体的数据保护和隐私法规,旨在控制公民和居民对其个人数据的控制。
GeneticAlgorithm(遗传算法)基于进化论的一种启发式搜索算法,进化论反映了自然选择的过程,在这个过程中,最能适应环境的个体会被选出生产下一代。
GenerativeAdversarialNetworks(GANs)(生成对抗网络)无监督机器学习中使用的一种人工智能算法类别,作为零和游戏框架中相互竞争的两个神经网络的组合予以实施。
GraphicProcessingUnit(GPU)(图形处理单元)一种专用的电子电路,它采用并行处理架构,旨在快速操作和更改内存,以加速图像渲染,从而使其可以同时执行多个计算。
GroundTruth(事实真相)通过直接观察(而非推论)获得的一条信息。
HHuman-in-the-Loop(人机协同)人机协同(HITL)是人工智能的一个分支,它同时利用人类智能和机器智能来构建机器学习模型。在传统的“人机协同”方法中,人们会参与到一个良性循环,在其中训练、调整和测试特定算法。
Hyperparameter(HyperparameterTuning)(超参数/超参数优化)模型外部的一种配置,其值无法从数据中估算出来,数据科学家会在模型训练过程中不断对其进行调整。-手动确定训练特定模型最佳配置的过程。
IImageNet(ImageNet数据集)一个庞大的视觉数据集,由1400万个手工标注图像的URL组成,并以两万个不同类别进行组织,旨在用于视觉对象识别研究。
ImageRecognition(图像识别)计算机视觉中用于确定图像是否包含某些特定对象、特征或活动的问题。
Inference(推理)通过将经训练的模型运用到新的未标记实例来进行预测的过程。
InformationRetrieval(信息检索)计算机科学的一个领域,旨在研究在文档中搜索信息、搜索文档本身、搜索描述数据的元数据以及搜索文本、图像或声音数据库的过程。
LLayer(HiddenLayer)(层/隐藏层)人工神经网络中的一系列神经元,旨在处理一组输入特征,或者从广义上来说,处理这些神经元的输出。
隐藏层:神经元的一层,其输出连接到其他神经元的输入,因此不能作为网络输出直接实现可视化。
Learning-to-Learn(元学习)机器学习领域的一个新方向,主要是研究算法如何通过分析自己的学习过程并对其加以改进来改变其归纳方式。
Learning-to-Rank(排序学习)运用机器学习构建信息检索系统的排名模型。
LearningRate(学习率)梯度下降算法在人工神经网络训练阶段的每次迭代中所用的标量值,与梯度相乘得出结果。
LogitFunction(Logit函数)在数学中(尤其是在统计学中)使用的S型“逻辑”函数的逆函数。
LongShort-TermMemoryNetworks(长短期记忆网络)递归神经网络的一种变体,可用作梯度消失问题的一种解决方案。
MMachineLearning(机器学习)人工智能的一个子领域,通常使用统计技术来赋予计算机“学习”能力,即借助数据来逐步提高特定任务的性能,而无需进行显式编程。
MachineLearningLifecycleManagement(机器学习生命周期管理)机器学习系统的DevOps。
MachineTranslation(机器翻译)计算语言学的一个子领域,主要是研究如何使用软件将文本或语音从一种语言翻译成另一种语言。
Model(模型)模型是机器学习系统通过训练过程从训练数据中所学到内容的抽象表示。
MonteCarlo(蒙特卡洛方法)一种使用重复随机采样生成合成模拟数据的近似方法。
Multi-ModalLearning(多模式学习)机器学习的一个子领域,旨在将多模式信号合并到一起进行解释,并构建模型来处理和关联来自多种数据类型的信息。
Multi-TaskLearning(多任务学习)机器学习的一个子领域,同时利用多个任务之间的异同来解决多个任务。
NNaiveBayes(朴素贝叶斯)基于贝叶斯定理并在特征之间具有很强的独立性假设的一系列简单概率分类器。
NamedEntityRecognition(命名实体识别)信息提取的一个子任务,旨在将文本中的命名实体识别和分类为预定类别,例如名称、位置、词性等。
NaturalLanguageProcessing(NLP)(自然语言处理)人工智能领域之一,主要是研究计算机语言与人类语言之间的交互,尤其是如何处理和分析大量自然语言数据。
NeuralNetworks(神经网络)参见人工神经网络。
Neuron(神经元)人工神经网络中的一个单元,用以处理多个输入值,以生成单个输出值。
Node(节点)参见神经元。
OOpticalCharacterRecognition(光学字符识别)将打印、手写或键入文本的图像转换为机器友好的文本格式。
Optimization(优化)从可用替代方案中(基于某些标准)选择最佳方案。
Overfitting(过度拟合)模型在不知情的情况下识别出噪声中的模式并假设这些模式代表了底层结构;模型的生成结果与特定数据集过于接近,因此无法很好地归纳到不可见的观察结果。
PPatternRecognition(模式识别)机器学习的领域之一,主要专注于数据模式的(监督或无监督)识别。
Pooling(MaxPooling)(轮询/最大轮询)将卷积层生成的矩阵缩减为较小矩阵的过程。
PersonallyIdentifiableInformation(个人可识别信息)可以单独使用或与某些其他信息结合使用,以识别特定个人的任何信息。
Precision(准确率)正确的阳性结果数除以分类器返回的所有样阳性结果数。
Prediction(预测)带有输入实例的训练模型的推断输出。
Preprocessing(预处理)将原始数据转换为更易理解格式的过程。
Pre-trainedModel(预训练模型)通常已使用另一个数据集进行了初步训练的模型或模型的组成部分。另请参见:转移学习。
PrincipalComponentAnalysis(主组件分析)使用正交变换将一组可能相关变量的观测值转换为一组线性不相关变量(称为主组件)的过程。
Prior(先前技术)在考虑新证据之前,代表特定数量的先前存在信念的概率分布。
RRandomForest(随机森林)一种集成学习方法,其工作原理是在训练时构造大量决策树并输出每个单独树的结果的组合版本(例如均值或众数)。
Recall(召回率)所有相关样本中被正确分类为阳性的样本数所占百分比。
RectifiedLinearUnit(整流线性单元)使用整流函数作为激活函数的单元。
RecurrentNeuralNetworks(递归神经网络)人工神经网络的类别之一,其中神经元之间的连接沿着序列形成有向图,使其表现出时序动态时间行为并使用其内部状态(内存)来处理顺序信号。
Regression(LinearRegression,LogisticRegression)(回归-线性回归、逻辑回归)一组用于估计变量间关系的统计过程。
线性回归:一种简单的回归类型,以特征的线性组合作为输入,并输出连续值。
逻辑回归:一种回归类型,通过将S型函数运用到线性预测对分类问题中每个可能的离散标签值生成概率。
Regressor(回归器)一种特征,即用作模型输入的解释性变量。
Regularization(正则化)引入额外信息以防过度拟合的过程。
ReinforcementLearning(强化学习)机器学习的子领域之一,主要是受人类行为的启发,研究代理应如何在给定的环境中采取行动,以实现累积奖励概念的最大化。
Reproducibility(crisisof)(可再现性危机)科学领域的一种方法论危机,即学者们发现:许多科学研究的结果很难或不可能在独立研究人员或最初研究人员自己的后续研究中复制或再现。
RestrictedBoltzmannMachines(受限玻尔兹曼机)受限玻尔兹曼机(RBM)是一种生成型随机人工神经网络,可以学习其输入集上的概率分布。
SSemi-SupervisedLearning(半监督学习)监督学习技术的一个类别,它还可以利用可用的未标记数据进行训练,通常结合使用少量的已标记实例与大量的未标记行。另请参见监督学习和无监督学习。
情绪分析(SentimentAnalysis)使用自然语言处理、文本分析、计算语言学和生物特征识别等功能系统地识别、提取、量化和研究受影响的状态和主观信息。
SpeechRecognition(语音识别)参见自动语音识别。
StatisticalDistribution(统计分布)在统计学中,经验分布函数是指与样本的经验指标相关的分布函数。该累积分布函数是一个阶跃函数,在n个数据点中的每个数据点上都跳了1/n次。它在测量变量的任何指定值处的值都是小于或等于对应指定值的测量变量观察值的分数。
SupervisedLearning(监督学习)一种机器学习任务,主要是指基于示例输入/输出对学习将输入映射到输出的函数。
SupportVectorMachines(SVM)(支持向量机)由一个单独的超平面正式定义的一种判别分类器类别,对于每个提供的带标记训练数据点,算法都会输出一个对新示例进行分类的最佳超平面。
SyntheticData(合成数据)当无法收集足够的实际数据或原始数据不满足特定要求时人工生成的数据。
TTensorFlow(TensorFlow代码库)一种开源代码库,在机器学习社区中非常流行,用于跨一系列任务的数据流编程。它是一个符号数学库,还可用于神经网络等机器学习应用。
TimeSeries(TimeSeriesData)(时序/时序数据)在特定时间记录并根据它们的出现顺序进行索引处理的一系列数据点。
Testing(TestingData)(测试/测试数据)测试是指在监督机器学习情境中,使用保留数据评估模型最终性能的过程。
测试数据:数据科学家针对模型开发的测试阶段而选择的可用数据的子集。
TopicModeling(主题建模)无监督机器学习算法的一种类别,它使用聚类功能在文本数据中查找隐藏的结构并作为一个主题对其进行解释。
TrainingData(训练数据)在监督机器学习情境中,构建可从数据中学习并根据数据进行预测的算法。
训练数据:数据科学家针对模型开发的训练阶段而选择的可用数据的子集。
TransferLearning(转移学习)机器学习的一个领域,其重点在于使用获得的知识来解决特定问题,并将此类知识运用到其他相关问题。
TuringTest(图灵测试)由艾伦·图灵开发的一种测试,用于评估机器表现出与人类相同的智能行为的能力。该测试包括人机聊天。如果在测试房间之外见证对话的评估人员不能可靠地区分人类与受测机器,则可以认定该机器已经通过了图灵测试。
TypeIError(I类误差)参见误报。
TypeIIError(II类误差)参见漏报。
UUncertainty(不确定性)可能包含真实值的一系列值。
Underfitting(拟合不足)机器学习算法无法正确捕获数据的底层结构,通常是因为模型不够高级或不适用于当前任务;与过度拟合的涵义相反。
UnsupervisedLearning(无监督学习)机器学习的领域之一,包括对用于描述未标记数据结构的函数进行推断。
VValidation(验证)使用保留数据评估训练模型性能的过程;与模型性能最终评估的测试阶段相反,验证阶段旨在确定是否需要对模型进行任何迭代修改。
Vanishing/ExplodingGradients(消失/爆炸梯度)数据科学家在采用基于梯度的学习方法和反向传播对人工神经网络进行训练时,由于神经网络中接收与误差函数偏导数成比例的更新的权重(考虑到每个训练迭代中的当前权重)而面临的可怕困难和主要障碍。
Variance(方差)由于对训练集中小波动的敏感性而引起的误差,该误差按照针对随机变量与其平均值的平方偏差的期望值进行计算。
本文如有任何遗漏/修正,欢迎留言与我们联系,我们将及时进行更新和调整。
208个最新最全大数据/人工智能专有名词术语 中英对照(强烈推荐收藏)
一个产业的蓬勃发展离不开基础知识点的整理与沉淀。
我们相信这一份「208个关于大数据和人工智能的专用名词术语」中英文对照版;会成为大家以后日常工作中常用的工具,无论是你在翻译、写产品文档、写论文、又或者尝试国外新技术的时候都会用得上。所以,我们很高兴可以把它整合并且分享出来,并且按照字母进行了排序。
由于文字太多,今天先放出从A-I部分,明天会放出J-Z部分。
感谢大家长期以来的关注和支持。
A
ApacheKafka:命名于捷克作家卡夫卡,用于构建实时数据管道和流媒体应用。它如此流行的原因在于能够以容错的方式存储、管理和处理数据流,据说还非常「快速」。鉴于社交网络环境大量涉及数据流的处理,卡夫卡目前非常受欢迎。
对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系
ApacheMahout:Mahout提供了一个用于机器学习和数据挖掘的预制算法库,也可用作创建更多算法的环境。换句话说,机器学习极客的最佳环境。
ApacheOozie:在任何编程环境中,你都需要一些工作流系统通过预定义的方式和定义的依赖关系,安排和运行工作。Oozie为pig、MapReduce以及Hive等语言编写的大数据工作所提供正是这个。
应用程序开发(APPDEV):应用程序开发是根据用户要求建造出软件系统或者系统中的软件部分的过程,包括需求捕捉、需求分析、设计、实现和测试的系统工程。一般是用某种程序设计语言来实现的。通常采用应用程序开发工具可以进行开发。
ApacheDrill,ApacheImpala,ApacheSparkSQL:这三个开源项目都提供快速和交互式的SQL,如与ApacheHadoop数据的交互。如果你已经知道SQL并处理以大数据格式存储的数据(即HBase或HDFS),这些功能将非常有用。抱歉,这里说的有点奇怪。
ApacheHive:知道SQL吗?如果知道那你就很好上手Hive了。Hive有助于使用SQL读取、写入和管理驻留在分布式存储中的大型数据集。
ApachePig:Pig是在大型分布式数据集上创建、查询、执行例程的平台。所使用的脚本语言叫做PigLatin(我绝对不是瞎说,相信我)。据说Pig很容易理解和学习。但是我很怀疑有多少是可以学习的?
ApacheSqoop:一个用于将数据从Hadoop转移到非Hadoop数据存储(如数据仓库和关系数据库)的工具。
ApacheStorm:一个免费开源的实时分布式计算系统。它使得使用Hadoop进行批处理的同时可以更容易地处理非结构化数据。
人工智能(ArtificialIntelligence):研发智能机器和智能软件,这些智能设备能够感知周遭的环境,并根据要求作出相应的反应,甚至能自我学习
聚合(Aggregation) –搜索、合并、显示数据的过程
算法(Algorithm):算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么,「算法」又是何以与大数据扯上关系的呢?要知道,尽管算法这个词是一个统称,但是在这个流行大数据分析的时代,算法也经常被提及且变得越发流行。
异常检测(Anomalydetection) –在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers,exceptions,surprises,contaminants.他们通常可提供关键的可执行信息
匿名化(Anonymization) –使数据匿名,即移除所有与个人隐私相关的数据
应用(Application) –实现某种特定功能的计算机软件
分析法(Analytics):用于发现数据的内在涵义。让我们试想一个很可能发生的情况,你的信用卡公司给你发了封记录着你全年卡内资金转账情况的邮件,如果这个时候你拿着这张单子,开始认真研究你在食品、衣物、娱乐等方面消费情况的百分比会怎样?你正在进行分析工作,你在从你原始的数据(这些数据可以帮助你为来年自己的消费情况作出决定)中挖掘有用的信息。那么,如果你以类似的方法在推特和脸书上对整个城市人们发的帖子进行处理会如何呢?在这种情况下,我们就可以称之为大数据分析。所谓大数据分析,就是对大量数据进行推理并从中道出有用的信息。以下有三种不同类型的分析方法,现在我们来对它们分别进行梳理。
B
批处理(Batchprocessing):尽管批量数据处理从大型机(mainframe)时代就已经存在了,但是在处理大量数据的大数据时代面前,批处理获得了更重要的意义。批量数据处理是一种处理大量数据(如在一段时间内收集到的一堆交易数据)的有效方法。分布式计算(Hadoop),后面会讨论,就是一种专门处理批量数据的方法。
行为分析(BehavioralAnalytics):你有没有想过谷歌是如何为你需要的产品/服务提供广告的?行为分析侧重于理解消费者和应用程序所做的事情,以及如何与为什么它们以某种方式起作用。这涉及了解我们的上网模式,社交媒体互动行为,以及我们的网上购物活动(购物车等),连接这些无关的数据点,并试图预测结果。举一个例子,在我找到一家酒店并清空购物车后,我收到了度假村假期线路的电话。我还要说多点吗?
商业智能(BusinessIntelligence):我将重用Gartner对BI的定义,因为它解释的很好。商业智能是一个总称,包括应用程序、基础设施、工具以及最佳实践,它可以访问和分析信息,从而改善和优化决策及绩效。
生物测定学(Biometrics):这是一项JamesBondish技术与分析技术相结合的通过人体的一种或多种物理特征来识别人的技术,如面部识别,虹膜识别,指纹识别等。
描述性分析法(DescriptiveAnalytics):如果你只说出自己去年信用卡消费情况为:食品方面25%、衣物方面35%、娱乐方面20%、剩下20%为杂项开支,那么这种分析方法被称为描述性分析法。当然,你也可以找出更多细节。
大数据科学家(BigDataScientist):能够设计大数据算法使得大数据变得有用的人
大数据创业公司(Bigdatastartup):指研发最新大数据技术的新兴公司
B字节(BB:Brontobytes):约等于1000YB(Yottabytes),相当于未来数字化宇宙的大小。1B字节包含了27个0!
大数据(Bigdata):指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
数据科学平台(Datascienceplatforms):是数据科学家创造和测试数据科学解决方案的工作平台。按照高德纳的定义,数据科学平台是“由紧密相关的多项数据处理核心技术模块组合而成的软件系统,以支持各类数据科学解决方案的开发及其在业务流程、周边基础设施和产品中的应用。
C
点击流分析(Clickstreamanalytics):用于分析用户在网络上浏览时的在线点击数据。有没有想过即使在切换网站时,为什么某些谷歌广告还是阴魂不散?因为谷歌大佬知道你在点击什么。
聚类分析(ClusterAnalysis):是一个试图识别数据结构的探索性分析,也称为分割分析或分类分析。更具体地说,它试图确定案例的同质组(homogenousgroups),即观察、参与者、受访者。如果分组以前未知,则使用聚类分析来识别案例组。因为它是探索性的,确实对依赖变量和独立变量进行了区分。SPSS提供的不同的聚类分析方法可以处理二进制、标称、序数和规模(区间或比率)数据。
比较分析(ComparativeAnalytics):因为大数据的关键就在于分析,顾名思义,比较分析是使用诸如模式分析、过滤和决策树分析等统计技术来比较多个进程、数据集或其他对象。我知道它涉及的技术越来越少,但是我仍无法完全避免使用术语。比较分析可用于医疗保健领域,通过比较大量的医疗记录、文件、图像等,给出更有效和更准确的医疗诊断。
关联分析(ConnectionAnalytics):你一定看到了像图表一样的蜘蛛网将人与主题连接起来,从而确定特定主题的影响者。关联分析分析可以帮助发现人们、产品、网络之中的系统,甚至是数据与多个网络结合之间的相关连接和影响。
Cassandra:是一个很流行的开源数据管理系统,由ApacheSoftwareFoundation开发并运营。Apache掌握了很多大数据处理技术,Cassandra就是他们专门设计用于在分布式服务器之间处理大量数据的系统。
云计算(Cloudcomputing):构建在网络上的分布式计算系统,数据是存储于机房外的(即云端),软件或数据在远程服务器上进行处理,并且这些资源可以在网络上任何地方被访问,那么它就可被称为云计算。
集群计算(Clustercomputing):这是一个来描述使用多个服务器丰富资源的一个集群(cluster)的计算的形象化术语。更技术层面的理解是,在集群处理的语境下,我们可能会讨论节点(node)、集群管理层(clustermanagementlayer)、负载平衡(loadbalancing)和并行处理(parallelprocessing)等等。
分类分析(Classificationanalysis) :从数据中获得重要的相关性信息的系统化过程;这类数据也被称为元数据(metadata),是描述数据的数据。
商业分析(Commerceanalytics):指的是包括审视预计的销售额、成本和利润是否达到公司预计目标;如达到,则此产品概念才能进一步发展到产品开发阶段。
聚类分析(Clusteringanalysis) –它是将相似的对象聚合在一起,每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。
冷数据存储(Colddatastorage) –在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时。
众包(Crowdsourcing):从一广泛群体,特别是在线社区,获取所需想法,服务或内容贡献的实践。
集群服务器(Clusterserver):把多台服务器通过快速通信链路连接起来,从外部看来,这些服务器就像一台服务器在工作,而对内来说,外面来的负载通过一定的机制动态地分配到这些节点机中去,从而达到超级服务器才有的高性能、高可用。
对比分析(Comparativeanalysis) –在非常大的数据集中进行模式匹配时,进行一步步的对比和计算过程得到分析结果。
复杂结构的数据(Complexstructureddata) –由两个或多个复杂而相互关联部分组成的数据,这类数据不能简单地由结构化查询语言或工具(SQL)解析。
计算机产生的数据(Computergenerateddata) –如日志文件这类由计算机生成的数据。
并发(Concurrency) –同时执行多个任务或运行多个进程。
相关性分析(Correlationanalysis) –是一种数据分析方法,用于分析变量之间是否存在正相关,或者负相关。
客户关系管理(CRM:CustomerRelationshipManagement) –用于管理销售、业务过程的一种技术,大数据将影响公司的客户关系管理的策略。
云数据(Clouddata):是基于云计算商业模式应用的数据集成、数据分析、数据整合、数据分配、数据预警的技术与平台的总称。
D
数据分析师(DataAnalyst):数据分析师是一个非常重要和受欢迎的工作,除了准备报告之外,它还负责收集、编辑和分析数据。
数据清洗(DataCleansing):顾名思义,数据清洗涉及到检测并更正或者删除数据库中不准确的数据或记录,然后记住「脏数据」。借助于自动化或者人工工具和算法,数据分析师能够更正并进一步丰富数据,以提高数据质量。请记住,脏数据会导致错误的分析和糟糕的决策。
数据即服务(DaaS):通过给用户提供按需访问的云端数据,DaaS提供商能够帮助我们快速地得到高质量的数据。
数据虚拟化(Datavirtualization):这是一种数据管理方法,它允许某个应用在不知道技术细节(如数据存放在何处,以什么格式)的情况下能够抽取并操作数据。例如,社交网络利用这个方法来存储我们的照片。
脏数据(DirtyData):脏数据就是不干净的数据,换言之,就是不准确的、重复的以及不一致的数据。显然,你不会想着和脏数据搅在一起。所以,尽快地修正它。
暗数据(Darkdata):公司积累和处理的实际上完全用不到的所有数据,从这个意义上来说我们称它们为「暗」的数据,它们有可能根本不会被分析。这些数据可以是社交网络中的信息,电话中心的记录,会议记录等等。很多估计认为所有公司的数据中有60%到90%不等可能是暗数据,但实际上没人知道。
数据流(datastream):最初是通信领域使用的概念,代表传输中所使用的信息的数字编码信号序列。然而,我们所提到的数据流概念与此不同。
数据湖(Datalake):即一个以大量原始格式保存了公司级别的数据知识库。这里我们介绍一下数据仓库(Datawarehouse)。数据仓库是一个与这里提到的数据湖类似的概念,但不同的是,它保存的是经过清理和并且其它资源整合后的结构化数据。数据仓库经常被用于通用数据(但不一定如此)。一般认为,一个数据湖可以让人更方便地接触到那些你真正需要的数据,此外,你也可以更方便地处理、有效地使用它们。
数据资源管理(DataResources):是应用信息技术和软件工具完成组织数据资源管理任务的管理活动。
数据源(DataSource):顾名思义,数据的来源,是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,你可以找到相应的数据库连接。
数据挖掘(Datamining):从一大群数据中以复杂的模式识别技巧找出有意义的模式,并且得到相关洞见。
数据分析平台(Dataanalystplatforms): 主要通过集成企业内部运营支撑系统和外部数据,包括交易型大数据(BigTransactionData)和交互型大数据(BigInteractionData),通过多种云计算的技术将之集成和处理,向企业内部和外部企业客户提供有极大商业价值的信息支撑和智能解决方案,基于大数据平台建设的数据仓库的基础上,提供报表工具,分析工具,结合企业的实际需求进行的解决方案实施服务;企业的管理人员、业务分析人员等可以通过web、手机或其它移动设备访问,以便随时了解企业的关键指标和进行深度业务分析。
分布式文件系统(DistributedFileSystem):大数据数量太大,不能存储在一个单独的系统中,分布式文件系统是一个能够把大量数据存储在多个存储设备上的文件系统,它能够减少存储大量数据的成本和复杂度。
仪表板(Dashboard):使用算法分析数据,并将结果用图表方式显示于仪表板中。
数据存取(Dataaccess):是指数据库数据存贮组织和存贮路径的实现和维护。
数据传送(datatransfer):是指在数据源和数据宿之间传送数据的过程,也称数据通信。
数据聚合工具(Dataaggregationtools) :将分散于众多数据源的数据转化成一个全新数据源的过程。
数据库(Database) :一个以某种特定的技术来存储数据集合的仓库。
数据库管理系统(DBMS:DatabaseManagementSystem):收集、存储数据,并提供数据的访问。
数据中心(Datacentre) :一个实体地点,放置了用来存储数据的服务器。
数据管理员(Datacustodian) :负责维护数据存储所需技术环境的专业技术人员。
数据道德准则(Dataethicalguidelines) :这些准则有助于组织机构使其数据透明化,保证数据的简洁、安全及隐私。
数据订阅(Datafeed):一种数据流,例如Twitter订阅和RSS。
数据集市(Datamarketplace) :进行数据集买卖的在线交易场所。
数据建模(Datamodelling) :使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义。
数据集(Dataset) :大量数据的集合。
数据虚拟化(Datavirtualization) :数据整合的过程,以此获得更多的数据信息,这个过程通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等。
去身份识别(De-identification) :也称为匿名化(anonymization),确保个人不会通过数据被识别。
判别分析(Discriminantanalysis) :将数据分类;按不同的分类方式,可将数据分配到不同的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进行分析,并从中获取分类规则。
分布式文件系统(DistributedFileSystem) :提供简化的,高可用的方式来存储、分析、处理数据的系统。
文件存贮数据库(DocumentStoreDatabases) 又称为文档数据库(document-orienteddatabase),为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构化数据。
数据治理(DataGovernance) :数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。
数据转换服务(DataTransferService): 主要用作在不同的数据库之间转换数据,比如在SQLServer和Oracle之间转换数据。
数据集成(Dataintegration):是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
E
ETL:ETL代表提取、转换和加载。它指的是这一个过程:「提取」原始数据,通过清洗/丰富的手段,把数据「转换」为「适合使用」的形式,并且将其「加载」到合适的库中供系统使用。即使ETL源自数据仓库,但是这个过程在获取数据的时候也在被使用,例如,在大数据系统中从外部源获得数据。
企业级应用(Enterpriseapplications):其实是一个软件行业内部通用的一个术语。如果解释成通俗易懂的话来说,那就是一个企业范围内所使用的、基于计算机的稳定的、安全的和高效的分布式信息管理系统。
探索性分析(Exploratoryanalysis) :在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法
E字节(EB:Exabytes):约等于1000PB(petabytes),约等于1百万GB。如今全球每天所制造的新信息量大约为1EB。
提取-转换-加载(ETL:Extract,TransformandLoad) –是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库。
企业生产力(Enterrriseproductivity):企业在一定时期为社会提供某种产品或劳务的能力。
F
模糊逻辑(Fuzzylogic):我们有多少次对一件事情是确定的,例如100%正确?很稀少!我们的大脑将数据聚合成部分的事实,这些事实进一步被抽象为某种能够决定我们决策的阈值。模糊逻辑是一种这样的计算方式,与像布尔代数等等中的「0」和「1」相反,它旨在通过渐渐消除部分事实来模仿人脑。
故障切换(Failover) :当系统中某个服务器发生故障时,能自动地将运行任务切换到另一个可用服务器或节点上。
架构(Framework):又名软件架构,是有关软件整体结构与组件的抽象描述,用于指导大型软件系统各个方面的设计。
流量监控(Flowmonitoring):流量监控指的是对数据流进行的监控,通常包括出数据、入数据的速度、总流量。微信用户可以在腾讯手机管家4.7上实现流量的精准监控。
容错设计(Fault-tolerantdesign) :一个支持容错设计的系统应该能够做到当某一部分出现故障也能继续运行。
金融(Finance):是人们在不确定环境中进行资源跨期的最优配置决策的行为。
G
游戏化(Gamification) :在其他非游戏领域中运用游戏的思维和机制,这种方法可以以一种十分友好的方式进行数据的创建和侦测,非常有效。
图形数据库(GraphDatabases) :运用图形结构(例如,一组有限的有序对,或者某种实体)来存储数据,这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能,也就是说,数据库中每个元素间都与其他相邻元素直接关联。
网格计算(Gridcomputing) :将许多分布在不同地点的计算机连接在一起,用以处理某个特定问题,通常是通过云将计算机相连在一起。
H
Hadoop 用户体验(HadoopUserExperience/Hue):Hue是一个能够让使用ApacheHadoop变得更加容易的开源接口。它是一款基于web的应用;它有一款分布式文件系统的文件浏览器;它有用于MapReduce的任务设计;它有能够调度工作流的框架Oozie;它有一个shell、一个Impala、一个HiveUI以及一组HadoopAPI。
人力资本(Humancapital):是指劳动者受到教育、培训、实践经验、迁移、保健等方面的投资而获得的知识和技能的积累,亦称“非物力资本”。
硬件设施(Hardware):计算机系统中由电子,机械和光电元件等组成的各种物理装置的总称。
高性能分析应用(HANA):这是SAP公司为大数据传输和分析设计的一个软硬件内存平台。
HBase: 一个分布式的面向列的数据库。它使用HDFS作为其底层存储,既支持利用MapReduce进行的批量计算,也支持利用事物交互的批量计算。
Hadoop –一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算与存储。
Hadoop数据库(HBase) :一个开源的、非关系型、分布式数据库,与Hadoop框架共同使用。
分布式文件系统(HadoopDistributedFileSystem):是一个被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。
高性能计算(HPC:High-Performance-Computing):使用超级计算机来解决极其复杂的计算问题。
部署在云上的Hadoop(Hadoopinthecloud):某些云解决方案完全基于某个特定服务,该服务将会加载并处理数据。例如,借助IBMBluemix,您可以基于IBMInfoSphereBigInsights配置一个MapReduce服务,该服务可以处理高达20GB的信息。但Hadoop服务的大小、配置与复杂性是不可配置的。其他基于服务的解决方案也提供同样类别的复杂性。
I
基础设施即服务(InfrastructureAsa Service):消费者通过Internet可以从完善的计算机基础设施获得服务。这类服务称为基础设施即服务。
基础设施即代码(InfrastructureAsaCode):一种通过源代码就可以解析计算和网络架构的一种方式,然后就可以认为是任何一种软件系统。这些代码可以在源代码管理中被保存以确保可审性和再塑性,受限于测试实践和持续交付的所有准则。这是十几年前就被用在处理成长中的云计算平台的方法,也将会是日后处理计算架构的主要方式。
内存计算(In-memorycomputing):通常认为,任何不涉及到I/O访问的计算都会更快一些。内存计算就是这样的技术,它把所有的工作数据集都移动到集群的集体内存中,避免了在计算过程中向磁盘写入中间结果。ApacheSpark就是一个内存计算的系统,它相对Mapreduce这类I/O绑定的系统具有很大的优势。
物联网(IoT):最新的流行语就是物联网(IoT)。IoT是嵌入式对象中(如传感器、可穿戴设备、车、冰箱等等)的计算设备通过英特网的互联,它们能够收发数据。物联网生成了海量的数据,带来了很多大数据分析的机遇。
内存数据库(IMDB:In-memory) :一种数据库管理系统,与普通数据库管理系统不同之处在于,它用主存来存储数据,而非硬盘。其特点在于能高速地进行数据的处理和存取。
法律上的数据一致性(Juridicaldatacompliance) :当你使用的云计算解决方案,将你的数据存储于不同的国家或不同的大陆时,就会与这个概念扯上关系了。你需要留意这些存储在不同国家的数据是否符合当地的法律。
对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系.