博舍

人工智能之数据预处理(以Iris鸢尾花数据集为例) 人工智能数据集处理包括什么

人工智能之数据预处理(以Iris鸢尾花数据集为例)

首先小关简单介绍一下Iris鸢尾花数据集是经典的例子,在统计学习和机器学习领域常做示例

环境要求anaconda-->sklearn-->jupyternotebook

1.Iris数据加载,从sklearn库中导出数据

 

 2.iris数据展示,Iris鸢尾花分3类花有150条记录

 

3.展示数据含义,这些数据是什么意思呢,我们来打印一下

 

4.每条数据有四个特征分别代表的是花萼长度,花萼宽度,花瓣长度,花瓣宽度,单位cm

5.展示预测结果,根据上面四个特征反馈告诉我们属于哪种花

 

 

6.上面数据0,1,2分别代表三个不同品种的花,具体是什么品种呢,我们来打印一下

 

 

 7.接下来我们要确定数据的类型是什么,展示为numpy.ndarray类型

 

8.接下来我们要确定一下数据的维度(数据有几行几列)是否一致

 

 9.上面展示了特征有150行,4列;品种有150行,1列。

10.最后为了方便调用,我们把数据换成X输入Y输出的对应函数

 

11.打印x,y就可以快速得到我们想要的数据了

 

 

 

 12.到这里Iris鸢尾花数据的预处理也就完成了

希望能帮到大家,问你们要一个赞,你们会给吗,谢谢大家版权声明:本文版权归作者(@攻城狮小关)和CSDN共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。大家写文都不容易,请尊重劳动成果~ 交流加Q:1909561302博客园地址https://www.cnblogs.com/guanguan-com/

人工智能(AI)之模型训练是什么

在机器学习中,经常听到一个词:“模型训练”,不禁疑惑:模型是什么东西?怎么样训练的?训练后得到的结果是什么?

下面用图简单描述个人理解:

在人工智能中,面对大量用户输入的数据/素材,如果要在杂乱无章的内容准确、容易地识别,输出我们期待输出的图像/语音,并不是那么容易的。因此算法就显得尤为重要了。算法就是我们所说的模型。

当然,算法的内容,除了核心识别引擎,也包括各种配置参数,例如:语音智能识别的比特率、采样率、音色、音调、音高、音频、抑扬顿挫、方言、噪音等乱七八糟的参数。成熟的识别引擎,核心内容一般不会经常变化的,为实现”识别成功“这一目标,我们只能对配置参数去做调整。对于不同的输入,我们会配置不同参数值,最后在结果统计取一个各方比较均衡、识别率较高的一组参数值,这组参数值,就是我们训练后得到的结果,这就是训练的过程,也叫模型训练。

所以:

模型=算法

训练=为达成高识别率的目标,使用大数据,找出最优配置参数的过程

结果=确定参数配置,实现高识别率

 

常用的人工智能数据集简介

下面的数据集,主要是学术界使用的,工业界使用的数据集一般不公开下载不到。

1.CIFAR-10CIFAR-10数据集由10个类的60000个32x32彩色图像组成,每个类有6000个图像。有50000个训练图像和10000个测试图像。数据集分为五个训练批次和一个测试批次,每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序包含剩余图像,但一些训练批次可能包含来自一个类别的图像比另一个更多。总体来说,五个训练集之和包含来自每个类的正好5000张图像。以下是数据集中的类,以及来自每个类的10个随机图像:下载地址:http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz

2.CIFAR-100:这个数据集就像CIFAR-10,除了它有100个类,每个类包含600个图像。,每类各有500个训练图像和100个测试图像。CIFAR-100中的100个类被分成20个超类。每个图像都带有一个“精细”标签(它所属的类)和一个“粗糙”标签(它所属的超类)下载地址:http://www.cs.toronto.edu/~kriz/cifar-100-python.tar.gz

3.MNIST:MNIST数据集来自美国国家标准与技术研究所,NationalInstituteofStandardsandTechnology(NIST).训练集(trainingset)由来自250个不同人手写的数字构成,其中50%是高中学生,50%来自人口普查局(theCensusBureau)的工作人员.测试集(testset)也是同样比例的手写数字数据.

MNIST数据集可在http://yann.lecun.com/exdb/mnist/获取,它包含了四个部分:

Trainingsetimages:train-images-idx3-ubyte.gz(9.9MB,解压后47MB,包含60,000个样本)Trainingsetlabels:train-labels-idx1-ubyte.gz(29KB,解压后60KB,包含60,000个标签)Testsetimages:t10k-images-idx3-ubyte.gz(1.6MB,解压后7.8MB,包含10,000个样本)Testsetlabels:t10k-labels-idx1-ubyte.gz(5KB,解压后10KB,包含10,000个标签)

4.SVHN:SVHN数据集是斯坦福大学开发出来的,包含train文件接,test文件夹以及extra文件夹。分别包含33402、13068、202353个标记图片。

5.Caltech:Caltech数据集主要包括2类,一类是Caltech-101;另一类是Caltech-256。

Caltech-101这个数据集包含了101类的图像,每类大约有40~800张图像,大部分是50张/类;在2003年由lifeifei收集,每张图像的大小大约是300x200。

Caltech-256此数据集和Caltech-101相似,包含了30,607张图像。

下载地址:http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/datasets/USA/

6.Imagenet

Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注,具体信息如下:1)Totalnumberofnon-emptysynsets:218412)Totalnumberofimages:14,197,1223)Numberofimageswithboundingboxannotations:1,034,9084)NumberofsynsetswithSIFTfeatures:10005)NumberofimageswithSIFTfeatures:1.2millionImagenet数据集是目前深度学习图像领域应用得非常多的一个领域,关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。

迅雷打开验证集http://academictorrents.com/download/5d6d0df7ed81efd49ca99ea4737e0ae5e3a5f2e5.torrent训练集http://academictorrents.com/download/a306397ccf9c2ead27155983c254227c0fd938e2.torrent

https://blog.csdn.net/weixin_41043240/article/details/80305311

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇