AI 数据集最常见的6大问题(附解决方案)
HomeBlogAI数据集最常见的6大问题(附解决方案)2019年1月18日by打不死的小强
AI新闻8comments简介如果您还没有听过,请告诉您一个事实,作为一名数据科学家,您应该始终站在一个角落跟你说:“你的结果与你的数据一样好。”
尝试通过提高模型能力来弥补糟糕的数据是许多人会犯的错误。这相当于你因为原来的汽车使用了劣质汽油导致汽车表现不佳,而更换了一辆超级跑车。这种情况下应该做的是提炼汽油,而不是升级的车。在这篇文章中。我将向您解释如何通过提高数据集质量的方法来轻松获取更好的结果。
注意:我将以图像分类的任务为例,但这些技巧可以应用于各种数据集。
问题1:数据量不够。如果你的数据集过小,你的模型将没有足够多的样本,概括找到其中的特征,在此基础上拟合的数据,会导致虽然训练结果没太出错但是测试错误会很高。
解决方案1:收集更多数据。
您可以尝试找到更多的相同源做为您的原始数据集,或者从另一个相似度很高的源,再或者如果你绝对要来概括。
注意事项:这通常不是一件容易的事,需要投入时间和金钱。此外,你可能想要做一个分析,以确定你需要有多少额外的数据。将结果与不同的数据集大小进行比较,并尝试进行推断。
在这种情况下,似乎我们需要500k样本才能达到目标 误差。这意味着我们现在收集的数据量是目前的50倍。处理数据的其他方面或 模型可能更有效。
解决方案2:通过创建具有轻微变化的同一图像的多个副本来增强数据。
这种技术可以创造奇迹,并以极低的成本生成大量额外的图像。您可以尝试裁剪,旋转,平移或缩放图像。您可以添加 噪点,模糊,改变颜色或阻挡部分噪音。在所有情况下,您需要确保数据仍然代表同一个类。
所有这些图像仍然代表“猫”类别这可能非常强大,因为堆叠这些效果会为您的数据集提供指数级的样本。请注意,这通常不如收集更多 原始 数据。
组合数据增强技术。班级仍然是“猫”,应该被认可。注意事项:所有增强技术可能无法用于您的问题。例如,如果要归类柠檬和酸橙,不与色相玩,因为这将是有意义颜色是对分类重要。
这种类型的数据增加将使模型更难找到区别特征。问题2:低质量的分类这很简单,但如果可能的话,花些时间浏览一下您的数据集,并验证每个样本的标签。这可能需要一段时间,但在数据集中使用反例会对 学习过程产生不利影响。
此外,为您的类选择正确的粒度级别。根据问题,您可能需要更多或更少的类。例如,您可以使用全局分类器对小猫的图像进行分类,以确定它是动物,然后通过动物分类器运行它以确定它是小猫。一个巨大的模型可以做到这两点,但它会更难。
具有专门分类器的两阶段预测。问题3:低质量的数据如引言中所述,低质量数据只会导致低质量的结果。
数据集中的数据集中的样本可能与您要使用的数据集相差太远。这些可能会更混乱的模式不是很有帮助。
解决方案:删除最糟糕的图像。
这是一个漫长的过程,但会改善您的结果。
当然,这三个图像代表猫,但模型可能无法使用它。另一个常见问题是当您的数据集由与真实世界应用程序不 匹配的数据组成时。例如,如果图像来自完全不同的来源。
解决方案:考虑技术的长期应用,以及将用于获取生产数据的方法。
如果可能,尝试使用相同的工具查找/构建数据集。
使用不代表您的真实世界应用程序的数据通常是一个坏主意。您的模型可能会提取在现实世界中无法使用的功能。问题4:不平衡的分类如果数每类样本的不是大致的相同的所有类,模型可能有利于统治阶级的倾向,因为它会导致一个较低的 错误。我们说该模型存在偏差,因为类分布是偏态的。这是一个严重的问题,也是您需要查看精度,召回或混淆矩阵的原因。
解决方案1:收集代表性不足的分类的更多样本。
然而,这在时间和金钱上通常 是昂贵的,或者根本不可行。
解决方案2:对数据进行过度/不足的采样。
这意味着您从过度表示的类中删除一些样本,或从代表不足的类中复制样本。比重复更好,使用数据增加,如前所述。
补充猫类图片,减少青柠的图片可以让数据集不同的分类更平衡问题5:数据不平衡如果您的数据没有特定 格式,或者值不在特定 范围内,则您的模型可能无法处理它。你将有形象,有更好的结果横宽比和像素值。
解决方案1:裁剪或拉伸数据,使其具有与其他样本相同的方面或格式。
两种可能性来改善格两种可能性来改善格式错误的图像式错误的图像。解决方案2:规范化数据,使每个样本的数据都在相同的值范围内。
将值范围标准化为在整个数据集中保持一致。问题6:没有验证集和测试集清理,扩充和正确标记数据集后,需要将其拆分。许多人通过以下方式将其拆分:80%用于训练,20%用于测试,这 使您可以轻松发现过度装配。但是,如果您在同一测试集上尝试多个模型,则会发生其他情况。通过选择具有最佳测试精度的模型,您实际上过度拟合了测试集。发生这种情况是因为您手动选择的模型不是其内在模型 值,但其性能上的特定数据集。
解决方案:将数据集拆分为三个:训练集、验证集、测试集。
该屏蔽你的测试被设置过度拟合由模型的选择。选择过程变为:
在训练集上训练你的模型。在验证集上测试它们以确保没有过拟合。选择最有希望的模型。在测试集上测试它,这将为您提供模型的真实准确性。注意:一旦您选择了生产模型,请不要忘记在整个 数据集上进行训练!数据越多越好!结论我希望到现在你确信在考虑你的模型之前你必须注意你的数据集。您现在知道处理数据的最大错误,如何避免陷阱,以及如何构建杀手数据集的提示和技巧!如有疑问,请记住:“获胜者是不是一个最好的模式,这是一个最好的数据。”。
原文:StopFeedingGarbageToYourModel!—The6biggestmistakeswithdatasetsandhowtoavoidthem.
翻译:Google翻译
校对:打不死的小强、杜船
AI,人工智能,数据集机器学习的5个常见痛点及解决方法
[[394332]]
人们可能听说过很多机器学习的用例。例如参加会议、分享人工智能技术的LinkedIn帖子、以及博客文章都有所提及。虽然人们都知道机器学习这个术语,但在多大程度上理解了机器学习的含义?
对于IT或数据科学领域的行业专家来说,他们非常精通这些技术。然而对于那些没有行业背景的人来说,这个术语必须得到适当的解释。由于对机器学习有一些含糊的解释,也带来了许多令人迷惑的误解。
什么是机器学习?机器学习涉及从数据中学习。简而言之,它有助于处理收集的数据以提供更好的结果。无论规模大小,每个企业都在收集随着时间累积的信息。由于种类繁多,因此通过人工筛选这些数据并非易事。
机器学习可以通过整理并分析数据来帮助企业解决日常问题。机器学习是人工智能的一部分,有时这两个术语可以互换使用,具体取决于其使用方式和要求。通过机器学习使用正确的算法处理数据可以节省大量时间。
机器学习的历史机器学习这个术语最初是在1949年由DonaldHebb在其著作《行为的组织》中描述脑细胞相互作用的模型时提出的。然而那时并没有对机器学习给出一个很清楚的解释。直到上世纪50年代才取得突破。
在上世纪50年代,IBM公司计算专家ArthurSamuel开发了一个跳棋游戏的计算机程序。该程序只需要很小的存储空间,他根据棋子在棋盘上的位置建立了一个计分系统。该系统可以计算出双方获胜的机会。
随着时间的推移,机器学习技术得到了很大的发展。如今,人们喜欢语音、人脸识别和相机滤镜各种功能,甚至可以在上网时创建机器学习基础设施。
常见难点以及解决方法就像任何程序或项目一样,总会出现一些问题。以下是人们需要关注的机器学习应用中的一些常见痛点:
(1)需要实现自动化吗?
由于网上有很多关于机器学习的文章,很难区分这些信息是否真实。有许多程序和软件涉及到机器学习的使用,其选择是无止境的。但是在选择使用哪种软件之前,首先要了解要解决的问题以找到正确的解决方案。
采用自动化可以解决一些常见的业务问题,但是在采用涉及机器学习的自动化技术之前,有些问题需要更深入地研究。
需要记住这一点:机器学习可以帮助实现自动化,但是并非所有的自动化技术都需要机器学习。
(2)数据质量
机器学习在数据具有更高质量时才更有效。许多企业依靠机器学习和人工智能来简化他们的工作,其中包括找到工作场所问题的最佳解决方案。因此,在使用机器学习和与其相关的程序时,提供的数据应该准备充分且干净完整,以产生更准确的结果。
(3)基础设施
由于机器学习的运行速度如此之快,因此它需要大量的数据处理能力,其完成的工作量也需要采用先进的硬件。因此,在企业采用机器学习并探索其功能之前,需要确保已经更新技术和硬件,以确保满足性能需求。
采用新技术可能会花费很多成本,但是一旦成功使用,就会有所回报。企业可以尝试升级当前系统中的一些硬件,并扩展存储容量。
(4)实施
机器学习非常复杂,并且当企业选择深入研究这一领域时,需要得到专家的指导和帮助。切换到不同类型的程序可能会造成混乱,并且需要花费大量时间进行调整。还要注意其他事项,例如安全性。因此,企业应寻求实施合作伙伴的帮助,其合作伙伴可以指导他们完成整个过程。
通常合作伙伴是精通机器学习技术的IT专家。他们可以帮助企业确定最适合的机器学习和其他程序。同样,他们可以发现异常,进行预测性分析,可以更轻松地为企业的需求建模。
(5)技术资源数量
机器学习和人工智能是相对较新的行业,这意味着这一领域的技术人员并不多。因此,需要采用机器学习技术的企业可能缺乏相应的人才。由于能够提供最佳支持的专业人员数量有限,因此外包服务的费用很高,特别是可以提供更高工作质量的人员。
机器学习会毁灭人类吗?关于机器学习有很多有趣的故事,其中的一个说法是机器学习可能会毁灭人类。人们担心人工智能和机器学习可能过于聪明,并且与人类相比更会学习知识。因此,他们认为机器学习是一股不容忽视的力量,将使人类面临威胁。
人们发现机器学习很危险是因为在电影中的机器人伤害人类并占领整个世界,机器学习技术可能就会如此,因此必须终止。专家指出,尽管人工智能通过人工神经连接设法理解大脑系统,但机器主宰世界的可能性并不存在。
结论机器学习对于人类来说是有益的技术。尽管机器学习仍有一些内容需要重新审视和研究,但不可否认,它使人们的工作和生活变得更好。虽然机器学习的概念很难理解,但随着时间的推移,专家可以用一种更简单的方式表达。机器学习如今仍处于开发阶段,专家需要更多的努力才能挖掘其所提供的更多功能。
五个机器学习中的常见难题及解决方法
人们可能听说过很多机器学习的用例。例如参加会议、分享人工智能技术的LinkedIn帖子、以及博客文章都有所提及。虽然人们都知道机器学习这个术语,但在多大程度上理解了机器学习的含义?
对于IT或数据科学领域的行业专家来说,他们非常精通这些技术。然而对于那些没有行业背景的人来说,这个术语必须得到适当的解释。由于对机器学习有一些含糊的解释,也带来了许多令人迷惑的误解。
什么是机器学习?
机器学习涉及从数据中学习。简而言之,它有助于处理收集的数据以提供更好的结果。无论规模大小,每个企业都在收集随着时间累积的信息。由于种类繁多,因此通过人工筛选这些数据并非易事。
机器学习可以通过整理并分析数据来帮助企业解决日常问题。机器学习是人工智能的一部分,有时这两个术语可以互换使用,具体取决于其使用方式和要求。通过机器学习使用正确的算法处理数据可以节省大量时间。
机器学习的历史
机器学习这个术语最初是在1949年由DonaldHebb在其著作《行为的组织》中描述脑细胞相互作用的模型时提出的。然而那时并没有对机器学习给出一个很清楚的解释。直到上世纪50年代才取得突破。
在上世纪50年代,IBM公司计算专家ArthurSamuel开发了一个跳棋游戏的计算机程序。该程序只需要很小的存储空间,他根据棋子在棋盘上的位置建立了一个计分系统。该系统可以计算出双方获胜的机会。
随着时间的推移,机器学习技术得到了很大的发展。如今,人们喜欢语音、人脸识别和相机滤镜各种功能,甚至可以在上网时创建机器学习基础设施。
常见难点以及解决方法
就像任何程序或项目一样,总会出现一些问题。以下是人们需要关注的机器学习应用中的一些常见痛点:
(1)需要实现自动化吗?
由于网上有很多关于机器学习的文章,很难区分这些信息是否真实。有许多程序和软件涉及到机器学习的使用,其选择是无止境的。但是在选择使用哪种软件之前,首先要了解要解决的问题以找到正确的解决方案。
采用自动化可以解决一些常见的业务问题,但是在采用涉及机器学习的自动化技术之前,有些问题需要更深入地研究。
需要记住这一点:机器学习可以帮助实现自动化,但是并非所有的自动化技术都需要机器学习。
(2)数据质量
机器学习在数据具有更高质量时才更有效。许多企业依靠机器学习和人工智能来简化他们的工作,其中包括找到工作场所问题的最佳解决方案。因此,在使用机器学习和与其相关的程序时,提供的数据应该准备充分且干净完整,以产生更准确的结果。
(3)基础设施
由于机器学习的运行速度如此之快,因此它需要大量的数据处理能力,其完成的工作量也需要采用先进的硬件。因此,在企业采用机器学习并探索其功能之前,需要确保已经更新技术和硬件,以确保满足性能需求。
采用新技术可能会花费很多成本,但是一旦成功使用,就会有所回报。企业可以尝试升级当前系统中的一些硬件,并扩展存储容量。
(4)实施
机器学习非常复杂,并且当企业选择深入研究这一领域时,需要得到专家的指导和帮助。切换到不同类型的程序可能会造成混乱,并且需要花费大量时间进行调整。还要注意其他事项,例如安全性。因此,企业应寻求实施合作伙伴的帮助,其合作伙伴可以指导他们完成整个过程。
通常合作伙伴是精通机器学习技术的IT专家。他们可以帮助企业确定最适合的机器学习和其他程序。同样,他们可以发现异常,进行预测性分析,可以更轻松地为企业的需求建模。
(5)技术资源数量
机器学习和人工智能是相对较新的行业,这意味着这一领域的技术人员并不多。因此,需要采用机器学习技术的企业可能缺乏相应的人才。由于能够提供最佳支持的专业人员数量有限,因此外包服务的费用很高,特别是可以提供更高工作质量的人员。
机器学习会毁灭人类吗?
关于机器学习有很多有趣的故事,其中的一个说法是机器学习可能会毁灭人类。人们担心人工智能和机器学习可能过于聪明,并且与人类相比更会学习知识。因此,他们认为机器学习是一股不容忽视的力量,将使人类面临威胁。
人们发现机器学习很危险是因为在电影中的机器人伤害人类并占领整个世界,机器学习技术可能就会如此,因此必须终止。专家指出,尽管人工智能通过人工神经连接设法理解大脑系统,但机器主宰世界的可能性并不存在。
结论
机器学习对于人类来说是有益的技术。尽管机器学习仍有一些内容需要重新审视和研究,但不可否认,它使人们的工作和生活变得更好。虽然机器学习的概念很难理解,但随着时间的推移,专家可以用一种更简单的方式表达。机器学习如今仍处于开发阶段,专家需要更多的努力才能挖掘其所提供的更多功能。责编AJX