机器学习,以及深度学习产生背景
1,Rule-Based最开始,全部认为的去分析数据,从数据处理到数据分析到最后出结果全部人工,中间可能会借助一些工具2,机器学习前期特征提取阶段靠人工,称之为特征工程,后期数据分析比如决策靠机器靠算法.优点:节省了大量人力,而且机器准确度比人为高缺点:任然依靠人工构建特征工程,特征选择任然会有遗漏,或者无效特征加入.3,深度学习深度学习就是神经网络,只是把隐藏层加深了而已深度学习的出现就是为了在机器学习之上解决自动构建特征工程,自动选择特征问题优点:比人为构建特征工程更加科学缺点:无法知道是哪个特征对目前值造成了影响,特征全部被屏蔽了
机器学习里面的Ground Truth是什么意思
在看英文文献的时候,经常会看到GroundTruth这个词汇,翻译的意思是地面实况,放到机器学习里面,再抽象点可以把它理解为真值、真实的有效值或者是标准的答案。
维基百科对GroundTruth在机器学习领域的解释是:
在机器学习中,“groundtruth”一词指的是训练集对监督学习技术的分类的准确性。这在统计模型中被用来证明或否定研究假设。“groundtruth”这个术语指的是为这个测试收集适当的目标(可证明的)数据的过程。
今天在看《OutlierAnalysis》时,有句话:However,itisgenerallymuchhardertoreducebiasinoutlierensemblesbecauseoftheabsenceofgroundtruth.
放到对异常点的检测方面来理解这个groundtruth就好理解了。在对异常点进行检测的时候,通过一些ensemblemethods可以在一定程度上提高准确性,从而减少bias,但是由于对于异常点的定义本身就是一个问题,所以在对这些数据进行label的过程中,保证labeleddata是正确的异常点也是个问题。
再举个例子,在图像识别中,一张图片是猫还是狗这个没有什么争议性,但是如果在时间序列中让你指出什么样的数据是normal,什么样的数据是abnormal,100个人可能会有100种回答,因为normal和abnormal之间没有什么明确的界限,所以在研究时间序列中的outlieranalysis时,GroundTruth也是一个不可避免的问题。