机器学习和人工智能的数据收集:完整指南
免费资源顾名思义,这些资源免费提供用于AI培训目的的数据集。免费资源可以是任何东西,从公共论坛、搜索引擎、数据库和目录到多年来维护信息档案的政府门户网站。
如果您不想在获取免费数据集上花费太多精力,可以使用Kaggle、AWS资源、UCI数据库等专用网站和门户网站,让您探索多样化类别并免费下载所需的数据集。
内部资源尽管免费资源似乎是一种方便的选择,但也存在一些与之相关的限制。首先,您不能总是确定您会找到与您的要求完全匹配的数据集。即使它们匹配,数据集也可能与时间线无关。
如果您的细分市场相对较新或未开发,则不会有很多类别或相关数据集供您下载。为了避免免费资源的初步缺点,有存在另一个数据资源,它充当您生成更多相关和上下文数据集的渠道。
它们是您的内部资源,例如CRM数据库、表单、电子邮件营销线索、产品或服务定义的接触点、用户数据、来自可穿戴设备的数据、网站数据、热图、社交媒体洞察等。这些内部资源由您定义、设置和维护。因此,您可以确定其可信度、相关性和新近度。
付费资源不管它们听起来多么有用,内部资源也有相当多的复杂性和局限性。例如,人才库的大部分重点将用于优化数据接触点。此外,您的团队和资源之间的协调也必须无可挑剔。
为了避免更多这样的问题,你已经付费了。它们是为您的项目提供最有用和上下文数据集的服务,并确保您在需要时始终如一地获取它们。
我们大多数人对付费资源或数据供应商的第一印象是它们很贵。然而,当您进行数学计算时,从长远来看,它们只会便宜。凭借其庞大的网络和数据源方法,您将能够为您的AI项目接收复杂的数据集,无论它们多么令人难以置信。
为了让您详细了解三个来源之间的差异,这里有一个精心制作的表格:
【大数据分析】纷繁复杂的数据越多越好
传统的样本分析师们都很难容忍错误数据的存在,因为他们一生都在研究如何防止和避免错误的出现。
在收集样本的时候,统计学家会用一整套的策略来减少错误发生的概率。
在结果公布之前,他们也会测试样本是否存在潜在的系统性偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本。但是,即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大。
尤其是当我们收集所有数据的时候,这就行不通了。不仅是因为耗费巨大,还因为在大规模的基础上保持数据收集标准的一致性不太现实。就算是不让人们进行沟通争吵,也不能解决这个问题。
大数据时代要求我们重新审视精确性的优势。如果将传统的思维模式运用于数字化、网络化的21世纪,就会错过重要的信息。
执迷于精确性是信息缺乏时代和模拟时代的产物。在那个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。所以,我们需要确保每个数据的精确性,才不会导致分析结果的偏差。
如今,我们已生活在信息时代,我们掌握的数据库越来越全面,它不再只包括我们手头现象的一点点可怜的数据,而是包括了与这些现象相关的大量甚至全部数据。我们不再需要那么担心某个数据点对整套分析的不利影响。我们要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。
在华盛顿州布莱恩市的英国石油公司切利博因特炼油厂里,无线感应器遍布于整个工厂,形成无形的网络,能够产生大量实时数据。酷热的恶劣环境和电气设备的存在有时会对感应器读书有所影响,形成错误的数据。
但是数据生成的数量之多可以弥补这些小错误。随时监测管道的承压使得BP能够了解到,有些种类的原油比其他种类更具有腐蚀性。以前,这些都是无法发现也无法防止的。
有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。
大数据不仅不再让我们期待精确性,也让我们无法实现精确性。
然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。
值得注意的是,错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。
如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。
错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。
因为拥有更大数据量所能带来的商业利益远远超过一点精确性,所以通常我们不会再花大力气去提升数据的精确性。
这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。