博舍

数据标注的9个常用步骤 智能数据标注3d技巧有哪些

数据标注的9个常用步骤

数据标注的9个常用步骤

时间:2023-01-0612:07:44

作者:景联文科技

浏览:次

人工智能(AI)、机器学习(ML)、计算机视觉(CV)和深度神经网络(DNN):这四个常见的流行词代表着现代企业的数十亿美元。机器学习使计算机系统能够解决从垃圾邮件过滤器等日常任务到早期癌症检测等复杂任务的问题。机器学习可能看起来令人生畏,听起来像是《黑客帝国》电影中描绘的科幻小说,但实际上,它只是数据、算法和训练迭代。在这篇博客中,我们将为有兴趣加入技术对话的人分解机器学习的九个常见步骤 。

机器学习分为三大类:监督学习、无监督学习和强化学习。在这里,由于其性能和受欢迎程度,我们将特别关注 监督学习。 简单地说,监督学习是算法或模型学习映射函数 f, 从输入变量 X (分类数据、图像或文本)到输出变量 Y (所需结果或基本事实)。

Y=f(X)

目的是迭代训练模型以很好地估计映射函数,以便当您有新的输入 x时,您可以使用模型准确预测相应的输出 y。之所以称为监督学习,是因为人类监督模型的预测,并在训练过程中使用地面实况提供适当的反馈。

工业解决方案中监督学习的常见示例包括自动驾驶汽车、银行服务中的欺诈检测和聊天机器人。这些解决方案需要监督学习模型来执行复杂的任务,例如对象检测、复杂模式识别和自然语言处理。要完成这些任务,我们需要对问题有清晰的认识、明确的策略和结构化的算法流水线。只有这样,我们才能训练出模仿甚至超越人类能力的模型。这些模型成功的关键是具有代表性、干净和结构化的数据集。监督学习听起来可能令人生畏,但标准过程从开始到结束总是遵循九个步骤。为了帮助您理解这个过程,请考虑自动驾驶汽车在停车标志前适当停车的问题。为了让汽车及时停车,它们首先需要“看到”和“识别”停车标志,因此我们需要训练一个监督学习模型,该模型可以将场景图像作为输入并近乎实时地确定,现场是否包含停车标志。然后可以使用该预测来引导自动驾驶汽车在停车标志处停车。接下来,我们将探讨九个步骤中的每一个 监督学习过程。

第1步:数据收集

在大多数情况下,机器学习就像教蹒跚学步的孩子一样。它需要爱、耐心和大量数据!拥有大量高质量数据对于有效的监督学习至关重要。 描述场景或事件的数据通常是从多个来源和传感器流中收集的。在我们的示例中,多辆装有摄像头的汽车在城市中行驶了数天,以收集现实生活中的交通视频。这些原始视频或非结构化数据文件随后会落入ML专家的手中。

第2步:数据清理和分析

大量的非结构化数据可能是纯粹的混乱。为了使数据有意义,需要对其进行清理、结构化和整理。首先,ML专家将来自多个来源的数据导入适当的存储库,标准化数据格式,并根据相关规则进行聚合。其次,机器学习专家检查损坏、重复或丢失的数据点,并丢弃可能影响数据集整体质量的不需要的数据。例如,一旦收集到多个交通视频,ML专家将查找并删除损坏或冗余的文件(如果存在)。最后,机器学习专家使用标签对在不同条件下捕获的视频进行分类,例如白天、夜晚、晴天、下雨等。此步骤提供了对将用于训练、验证、

第3步:数据标注

现在,需要对清洗后的结构化数据进行标注。 标注 是将编码值分配给原始数据的过程。编码值包括但不限于分配类标签、绘制边界框和标记对象边界。需要高质量的标注来教授监督学习模型对象是什么以及测量训练模型的性能。目前,标注数据集占用了机器学习解决方案设计生命周期中的大部分时间和资源。大多数人估计,仅此过程就占用了机器学习专家80%的时间,例如,仅用于停车标志识别就需要对数小时的视频片段进行标注。如果没有这些标注,ML专家将无法教导模型应该在场景中寻找什么。

第4步:数据可视化

一旦数据标注的艰巨任务结束,机器学习专家就会设计算法管道来训练模型。为了有效的算法设计并避免过程中的陷阱,我们首先尝试通过可视化代表性样本来理解数据,如果不是整个数据集本身。

第5步:数据丰富

充分了解数据分布及其潜在影响后,机器学习科学家可以根据需要丰富数据集。 数据丰富 是用于增强、扩充和细化数据点的过程,使数据集更健壮,因此更有价值。此步骤可能包括收集更多相关数据点、生成合成或增强数据点或转换现有数据点。在我们的示例中,如果我们发现在雨天条件下收集的停车标志仅占整个数据集的一小部分,我们可以扩充数据集以包含更多此类示例,以便模型学习这些特定条件。这种增强可以降低模型过度拟合特定条件的风险。

第6步:特征工程

完美的训练数据集并不是方程式中的唯一变量。ML专家通常需要应用 领域知识来选择算法或技术 训练有效的预测模型。传统的ML过程需要将原始数据转换为表示或描述潜在问题的特征。通常需要专业知识和领域知识来手工制作一组丰富的功能并创建有影响力的解决方案。如果没有正确的特征组合,即使是足够的训练数据集也会导致模型性能不佳。在我们的示例中,我们可以提取多个描述停止标志的相关特征,例如颜色、形状等。这一步本质上是将图像转换为描述停止标志模式的数字矩阵。我们的模型将学习找到这些相同的模式,然后将这些模式输入到算法中,例如随机森林或支持向量机,它们通过解释识别出的特征来执行复杂的任务。然而,手动特征提取通常是一项繁琐的任务,需要进行大量的反复试验,这可能会注入人为偏见。为了消除这种错误来源,神经网络通常通过使用卷积运算来自动化特征提取过程。

第7步:培训和验证

将正确的数据集或特征拆分为不重叠的子集进行训练、验证和测试后, 模型的 迭代训练过程就开始了。ML专家使用不同的指标密切监控训练,根据需要执行超参数调整,然后等待……等待……等待。在迭代训练过程结束时,我们将拥有一个检测停车标志的模型!我们做到了!但是对于现实世界的解决方案,我们必须牢记以下两个步骤。

第8步:部署

行业和组织对理想绩效有不同的门槛。一旦模型的性能超过该阈值,组织就可以开始部署他们的解决方案,以更快更好地解决现实世界中的问题。在我们的示例中,一旦算法通过了性能阈值,它将被用于实际的自动驾驶汽车以识别停车标志。

第9步:改进

继续改进他们的模型并根据新的业务需求调整它们符合ML专家的最大利益。因此,当这样的机会出现时,ML专家会从机器学习过程的开始着手,以提高模型性能。

机器学习是一项令人兴奋的新兴技术,它正在迅速改变我们看待和解决人工智能领域复杂问题的方式,事实上,我们正在看到人类历史的分水岭,以及充满潜力的未来。随着研究界和行业将大量资源用于开发实用的AI解决方案,机器学习领域每天都在取得惊人的进步。尽管对于该领域的新手来说可能看起来很复杂且令人生畏,但用于开发高效ML解决方案的基本过程相当简单,并且需要大量高质量数据。数据仍然是机器学习中最重要的元素——正如他们所说,如果你很好地询问数据,它会承认。在“大数据”充斥着传感器、数据馈送和智能设备的时代,

上一篇:数据标注工具选择的6大标准下一篇:情感分析的三大方法总结返回列表相关推荐视频标注是什么,视频标注的流程步骤8093D点云标注种类,标注的步骤762什么是语义标注?五大标注步骤1022

数据标注简介

模型训练过程中需要大量已标注的数据,因此在模型训练之前需要进行数据标注作业。ModelArts为用户提供了标注数据的能力:

人工标注:用户创建单人标注作业,对数据进行手工标注。智能标注:在标注一定量的数据情况下,用户可以通过启动智能标注任务对数据进行自动标注,提高标注的效率。团队标注:对于大批量的数据,用户可以通过创建团队标注作业,进行多人协同标注。人工标注对于不同类型的数据,用户可以选择不同的标注类型。当前ModelArts支持如下类型的标注作业:

图片图像分类:识别一张图片中是否包含某种物体。物体检测:识别出图片中每个物体的位置及类别。图像分割:根据图片中的物体划分出不同区域。音频声音分类:对声音进行分类。语音内容:对语音内容进行标注。语音分割:对语音进行分段标注。文本文本分类:对文本的内容按照标签进行分类处理。命名实体:针对文本中的实体片段进行标注,如“时间”、“地点”等。文本三元组:针对文本中的实体片段和实体之间的关系进行标注。视频视频标注:识别出视频中每个物体的位置及分类。目前仅支持mp4格式。

智能标注除了人工标注外,ModelArts还提供了智能标注功能,快速完成数据标注,为您节省70%以上的标注时间。智能标注是指基于当前标注阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注,快速完成剩余图片的标注操作。

目前只有“图像分类”和“物体检测”类型的数据集支持智能标注功能。

团队标注数据标注任务中,一般由一个人完成,但是针对数据集较大时,需要多人协助完成。ModelArts提供了团队标注功能,可以由多人组成一个标注团队,针对同一个数据集进行标注管理。

团队标注功能当前仅支持“图像分类”、“物体检测”、“文本分类”、“命名实体”、“文本三元组”、“语音分割”类型的数据集。

不同类型数据集支持的功能列表其中,不同类型的数据集,支持不同的功能,详细信息请参见表1。

表1不同类型数据集支持的功能数据集类型

标注类型

人工标注

智能标注

团队标注

图片

图像分类

支持

支持

支持

物体检测

支持

支持

支持

图像分割

支持

-

-

音频

声音分类

支持

-

-

语音内容

支持

-

-

语音分割

支持

-

支持

文本

文本分类

支持

-

支持

命名实体

支持

-

支持

文本三元组

支持

-

支持

视频

视频标注

支持

-

-

自由格式

-

-

-

-

表格

-

-

-

-

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇