人工智能的人工部分—数据标注(上)
编辑导读:人工智能的发展,是通过不断学习已知样本实现的。在监督学习的情况下,人工的数据标注是智能的前提与灵魂。本文作者对此进行了分析,希望对你有帮助。
当今社会人工智能领域蓬勃发展,各领域都在追求智能化,耳熟能详的有智能驾驶、智能家居、智能语音、智能推荐等。人工智能是通过机器学习,大量学习已知样本,有了预测能力之后再预测未知样本,以达到智能化的效果,机器学习可分为监督学习和无监督学习,无监督学习的效果是不可控的,常常被用来做探索性的实验。
在实际应用中,通常是有监督学习,有监督学习就需要做数据标注,所以智能的前提是人工,因为智能结果的输出是多次人工样本的输入,可以说人工的数据标注是智能的前提与灵魂,没有人工就没有智能,有多少人工就有多少智能。
一、数据标注的分类数据标注从难易程度方面可划分为常识性标注与专业性标注。例如,地图识别领域的标注多为常识性标注,标注道路、路牌、地图等数据,语音识别标注也多为常识性标注。做该类型标注工作难点在于需要大量标注训练样本,因为应用场景多样且复杂,对标注员无专业技能要求,主要是认真负责,任务完成效率快、质量高的即为好的标注员。
医疗诊断领域标注多为专业性标注,因为病种、症状的分类与标注需要有医疗专业知识的人才能做,招聘领域标注也属于专业性标注,因为标注员需要熟知招聘业务、各岗位所需的知识技能,还需了解HR招人时的关注点,才能判断简历是否符合职位的招聘要求。该类型的标注工作需要有招聘领域专业知识的标注员,或者称为标注专家,标注工作的难点比较多,例如选拨培养合适的标注员、标注规则的界定、标注质量的控制等多方面。
数据标注从标注目的方面可划分为评估型标注与样本型标注。
评估型标注一般是为了评估模型的准确率,发现一些Badcase样例,然后优化算法模型,该类型标注工作为了节约标注资源可控制标注数量,一般情况下标注千量级的数据,样本具有统计意义即可,标注完成后需要统计正确率,以及错误样例,该类型标注的重点是错误样例的原因总结,分析每个Badcase出现的原因,并将原因归纳为不同的分类,有了原因分析方便算法同学分类型分批次的优化模型。
样本型标注即为模型提供前期的训练样本,作为机器学习的输入,该类型标注工作需要标注大量数据,一般情况下需要标注万量级的数据。为了样本的均衡性,标注样本多是随机抽取的,这样做的优点是可在一定程度上避免样本偏差,但缺点是要标注大量数据。如果是文本型样本,有时可借助算法抽取一些高频、高质量样本进行标注,这样可一定程度上减少标注工作量,但可能存在样本偏差。总之样本型标注是个苦力活,业界有句话这么说的:如果你和一个人有仇,那么劝他去干标注吧。
数据标注从标注对象方面可划分为文本标注、图像标注、语言标注、视频标注,从标注方式方面可划分为分类标注、标框标注、描点标注,这些标注分类基本都属于标注形式的差异,没有较强的专业度,所以不做较多讲述了。
二、数据标注规则的制定常识性标注的规则比较简单,标注一部分样本即可总结出较通用的规则,但专业性标注的规则比较复杂,制定专业的标注规则需要遵循以下三原则:多维分析与综合分析相结合,因子权重影响因素场景化,问题类型标签化、结构化。以下是招聘领域简历与职位匹配度标注规则的指导思想,具体细节规则会在《数据标注(下)》中阐述。该标注规则比较符合标注规则制定的三原则。
第一,多维分析与综合分析相结合。
简历与职位的匹配度影响因素肯定是多维的,不能只参考工作经历或专业要求一个因子,或者某几个因子,要多维分析,最终再给出综合评分结果。当然简历与职位的匹配标注也不可能一上来就能给出综合的评分,不能纯感性的告诉标注员:你觉得是简历与职位非常匹配就给分,不匹配就不给分,这在逻辑上也不合理。所以要先给单一因子打分,然后参考每个因子的评分结果,最终再进行综合分析给出评分结果。
第二,因子权重影响因素场景化。
前面有提到简历与职位匹配度评估需要给每个因子打分,那每个因子打分结束后怎么给出综合评分呢,给每个因为赋予权重吗?然后按权重计算总分?答案是否定的,我们要结合具体场景把所有因子进行归类分析,比如设定一些重要因子,如果重要因子不匹配可能就直接不给分,比如工作经历代表的是一个人的胜任力,如果该候选人不具备该岗位的胜任力,总分肯定是0分。还有一些因子虽然不是很重要,但会影响评分,有些因子时而重要时而不重要,比如年龄,HR想要1-3年经验的行政专员,候选人40岁,该情况肯定会影响最终评分且很有可能总分是0分。所以把所有影响因子结合场景进行归类分析是十分必要的。
第三,问题类型标签化、结构化。
标注结果一般情况下会以分数的形式展示,ABCD,或者0123,然后一组数据没有得到满分是因为什么呢?哪里不匹配呢?所以前期制定标注规则时一定要把原因分析考虑进去,列出所有不匹配的原因,形成结构化的原因标签,有利于最终分析Badcase的分类与占比,然后算法或者策略团队在优化时可以优先解决占比高或影响恶劣的case。
数据标注是一项看似简单实际却十分复杂的工作,涉及标注分类、标注规则制定、标注原因分析、标注系统搭建、标注团队管理等,尤其涉及到专业领域的标注则更困难,本篇主要介绍了标注分类、标注规则制定,细节的标注规则以及标注系统的搭建,标注团队管理会在后续更新,希望大家持续关注,感谢阅读!
本文由@艳杰原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
如何认识人工智能对未来经济社会的影响
原标题:如何认识人工智能对未来经济社会的影响人工智能作为一种新兴颠覆性技术,正在释放科技革命和产业变革积蓄的巨大能量,深刻改变着人类生产生活方式和思维方式,对经济发展、社会进步等方面产生重大而深远的影响。世界主要国家都高度重视人工智能发展,我国亦把新一代人工智能作为推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量。在此背景下,我们有必要更好认识和把握人工智能的发展进程,研究其未来趋势和走向。
人工智能不同于常规计算机技术依据既定程序执行计算或控制等任务,而是具有生物智能的自学习、自组织、自适应、自行动等特征。可以说,人工智能的实质是“赋予机器人类智能”。首先,人工智能是目标导向,而非指代特定技术。人工智能的目标是在某方面使机器具备相当于人类的智能,达到此目标即可称之为人工智能,具体技术路线则可能多种多样,多种技术类型和路线均被纳入人工智能范畴。例如,根据图灵测试方法,人类通过文字交流无法分辨智能机器与人类的区别,那么该机器就可以被认为拥有人类智能。其次,人工智能是对人类智能及生理构造的模拟。再次,人工智能发展涉及数学与统计学、软件、数据、硬件乃至外部环境等诸多因素。一方面,人工智能本身的发展,需要算法研究、训练数据集、人工智能芯片等横跨整个创新链的多个学科领域同步推进。另一方面,人工智能与经济的融合要求外部环境进行适应性变化,所涉的外部环境十分广泛,例如法律法规、伦理规范、基础设施、社会舆论等。随着人工智能进一步发展并与经济深度融合,其所涉外部环境范围还将进一步扩大,彼此互动和影响亦将日趋复杂。
总的来看,人工智能将波浪式发展。当前,人工智能正处于本轮发展浪潮的高峰。本轮人工智能浪潮的兴起,主要归功于数据、算力和算法的飞跃。一是移动互联网普及带来的大数据爆发,二是云计算技术应用带来的计算能力飞跃和计算成本持续下降,三是机器学习在互联网领域的应用推广。但人工智能技术成熟和大规模商业化应用可能仍将经历波折。人工智能的发展史表明,每一轮人工智能发展浪潮都遭遇了技术瓶颈制约,导致商业化应用难以落地,最终重新陷入低潮。本轮人工智能浪潮的技术上限和商业化潜力都大大高于以往,部分专用人工智能可能获得长足进步,但许多业内专家认为目前的人工智能从机理上还不存在向通用人工智能转化的可能性,人工智能大规模商业化应用仍将是一个长期而曲折的过程。人工智能的发展尚处于早期阶段,在可预见的未来仍将主要起到辅助人类工作而非替代人类的作用,同时,严重依赖数据输入和计算能力的人工智能距离真正的人类智能还有很大的差距。
作为继互联网后新一代“通用目的技术”,人工智能的影响可能遍及整个经济社会,创造出众多新兴业态。国内外普遍认为,人工智能将对未来经济发展产生重要影响。
一方面,人工智能将是未来经济增长的关键推动力。人工智能技术的应用将提升生产率,进而促进经济增长。许多商业研究机构对人工智能对经济的影响进行了预测,主要预测指标包括GDP增长率、市场规模、劳动生产率、行业增长率等。多数主要商业研究机构认为,总体上看,世界各国都将受益于人工智能,实现经济大幅增长。未来十年(至2030年),人工智能将助推全球生产总值增长12%左右。同时,人工智能将催生数个千亿美元甚至万亿美元规模的产业。人工智能对全球经济的推动和牵引,可能呈现出三种形态和方式。其一,它创造了一种新的虚拟劳动力,能够解决需要适应性和敏捷性的复杂任务,即“智能自动化”;其二,人工智能可以对现有劳动力和实物资产进行有力的补充和提升,提升员工能力,提高资本效率;其三,人工智能的普及将推动多行业的相关创新,提高全要素生产率,开辟崭新的经济增长空间。
另一方面,人工智能替代劳动的速度、广度和深度将前所未有。许多经济学家认为,人工智能使机器开始具备人类大脑的功能,将以全新的方式替代人类劳动,冲击许多从前受技术进步影响较小的职业,其替代劳动的速度、广度和深度将大大超越从前的技术进步。但他们同时指出,技术应用存在社会、法律、经济等多方面障碍,进展较为缓慢,技术对劳动的替代难以很快实现;劳动者可以转换技术禀赋;新技术的需求还将创造新的工作岗位。
当前,在人工智能对经济的影响这个领域,相关研究已经取得了一些成果,然而目前仍处于研究的早期探索阶段,还未形成成熟的理论和实证分析框架。不过,学界的一些基本共识已经达成:短期来看,人工智能发展将对我国经济产生显著促进作用;长期来看,人工智能的发展路径和速度难以预测。因此,我们需对人工智能加速发展可能导致的世界经济发展模式变化保持关注。
(作者单位:国务院发展研究中心创新发展研究部)
(责编:赵超、吕骞)分享让更多人看到
AI人工智能三要素:数据、算力和算法
人工智能这两年的火爆大家有目共睹,取得的一些技术进步大家想必也有所耳闻。这里就来谈谈人工智能的三要素:数据、算力和算法。
首先,这三要素缺一不可,都是人工智能取得如此成就的必备条件。如果非要给这三者排个序的话,我认为应该是数据、算力和算法。
第一是数据。因为人工智能的根基是训练,就如同人类如果要获取一定的技能,那必须经过不断地训练才能获得,而且有熟能生巧之说。AI也是如此,只有经过大量的训练,神经网络才能总结出规律,应用到新的样本上。如果现实中出现了训练集中从未有过的场景,则网络会基本处于瞎猜状态,正确率可想而知。比如需要识别勺子,但训练集中勺子总和碗一起出现,网络很可能学到的是碗的特征,如果新的图片只有碗,没有勺子,依然很可能被分类为勺子。因此,对于AI而言,大量的数据太重要了,而且需要覆盖各种可能的场景,这样才能得到一个表现良好的模型,看起来更智能。
第二是算力。有了数据之后,需要进行训练,不断地训练。AI中有一个术语叫epoch,意思是把训练集翻过来、调过去训练多少轮。只把训练集从头到尾训练一遍网络是学不好的,就像和小孩说一个道理,一遍肯定学不会,过目不忘那就是神童了,不过我至今还没见到过。当然,除了训练(train),AI实际需要运行在硬件上,也需要推理(inference),这些都需要算力的支撑。
第三是算法。其实大家现在算法谈得很多,也显得很高端,但其实某种程度上来说算法是获取成本最低的。现在有很多不错的paper,开源的网络代码,各种AutoML自动化手段,使得算法的门槛越来越低。另外提一点,算法这块其实是创业公司比较容易的切入点,数据很多人会觉得low,会认为就是打打标签而已,所以愿意做的不多;算力需要芯片支撑,是大公司争夺的主要阵地,留下的只有算法了。
不过,如果想做一个非常成功的AI应用,这三者都需要具备,所谓天时地利人和。
联系我:guanxs_ai@126.com
微信公众号: