想入门人工智能行业 需要掌握哪些基本知识
近三十年来,人工智能获得了迅速的发展,在很多学科领域都获得了广泛应用,并取得了丰硕的成果。人工智能已逐步成为一个独立的分支,无论在理论和实践上都已自成一个系统。
对于真正的人工智能而言,重要的永远是大数据,只有拥有完整的数据,人工智能才能真正发展起来。就像是一把宝刀,需要有一块好的磨刀石才能让它更加锐利,而大数据恰好就是我们需要的磨刀石。
如果你是还没上大学的同学,想学习人工智能,可以选择数据科学与大数据技术这个专业,这个专业与人工智能的关系较为密切,其次,这个专业是今年新增的专业,很多学校都新增了这个专业。
现在属于人工智能行业发展初期,各种可用的api函数都比较少,所以自己编写算法是必须要会的。而且AI技术现在也进入了家庭:
智能电脑的增加吸引了公众兴趣;一些面向苹果机和IBM兼容机的应用软件例如语音和文字识别已可买到;使用模糊逻辑,AI技术简化了摄像设备。对人工智能相关技术更大的需求,促使新的进步不断出现。人工智能已经并且将继续不可避免地改变我们的生活。
人工智能入门需要掌握这些知识:
1.基础数学知识:线性代数、概率论、统计学、图论
2.基础计算机知识:操作系统、linux、网络、编译原理、数据结构、数据库
3.编程语言基础:C/C++、Python、Java
4.人工智能基础知识:ID3、C4.5、逻辑回归、SVM、分类器、等算法的特性、性质、和其他算法对比的区别等内容。
5.工具基础知识:opencv、matlab、caffe等
要进入人工智能行业,首先要有一定的数学功底,建议参加专业的学习训练。因为人工智能不同于APP开发,网页开发、游戏开发等传统的互联网职位。
人工智能训练师:用数据“喂养”AI,教它们“更懂”人类
近日,上海市人工智能行业协会发布了《人工智能训练师职业技能等级直接认定通过名单》,悠络客有四位小伙伴也在名单之列,顺利通过人工智能训练师技师(二级)认定。
图片来源:上海市人工智能行业协会
对于这个新职业,可能有些人还比较陌生。今天,我们就来初步了解一下。
01什么是人工智能训练师?2020年3月,人力资源社会保障部与国家市场监管总局、国家统计局联合向社会发布了人工智能训练师、智能制造工程技术人员等16个新职业。2021年11月,国家人社部发布《人工智能训练师》职业技能标准,人工智能训练师国标由此诞生。
国标中对人工智能训练师的职业定义为:
使用智能训练软件,在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员。
02人工智能训练师的主要工作是什么?人工智能训练师的主要工作任务包括:
1.标注和加工图片、文字、语音等业务的原始数据;
2.分析提炼专业领域特征,训练和评测人工智能产品相关算法、功能和性能;
3.设计人工智能产品的交互流程和应用解决方案;
4.监控、分析、管理人工智能产品应用数据;
5.调整、优化人工智能产品参数和配置。
简单来说,人工智能训练师相当于人工智能的“教练”。通过反复的训练、调整优化,让AI越来越“聪明”、越来越“懂”人类。
比如,在疫情中,人工智能训练师可以训练人工智能分辨新冠肺炎疑似案例与正常人CT片的特征和区别,进而提高确诊效率。智能音箱可以根据使用者的情绪变化,为其推荐欢快、安静等不同类型的音乐,以更好地抚慰使用者的心情。我们生活中常见的小度智能屏、小爱同学、天猫精灵等智能产品背后,都有人工智能训练师的身影。可以说,人工智能训练师在AI技术落地、AI产品优化中发挥着举足轻重的作用。
03人工智能训练师是如何“训练”AI的?数据是人工智能的“养料”,但是对于人工智能来说,很多数据是无法直接“食用”的。在这之前,需要人工智能训练师对“饲养”原料进行加工(即把原始数据进行数据集标注),这样人工智能才能有效地从中“汲取养分”。
对此,中国工程院院士邬贺铨曾有过解释:“比如AI训练师会进行智能驾驶的训练。智能驾驶中需要让汽车自动识别马路,但如果只是将视频单纯地传给计算机,计算机无法识别,需要人工在视频中将道路框出,再交由计算机,计算机多次接受此类信息后,才能逐渐学会在视频和照片中识别出道路。”
以“火情识别算法模型的数据标注及模型训练”为例。首先,需要人工智能训练师在电脑用标注工具将图片中的火焰逐一圈出来,并标注为“火焰”。标注一定数量后,将这些图片数据“喂”给人工智能学习。待学习后再进行测试,逐张查看人工智能识别火焰的结果是否正确。比如,人工智能可能会将图片里的黄色盒子误判成“火焰”,于是人工智能训练师需要把该黄色盒子重新标注为“非火焰”,对算法进行调优,再对人工智能进行迭代训练,如此往复……
在训练过程中,人工智能还可能会出现“背题”的情况,即靠着死记硬背“蒙混过关”,其实并没有真正学会(像不像那些年应付考试的你?)。如果人工智能的“训练集”数据正确率高(做过的都会),但“测试集”的正确率低(有点变化就废),那么说明人工智能存在“背题”的情况,需要再次学习;如果“训练集”和“测试集”两者正确率都高,则说明人工智能已经“学会”。
04AI训练在连锁门店管理中的应用在连锁门店管理中的,AI训练同样有十分广泛的应用场景。比如,餐饮行业可以训练AI识别老鼠,实现对老鼠的追踪检测,帮助后厨消除老鼠隐患,保障后厨卫生。零售行业可以训练AI识别货架物品,检测货架是否存在缺货、串货等问题。
作为国际知名商业智能化平台,悠络客建立了前沿深度学习和算法平台,独立推出人形检测、老鼠检测、行为分析、物体识别、ReID等多项人工智能先进技术,并成功将其运用至各行各业不同场景。
同时,为了满足更多企业的个性化AI需求,悠络客还推出了UAutoAI-AI自动化模型训练。在悠络客全栈AI能力的支持下,企业可以自己动手训练AI,让自身的个性化AI需求更加高效落地。
1、标注数据集
2、完成标注,开始训练
3、验证集结果
4、模型训练成功
好啦,今天的分享就到这里。欢迎留言分享您对人工智能训练师的有趣见解。
人工智能训练师:用数据“喂养”机器人5年,AI长大了,我却遇到天花板
图片来源:图虫创意原标题:揭秘人工智能训练师:用数据“喂养”机器人5年,AI长大了,我却遇到天花板
文/徐丹 编辑/史成超
来源:时代财经
巫伟成本科就读计算机专业,毕业后在一家外包呼叫服务商做客服组长,后来偶然间接触到一款智能客服产品。在此之前,公司只有人工客服业务。
从未接触过人工智能的巫伟成惊讶于客服机器人的效率,“当时我看了一组数据,说客服机器人能取代多少人工客服,就觉得它一定是未来。”
抱着这样的想法,巫伟成到了一家电商公司做高级知识库管理员,工作内容相当于AI训练师。
巫伟成提到的智能客服产品是阿里2017年发布的“店小蜜”,一款专门针对商家研发的人工智能客服机器人,能7*24小时在线,全年无休,缓解了618、双11咨询高峰期人工客服不够用的问题。
伴随店小蜜出现的还有第一批AI训练师群体。2020年3月,AI训练师被人力资源和社会保障部正式纳入新职业。这个职业中的大多数人来自客服组长、客户运营等岗位,此前从未接触过人工智能,现在却是支撑人工智能应用必不可少的一批群体,是人工智能背后的人工。
“这是一份枯燥的工作”
虽然AI训练师直接面对的是新兴的人工智能技术,但从很多方面看,这都是一份较为机械和枯燥的工作。训练师们从上班开始面对的只有一个东西——数据,他们要用大量的数据喂养白纸一样的机器人,直到他们能听懂并回答客户的问题。
巫伟成目前在一家智能客服供应商乐言科技做AI训练师,负责训练智能客服机器人,他们的工作包括收集不同行业的客户需求、提供数据标注原则、设计机器人对话逻辑等。
“这项工作很考验耐心,我们需要把非常大量的数据进行整合,慢慢地把数据量减下来,还要把数据量转化成有效的东西,这是一个很枯燥的过程。”
比如做3C产品的客服机器人,巫伟成需要先找行业内较大的店铺前线客服和销售人员沟通,收集店铺和客户日常的沟通数据和客户较为关心的问题,将问题标准化,并提取出行业特征。
在实际问答过程中,顾客的提问方式千奇百怪。在某智能语音交互公司担任AI训练师的陈哲如对时代财经介绍,比如“忘记密码”这一件事,客户可能会问“我密码丢了”“不知道我密码是什么”等等,这就需要训练师们将典型问题标准化,然后编写一些相似问题进行模型训练。
收集完数据后,训练师需要将数据灌入系统中,分解、聚类,再进行数据标注。数据标注是教人工智能认识某个句子的过程,标注内容包括意图、做分词等。
比如,“我买的手机壳尺寸不对”这句话,数据标注师们会将之标注到“退换货”这个意图中,如果某个句子没有明确的意图,便会根据相关的业务知识和使用场景进行标注。
很多公司会聘请专门的数据标注人员或者外包团队负责数据标注,但在数据量不大或者涉及到较专业的行业知识(如医学)的情况下,AI训练师也会做数据标注的工作。
数据标注完成后是对话流设计,当顾客问出一个问题时,机器人需要准确识别其场景或意图,然后从知识库中搜索合适的回答或推送相关商品服务。如果说数据标注是让机器人学习知识,那么对话流设计就是让机器人学会运用知识。
要让机器人准确识别出某个意图,背后需要有强大的模型和足够的数据量,巫伟成介绍,一个意图里面需要50-100个句子。
对话流设计成功后是日常修复bug的工作。智能机器人只是AI训练师们用一堆数据堆起来的智能,没有任何自己思考的能力,当客户问到数据库里未收录的问题、问话时采用过多的修辞、方言口音过重时,机器人都没办法回答,这就需要AI训练师手动找到问题调整。
“很多人对AI不太了解,他们觉得AI是可以达到一个成人智力水平的,但实际上它还处在比较初级的阶段。顾客会觉得一个这么简单的问题,机器人为什么回答不上来,实际上如果模型不行或者初始语料不够,以及考虑到算法在实际应用过程中的限制,机器人就是不会回答。”会计出身、大学刚毕业就做了AI训练师的陈哲如说。
在整个工作过程中,训练师们不需要掌握专业的算法知识,只需了解模型的基础工作原理,如果模型有问题可以与专业的算法团队对接。
陈哲如所在公司有内部的算法知识分享会,他表示自己有一个“老大”,依靠自学转型成为算法工程师,但“那是比较牛的人,大多数人只掌握一些基础知识。有一些小公司不是通过模型,而是直接通过关键词设置对话流,这就完全不需要算法。”
在提供客服机器人产品的平台方做AI训练师,一个难点在于需要持续接触不同行业的知识,因为AI落地应用一定会结合到某个垂直领域。比如陈哲如最近在做国家电网的项目,对电网知识完全不懂的他需要持续学习相关知识,否则便无法弄懂用户的真实意图。
地铁里的智能客服。图片来源:视觉中国AI训练部门的从0到1
当客服机器人由平台方制作好,交到客户手中,需要商家端的AI训练师针对具体业务再做优化。
“刚引进来的智能客服只能回答行业通用问题,完全无法用到实际业务中,宛如一个人工智障。比如发什么快递、店铺售后流程、开发票退差价等零碎问题,都需要我们继续优化。”赵云峰说,“有时候甚至会出现一些离谱的错误,比如客户问‘什么时候发货’,它会识别成‘什么东西好吃’”。
赵云峰本科毕业于交通工程专业,此前在阿迪达斯电商服务部做数据分析,因一个偶然机会接触到智能客服,2020年前后转行到生鲜零售电商杭州大希地公司做AI训练师。
AI训练师赵云峰刚来时,公司还没有AI训练部门,只是因为赵云峰的数据分析工作看起来和AI训练师有联系,便被拉过去负责这项业务,没有任何经验的他从0到1摸索着搭建起了该部门。
刚开始,赵云峰整天泡在客服人员旁边,看他们怎么回复客户问题,在哪些节点推荐商品,哪些节点发送关怀语,然后将这些数据模型化,配置话术放到机器人知识库中。
2017年时,AI训练师还是一个刚刚兴起的职业,没有同行可以参考,赵云峰一开始走了不少弯路。比如,电商店铺经常凌晨举办活动,需要机器人回答一些有时效性的问题,但他们不知道怎么预设回答,只能半夜两三点爬起来更新话术。
经过4年多发展,公司的AI训练部门已经走入正轨。与平台端的AI训练师一样,商家端的AI训练师也是每天和数据打交道,主要工作就是对话流抽检,找出错误的对话,解决问题或将问题反馈给供应商。
遇到最多的问题,还是机器无法理解人的语言导致的对话流紊乱,背后原因是客户提问方式有太大的不确定性。
赵云峰介绍,人在线上说话经常会分段说。比如客户在问发货问题时可能会先说“今天上海来台风了”,机器人的底层逻辑决定,必须要对客户发出去的每一句话回应,当客户的话没有实际的指向时,机器人可能会默认到错误的话术场景。
当客户说话有太多语气词或者形容词时,如“我想要一件适合现在穿且防水的衣服”,机器人都会推荐错误,这时候一些没有耐心的客户可能就直接不买了。
碰见无法被识别的对话时,训练师需要在系统里添加新的问答和相似问题,最多一天需要处理10个对话流紊乱的问题,大约花费2小时的时间。赵云峰表示,处理对话问题时,最大的难点实际上在于公司内部沟通不顺畅,训练师往往没办法及时更新商品信息。
与平台端AI训练师不同的是,商家端AI训练师更需要关注智能客服是否给品牌带来了业绩提升,并在此基础上,优化智能客服和提升品牌的服务能力。
比如品牌端的智能客服要对客户追单,训练师需要跟踪追单效果,若效果不好则要更新智能客服的追单话术,或者辅之以图片、视频。这些都要求训练师本身有营销相关的知识。
此外,商家端训练师在训练机器人时还要考虑品牌调性和人文关怀。比如杭州大希地公司的主要客户是白领和精致妈妈,客服机器人就需要用“家庭风”的语言回复,比如“这款食品特别适合宝宝食用”。
图片来源:视觉中国训练师只是在“抓一个产品”,始终会有天花板
团队能够正常运营后,赵云峰没有再继续做AI训练师,而是开始在探索电商行业的数智化运营方式,例如数智化营销、智能客服、虚拟主播等。
巫伟成也转任了产品定义主管。在平台端,从AI训练师到产品经理是最为普遍的职业晋升道路。
AI训练师并不需要特定的专业知识,所以作为一份新职业,并没有专业的人才输送路径,人才来源也较为多元。
会计专业出身的陈哲如表示,自己刚来公司时,身边同事“学什么的都有”。不过,这几年岗位也在慢慢“内卷”,最近一段时间他发现新来的同事都有一定专业背景,包括一些善于处理文字语句的汉语言文学专业,以及计算机背景的毕业生和有相关行业知识的人才。
赵云峰则坦言,从团队搭建到现在的5年间,公司AI训练师人员和工作内容都没有太大变化。其团队人员大多来自于客服岗位,“客服培训一个月就完全有能力上岗,能做一些比较标准化的日常运行工作。所以这个行业并不缺人,但缺高质量人才。”
他表示,客服做AI训练师基本都有思维定式,很难跳出原本工作框架。所谓高质量人才是指,不止能做日常的运营,还能追踪前沿技术,把技术和业务相结合,且能想到哪些新产品能对提升公司业绩有帮助。
赵云峰所在的公司已经从不关心这个职业到逐渐重视AI训练师群体,但AI训练师在公司并不是价值较高的人才。“目前AI训练师还只是围绕智能客服这个产品去做运维,没有涉及到更深层的一些东西。”
另外,虽然AI训练师有统一的职业名称,但工作内容却不同。陈哲如去年因自身特殊原因换了三四份工作,他发现,不同公司实际工作内容会有很大区别。
“一些AI技术不太成熟的公司,训练师更多会做一些数据标注或者话术设计的工作。在AI技术较为成熟的公司里,训练师则会参与产品设计和算法调优的工作,这时候虽然同样被叫做AI训练师,工作内容已经相当于AI产品助理。”
作为一份新职业,AI训练师或许还要一段时间朝更正规的方向发展,“训练师只是在抓一个产品,始终会有局限性,会有一个天花板在那。”赵云峰感叹。
人工智能训练师招生简章
工作内容主要有注和加工围片、文字、语音等业务的始数据;分析提炼专业域特征。练和人工智能产品相关算法,功睫和性能;设计人工智能产品的突五流程和应用解决方案;监控,分桥,管理人工智能产品应用数据;调整,优化人工智驶产品参数和配置等。职业技能等级
该职业技能共分三级:助理人工智能训练师、人工智能训练师、高级人工智能训练师。
申报条件(具备下列条件之一)
1、助理人工智能训练师:
(1)大专以上或同等学历者;
(2)中职以上或同等学历,从事相关工作一年以上者。
(3)中职或同等学历,专业知识和实操技能特别优秀者。
2、人工智能训练师:
(1)已通过助理人工智能训练师资格认证者;
(2)本科以上或同等学历者;
(3)大专以上或同等学历,从事相关工作两年以上者。
(4)大专或同等学历,专业知识和实操技能特别优秀者。
3、高级人工智能训练师:
(1)已通过人工智能训练师资格认证者;
(2)研究生以上或同等学历者;
(3)本科以上或同等学历,从事相关工作两年以上者;
(4)大专以上或同等学历,从事相关工作三年以上者。
发证机构
JYPC全国职业资格考试认证中心
JYPC全国职业资格考试认证中心,由江苏英才职业技能鉴定集团于1999年12月28日投资创办。JYPC是国内成立较早、规模较大、行业普遍认可、法律手续齐全的职业认证机构。JYPC是我国第三方职业技能鉴定领域的旗帜和榜样。
JYPC经受住了时间和市场的双重检验,在社会各界具有广泛影响力。
JYPC考点遍布国内32个省市自治区,十万企业管理人员,超百万各行各业技术精英,获得了JYPC职业技能等级证书。JYPC证书广泛用于:政府招标、企业招聘、定岗加薪、资质升级、大中专院校学生计算学分等。第三方职业技能鉴定,是国际通行的认证体系,它通过竞争取得社会承认和社会地位,往往更加重视质量和信用,更加紧密结合经济与生产的实际需要,更加能够适应职场变化和社会发展。在国家实施“放管服”政策、政府退出非准入类评价体系的背景下,JYPC证书越来越成为金领和白领人士执业能力的象征、成为大中专院校学生专业技能水平的有力证明。
考试时间
每年统考五次,时间为4月、6月、8月、10月和12月。
考试科目
《人工智能训练师职业能力考试指南》(专业课必考)
《职业素养职业能力考试指南》(公共课必考)
《英语职业能力考试指南》(公共课选考)
《计算机职业能力考试指南》(公共课选考)
颁发证书
颁发的证书上必须加盖“JYPC全国职业资格考试认证中心职业技能鉴定专用章”钢印,方才有效。
1、助理人工智能训练师(三级)、职业素养等级证书(三级)。
选修英语或计算机的,颁发职业英语(三级)、计算机应用技术(三级)。
2、人工智能训练师(二级)、职业素养等级证书(二级)。
选修英语计算机的,颁发职业英语(二级)、计算机应用技术(二级)。
3、高级人工智能训练师(一级)、职业素养等级证书(一级)。
选修英语计算机的,颁发职业英语(一级)、计算机应用技术(一级)。
证书查询
证书统一查询网址www.zgks.net,备用网址www.jypc.net。
收费标准
1、助理人工智能训练师(三级) 3800元;
2、人工智能训练师(二级) 6800元;
3、高级人工智能训练师(一级) 9800元。
以上费用包含报名费、教材费、培训费、认证费、命题费、监考费、场地费、考试费、阅卷费、评审费等。除培训费各地可以调整外,其他收费国内外统一标准。公共课教材免费,教材上带有“JYPC全国职业资格考试认证中心指定教材”字样,为正式出版教材。
深度报告|AI新职位“人工智能训练师”
1-3岁的互联网人是人工智能训练师的主要来源,而人工智能产品经理将会是最合适的上升职位。
研究背景有人说,“人工智能训练师”是AI给人类带来的第一个非技术类“新职位”,这也许能让大家对AI多一些客观认知、甚至是好感;不过这个新职位,AI领域从业者的认知度还不高——
AI公司为什么要设立这样一个职位职责边界是什么什么样的人适合职位发展前景如何等等问题,都还是业内空白,为此我将在正文中为大家一一揭晓。
核心结论人工智能训练师的定义:通过分析产品需求和相关数据,完成数据标注规则的制定,最终实现“提高数据标注工作的质量和效率”以及“积累细分领域通用数据”的价值。人工智能训练师的行业认知度:开始得到杭州、北京等城市2年以上AI公司的重视,考虑到人工智能训练师的人才缺口5年后将增长20倍以上,该职位将会愈加受到各家AI公司的重视。人工智能训练师的职业规划:1~3岁互联网产品经理最有可能成为人工智能训练师的主要来源职位;而AI产品经理将成为最合适的上升职位。目录人工智能训练师的产生背景人工智能训练师是什么人工智能训练师的人才缺口人工智能训练师的职业规划结语一、人工智能训练师的产生背景一般而言,AI公司从客户(用户)那里获取到的原始数据无法直接用于模型训练,在“人工智能训练师”出现以前,是由AI产品经理先用相关工具简单处理,再交给数据标注人员进行标注加工,但因为标注人员对数据的理解和标注质量差异很大,导致整体标注工作的效率和效果都不够理想。
同时,AI公司在其细分领域内积累了大量数据,这些数据往往在使用一次后就不再产生更多价值,随之带来了第二个问题,数据无法沉淀和复用。
基于这两个问题,“人工智能训练师”应运而生。
注:“人工智能训练师”这个职位,据说最早是由BAT某部门在2年前创造的。
二、人工智能训练师是什么?1.定义人工智能训练师,是通过分析产品需求和相关数据,完成数据标注规则的制定,最终实现“提高数据标注工作的质量和效率”以及“积累细分领域通用数据”的价值,从工作流和工作难度等角度看,它介于数据标注和AI产品经理之间。
2.工作职责人工智能训练师的工作职责,主要有以下三点:
提供数据标注规则:通过算法聚类、标注分析等方式,从数据中提取行业特征场景,并结合行业知识,提供表达精准、逻辑清晰的数据标注规则,最终确保数据训练效果能满足产品的需求;数据验收及管理:参与模型搭建和数据验收,并负责核心指标和数据的日常跟踪维护;积累领域通用数据:根据细分领域的数据应用要求,从已有数据中挑选符合要求的通用数据(适用于同领域内不同客户/用户),形成数据的沉淀和积累。注:在不同公司,人工智能训练师的职责具有一定差异性,比如有的偏重前期的数据挖掘和模型训练,有的偏重后期的产品运营和产品体验。
3.职位辨析(一):人工智能训练师和数据标注、AI产品经理的异同
1)人工智能训练师和AI产品经理的异同
人工智能训练师需要和AI产品经理讨论需求,进而制定数据标注规则,并提出产品体验优化建议。
2)人工智能训练师和数据标注的异同
人工智能训练师需要和数据标注人员紧密协作,把控好整个流程的输入规则和输出结果,最终输出标注准确的数据(供模型训练)。
3)人工智能训练师的工作流程图:
下图,展示了人工智能训练师和数据标注、AI产品经理协作的工作流及其每个节点的交付物。不难发现,人工智能训练师在数据标注和AI产品经理之间,起到桥梁的作用。
注:人工智能训练师的工作交付物“数据标注规则模板”,可见完整版深度报告(下载方式见文末)。
(二):人工智能训练师和初级互联网数据产品经理的异同
1)两者工作职责的主要区别在于“积累细分领域通用数据”,这项工作将为公司创造新的价值,比如:
大大减少后续标注人员的工作量,提升业务的接入速度和效率。逐步建立细分领域的行业壁垒。总之,由于一般的数据不能全领域通用,所以不同应用场景下,细分领域通用数据少的问题,将成为整个行业的痛点和机会。
2)在AI工作场合,原本由初级互联网数据PM完成的“贡献数据采集标准、打通数据资源、数据应用的推广”等工作,并没有交给人工智能训练师,而是由更适合的AI产品经理完成,原因在于这部分工作更偏重前端的需求和推广(AI产品经理更熟悉和擅长产品体验及流程)。
4.能力模型基于人工智能训练师的工作职责,需要具备哪些能力呢?通过调研分析,我们总结出了如下的能力模型:
数据能力:了解科学的数据获取方法论,能运用数据处理工具(如Excel等),逻辑思维强。
行业背景:熟悉公司行业领域知识,特别是语言或图像方面数据的特点。
分析能力:基于产品的数据需求,及时发现、提炼问题特征,产出优化方案和建议。
沟通能力:具备较强与不同岗位同事同频交流的能力,能通俗易懂的阐释专业术语信息。
AI技术理解力:能够厘清基本的AI概念,并了解其技术边界(能做什么和不能做什么)。
AI行业理解力:具备AI行业知识(如了解行业术语)或相关产品运营经验,在此基础上能够预判行业趋势、深挖场景痛点、设计AI方案。
三、人工智能训练师的人才缺口1.当前人才缺口暂未形成明显的人才缺口,因为一方面,大部分公司都是近期才开始设立这个职位,人才需求量不多(不超过三位数);另一方面,目前大多数人才需求,通过公司内部运营人员转岗和外部招聘就能满足。
1)人工智能训练师的职位画像
工作经验:大公司的要求明显高于创业公司,一般在三年以上工资范围:主要集中在8k以下2)人工智能训练师的公司画像
发展较为成熟的智能客服类公司,对于人工智能训练师的需求量明显领先于其它行业。出人意料的,杭州AI公司表现出了更高的敏锐度(有4家公司,和北京并列第一),背后原因可能是政府的大力推动——根据2017年11月杭州人社局发布的相关政策,人工智能训练师不仅被纳入杭州市专项能力考核项目,而且获得高级专项能力认证的人工智能训练师将有机会申请公租房及杭州落户加分等政策福利。(原文链接:《杭州人社局:人工智能训练师将有机会享受落户加分等福利》)成立2年以上的公司(73%)更需要人工智能训练师,一般情况早期创业公司侧重搭建产品技术框架、验证解决方案和商业模式,没过多精力放在“提升效率”或“积累细分领域通用数据”上,所以“人工智能训练师”对于需控制团队规模、降低管理成本和风险的早期创业公司而言,非必需单独拆分的职位。已上市和A轮的公司,相对而言对人工智能训练师的需求量更大。另外需要说明的是,按道理CV(计算机视觉)领域也有数据标注工作,但我们搜索了10多家(计算机视觉)领域公司的招聘页面,暂时都没有发现人工智能训练师的需求,这可能是因为相对“标注语料数据”,“标注图像数据”更简单,主要找外包公司即可完成。注:以上结论,来自对15家公司职位描述信息的分析汇总。
2.未来人才缺口1)未来5年人才缺口将增长20倍以上
在即将到来的2018年,人工智能训练师的人才缺口预计将达到近1000人;两年后的2020年,伴随着AI行业的高速成长,人才缺口也将随之猛增至2018年的四倍,达到近4000人;按照这个发展趋势,到2022年人才缺口将突破2万人,相当于职位自然流入人才数量的四倍左右,人才缺口越来越大,需要引起行业的足够重视。2)职位画像和公司画像在未来可能发生的变化
CV(计算机视觉)领域公司可能也会逐步建立自己的人工智能训练师团队,因为随着CV领域商业化越来越成熟,各家公司对于数据标注的质量和效率要求会越来越高,甚至数据需求的CV领域可能会越来越细分,进而导致外包数据标注公司可能满足不了。成立年限小于2年的AI公司,可能会更加重视招募人工智能训练师,因为一方面,这个职位的行业认知度在逐渐提升,另一方面,更重要的是,各家公司会越来越意识到,在业务初期,细分领域的某些数据就能提升用户价值,并同时建立初步的行业壁垒。3.结论:未来,各家AI公司会愈加重视“人工智能训练师”这个职位随着大部分AI创业公司逐渐完成产品验证,所服务的行业领域越来越多,市场将进入快速增长期,构建数据方面的行业壁垒(积累领域数据、提升数据标注效率等),将逐渐成为一种趋势,而“人工智能训练师”正好能满足这些需求,在未来几年会得到各家公司更多的重视与关注。
四、人工智能训练师的职业规划1.人工智能训练师的来源职位,主要是1~3岁互联网产品经理从行业现状看,无论是外部招聘还是内部转岗,绝大部分人工智能训练师的应聘者都不具备AI相关的专业或行业背景,因此在人才选拔时,公司会更看重数据和产品相关经验,人才来源主要有以下三类:
内部转岗:从客服等和数据有关的运营岗位中平级转岗;内部转岗:从数据标注员中择优提拔;外部招聘:从有1年以上互联网产品经验的产品经理中招聘筛选。而这3个来源之中,目前1~3岁互联网产品经理就有4~5万(并且由于互联网产品经理已经供大于需,他们正面临找工作的压力);另一方面,一般1岁以上的互联网PM,能力也已经可以胜任人工智能训练师了。
综上所述,1~3岁互联网产品经理将最有可能成为人工智能训练师的主要人才来源。
注:1~3岁互联网产品经理的数量,由四个基础数据估算得出(2016年底互联网从业者人数、2016年底互联网从业者人数同比增长率、产品经理从业者人数占比、3年以下工作经验从业者人数占比),数据取自拉勾网《2016年互联网职场生态白皮书》和经纬&猎聘《互联网人才360°印象报告》。
2.人工智能训练师的上升职位,主要是AI产品经理职位创造价值更大:AI产品经理更关注整体的产品体验和商业价值,对于公司能产出更大的价值。;职位能力要求更高:在数据分析能力、相关行业经验基础上,还需要具备AI技术理解力、AI人机交互设计、AI行业理解力等更高阶的能力素质。综合来看,从人工智能训练师转型AI产品经理大约需要6~12个月的时间,出色的工作表现和抓住时机的决心将在转型过程中将起到决定性作用。
附:一个真实转型案例
SY同学,从数据标注转型到AI产品经理,花费了6个月,这应该是最快的速度了,因为她的每一步都是能力刚刚ready时,公司就有内部转岗或借调使用的headcount机会。
刚入职,具有超高工作质量与效率,明显高出其他同期入职同事1个月后,指导其他兼职标注人员3个月后,公司内其他部门有AI产品助理空缺,正好内部借调(从产品助理工作开始)6个月后,正式转型AI产品经理五、结语1.关于我们1)个人介绍:朱明德,3年互联网电商PM经验,正转型AI产品经理,主要通过学习饭团“AI产品经理大本营”的AI相关内容,加速成长。
特别说明的是,本人最近正在寻找“人工智能训练师”相关工作,坐标上海(苏州、杭州亦可),目标薪酬10k-15k。如果有AI公司愿意提供面试机会,可填写下面链接:https://www.wjx.top/jq/19154712.aspx (或扫描下面二维码),我后续会和您取得联系,谢谢。
2)指导顾问:黄钊hanniman,图灵机器人-人才战略官,前腾讯产品经理,5年AI实战经验,8年互联网背景,微信公众号/知乎/在行ID“hanniman”,饭团“AI产品经理大本营”,分享人工智能相关原创干货,200页PPT《人工智能产品经理的新起点》被业内广泛好评,下载量1万+。
本报告得到诸多同行大力支持。
特别感谢指导顾问图灵机器人@黄钊 老师在写作和调研过程中提供的帮助和建议(前后30多天时间里,针对10多个修改版本的文章框架和排版细节,总计提了300+个建议;并且帮助邀请了不少其他AI公司的调研对象)。感谢四位大力配合的调研对象:图灵机器人@郑殊予、追一科技@刘杰 以及另2位不便署名的同行;还要感谢@Shertin 对报告提出的修改意见。由于成文时间仓促,报告中难免有疏漏之处,欢迎您提出问题、评论和建议。
2.核心结论1)人工智能训练师的定义:通过分析产品需求和相关数据,完成数据标注规则的制定,最终实现“提高数据标注工作的质量和效率”以及“积累细分领域通用数据”的价值。
2)人工智能训练师的行业认知度:开始得到杭州、北京等城市2年以上AI公司的重视,考虑到人工智能训练师的人才缺口5年后将增长20倍以上,该职位将会愈加受到各家AI公司的重视。
3)人工智能训练师的职业规划:1~3岁互联网产品经理最有可能成为人工智能训练师的主要来源职位;而AI产品经理将成为最合适的上升职位。
作者:朱明德,“AI产品经理大本营”成员之一。
本文由人人都是产品经理专栏作家 @黄钊 授权发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议
人工智能考试复习题(自己背的)
选择题:
人工智能的含义最早由一位科学家于1950年提出,并且同时提出一个机器智能的测试模型,请问这个科学家是:(图灵)神经网络研究属于下列(连接主义)学派。产生式系统的推理不包括(简单推理)。下列不在人工智能系统知识包含的4个要素中(关系)。要想让机器具有智能,必须让机器具有知识。因此在人工智能中有一个研究领域,主要眼球计算机如何自动获取知识和技能,实现自我完善,这门研究分支学额叫(机器学习)。一些聋哑人为了能方便与人交流,利用打手势来表示自己的想法,这是智能的(行为能力)方面。下述(形象描写表示法)不是人工智能中常用的知识格式话表示方法。专家系统是以(知识)为基础,以推理为核心的系统。可信度方法中,若证据A的可信度CF(F)=0,这意味:(对证据A一无所知)。利用已有知识、经验,根据问题的实际情况,不断寻找可利用知识,从而构造(一条代价最小的推理路线),使问题得以解决的过程称为搜索。如果把知识按照作用来分类,下述(可以通过文字、语言、图形、声音等形式编码记录和传播的知识,即显性知识)不在分类的范围内。下述(复杂性和明确性)不是知识的特征。人类智能的特性表现在哪4个方面(能感知客观世界的信息、能对通过思维对获得的知识进行加工处理、能通过学习积累知识增长才干和适应环境变化、能对外界的刺激作出反应传递信息。)人工智能的目的是让机器能够(模拟、延伸和扩展人的智能),以实现某些脑力劳动的机械化。下列关于人工智能的叙述不正确的是(以为人工智能的系统研究是从上世纪五十年代才开始的,非常新,所以十分重要)。人工智能研究的一项基本内容是机器感知。以下列(使机器具有能够获取新知识、学习新技巧的能力)不属于机器感知的领域。被誉为国际“人工智能之父”的是:(图灵(Turing))。下列哪个不是人工智能的研究领域(编译原理)。为了解决如何模拟人类的感性思维,例如视觉理解、直觉思维、悟性等,研究这找到一个重要的信息处理机制是(人工神经网络)。下述(形象描写表示法)不是人工智能中常用的知识格式化表示方法。关于“与/或”图表示发的叙述中,正确的是(“与/或”图就是用“与”节点和“或”节点组合起来的树形图,用来描述某类问题的求解过程)。神经网络研究属于下列(连接主义)学派已知初始问题的描述,通过一系列变换把此问题最终变为一个子问题集;这些子问题的解可以直接得到,从而解决了初始问题。这是知识表示法叫(问题归约法)。A^(AvB)称为(吸收率)。~(A^B)~Av~B称为(摩根率)如果问题存在最优解,则下面几种搜索算法中,(启发式搜索)可以认为是“智能程度相对比较高”的算法。产生式系统的推理不包括(简单推理)。下列哪部分不是专家系统的组成部分(用户)。要想让机器具有智能,必须让机器具有知识。因此,在人工智能中有一个研究领域,主要研究计算机如何自动获取知识和技能,实现自我完善,这门研究分支学科叫(机器学习)。命题是可以判断真假的(陈述句)。人工智应用研究的两个最重要最广泛领域为(专家系统、机器学习)。下列搜索方法中不属于盲目搜索的是(有序搜索)。语义网络的组成部分为(节点和链)自然语言理解是人工智能的重要应用领域,下面列举中的(欣赏音乐)不是它要实现的目标。AI的英文缩写是(ArtificalIntelligence)。反演归结(消解)证明定理时,若当前归结式是(空子句)时,则定理得证。从已知事实出发,通过规则库求得结论的产生式系统的推理方式是(正向推理)。语义网络表示知识时,有向弧AKO链,ISA链是用来表达节点知识的(继承性)(A—>B)^A—>B是(假言推理)。仅个体变元被量化的谓词称为(一阶谓词)1997年5月,著名的“人机大战”,最终计算机以3.5比2.5的总比分将世界国际象棋棋王卡斯帕罗夫击败,这台计算机被称为(深蓝)。或图通常称为(状态图)不属于人工智能的学派是(机会主义)。
填空题:
人工智能三大学派是(符号主义)、(连接主义)、(行为主义)设P是谓词公式,对于P的任何论域,存在P为真的情况,则称P为(永真式)。广度优先是所有算法中,OPEN表的数据结构实际是一个(二叉树),深度优先搜索算法中,OPEN表的数据结构实际是一个(单链表)。产生式系统由三部分组成(综合数据库)(知识库)和推理机,其中推理可分为(正向推理)和(逆向推理)开发专家系统所要解决的基本问题由三个,那就是知识的获取、知识的表示和知识的运用,知识表示的方法只要由(谓词表示法)(框架)(产生式)和语义网络等。在语义网络表示知识时,所使用的推理方法由(AKO)和(ISA)在谓词公式中,紧接于量词之后被量词作用的谓词公式称为该量词的(辖域),而在一个量词的辖域中与该量词的指导变元相同的变元称为(约束变元),其他变元称为(自由变元)在诸如走迷宫、下棋、八数码游戏等游戏中,常用到的一种人工智能的核心技术称为(图搜索)某产生式系统中的一条规则:A(x)-->B(x),则前件是(A(x)),后件是(B(x))。产生式系统的推理可以分为(正向推理)和(反向推理)两种基本方式。人工之智能是计算机科学中涉及研究、设计和应用(智能机器)的一个分支,它的近期目标在于研究用机器来(模仿和执行人脑)的某些智力功能。启发式搜索是一种利用(启发式信息)的搜索。在与或图中,没有后裔的非终叶节点为不可解节点,那么含有或后继节点且后裔中至少由一个为可解的非终叶节点是(可解节点),含有与后继节点且后裔中至少由一个为不可解的非终叶节点是(不可解节点)不确定性类型按性质分(随机性)(模糊性)(不完全性)(不一致性)在删除策略归结的过程中删除以下子句:含有(纯文字)的子句;含有(永真式)的子句;子句集中被别的子句(类含)的子句。对证据的可信度CF(A)、CF(A1)、CF(A2)之间,规定如下关系:CF(~A)=(-CF(A))、CF(A1∧A2)=(min(CF(A1),CF(A2)))、CF(A1∨A2)=(max(CF(A1),CF(A2)))图是指由(节点)和(有向边)组成的网络。按连接同一节点的各边的逻辑关系又可分为(或图)和(与或图)。产生式系统的推理过程中,从可触发规则中悬着一个规则来执行,被执行的规则称为(被触发规则)。P(B|A)表示在规则(A—>B)中,证据A为真的作用下结论B为真的(概率)人工智能的远期目标是(制造智能机器),近期目标是(实现机器智能)。
简答题
填写下面的三值逻辑表。其中T,F,U分别表示真,假,不能判定答:
3.T
F
U
2.T T T
T F U
T U U
1.T F U
F F F
U F U
什么是产生式?产生式规则的语义是什么?
答:产生式规则基本形式:P->Q或者IFPTHENQ;
P是产生式的签题,用于指出该产生式是否可用的条件;
Q是一组结论或操作,用于指出当前提P所指示的条件满足时,应该得出的结论或应该执行的操作;
产生式规则的语义:如果前提P被满足,则可以推出结论Q或执行Q所规定的操作;
谓词公式G通过8个步骤所得的子句集合S,称为G的子句集。请写出这些步骤。
答:1.消去连接词->,;
2.减少否定符号辖域;
3.变元标准化;
4.消去存在量词;
5.消去全称量词;
6.化为前束范式;
7.适当改名;
8.消去合取词^;
证明G是否是F的逻辑结论;
答:1.P(x) 从F变换
2.Q(a)VQ(x) 从F变换
3.¬P(y)V¬Q(y) 结论否定
4.¬Q(x) 1,3归结
5.2,4归结置换{x/y}
什么是人工智能?人工智能与计算机程序的区别?
答:人工智能是指在机器上实现的智能,实现模拟扩展人类智慧的机器。与计算机程序的不同点是,程序是死板的直接解决问题,而人工智能会学习总结解决问题的方法
当前人工智能有哪些学派?他们对人工智能在理论上有何不同观点?答:当前的学派有,符号主义,连接主义以及行为主义;
符号主义是,基础是符号,符号操作,人脑和计算机都是物理符号,智能的基础是知识,核心是知识表示和知识推理;
连接主义基本是神经元,思维过程是连接神经元活动的过程,认为人脑不同于计算机;
行为主义认为智能依赖于感知和行动;机器不能真实地反映现实世界中的客观事物。
广度优先搜索与深度优先搜索各有什么特点?答:广度优先是一种先扩展节点的策略,是一种完整的搜索策略,即只要问题有解,就能找到解。
深度优先是一种不完全的策略,即对于某些有解的问题,深度优先搜索可能找不到最优解,也可能根本找不到解。
什么是不确定性推理?有哪几类不确定性推理方法?答:是指从具有不确定性的证据,运用知识库中的不确定性知识,最终推出具有一定程度的不确定性,但却是合理的或近乎合理的结论的思维过程。两大类:模型方法,控制方法。
什么是机器学习?机器学习的研究目标是什么?答:机器学习是基于人类的学习的,是研究如何让计算机来模拟人类学习的一门学科。
研究目标:认知模型的研究,探索各种学习方法,根据任务建立相应的学习系统。
什么是数据挖掘?数据挖掘的主要内容是什么?答:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取有用的信息和知识的过程。
内容:是根据其他属性的值预测特定属性的值。。
数据聚类和分类有何不同?答:分类技术是一种有指导的学习,聚类是一种无指导学习
分类的样本是有标记的,聚类样本没有标记
简述大数据的四个特征分别代表的含义。答:1.数据规模大,数据量是大数据的基本特征;
2.数据种类多:现在企业所采集的和分析的数据还包括网站日志数据;
3.处理速度快:数据的产生和更新的频率也是衡量大数据的一个特征;
4.数据价值密度低:数据不断增长,可用的很少;
什么是知识?它有哪些特性?有哪几种分类方法?答:积累起来的认识和经验;
分类:性质,适用范围,作用,确定性,等级,结构
15.什么是知识表示?有哪几种常用的知识表示方法?
答:知识的表示是对知识的描述,用约定的符号把知识编码成一组能被计算机接受并便于系统使用的数据结构。表示方法:有一阶谓词、产生试、语义网络,框架,过程,脚本,本体;
计算题
设有如下语句,请用相应的谓词公式分别把他们表示出来(1) 有的人喜欢梅花,有的人喜欢菊花,有的人既喜欢梅花又喜欢菊花 。
答:定义谓词: P(x):x是人 L(x,y):x喜欢y 其中,y的个体域是{梅花,菊花}。 则用知识用谓词表示为: ((∃x)(P(x)→L(x,梅花)∨L(x, 菊花)∨L(x, 梅花)∧L(x, 菊花))
(2)有人每天下午都去打篮球。
答:定义谓词: P(x):x是人 Q(x):x为打篮球W(y):y是下午 则用知识用谓词表示为: (∃x)(∀y)(W(y)→Q(x)∧P(x))
(3)新型计算机速度又快,存储容量又大。
答:C(x):x是新型计算机;F(x):x速度;B(x):x容量大 ;将知识用谓词表示为: (∀x) (C(x)→F(x)∧B(x))
(4)不是每个计算机系的学生都喜欢在计算机上编程序。
答:S(x):x是计算机系学生
L(x, P):x喜欢编程序
U(x,C):x使用计算机
则¬ (∀x) (S(x)→L(x, P)∧U(x,C))
(5)凡是喜欢编程序的人都喜欢计算机。
答:定义谓词P(x):x是人 L(x, y):x喜欢y 则(∀x) (P(x)∧L(x,pragramming)→L(x, computer))
试实现一个“大学教师”的框架,大学教师类属于教师,包括以下属性:学历(学士、硕士、博士)、专业(计算机、电子、自动化、……)、职称(助教、讲师、副教授、教授)答:框架名: 类属: 学历:(学士、硕士、博士) 专业:(计算机、电子、自动化、…)职称:(助教、讲师、副教授、教授)
论述题
用语义网络表示下列信息:(1)胡途是思源公司的经理,他35岁,住在飞天胡同68号;
(2)清华大学与北京大学进行蓝球比赛,最后以89:102的比分结束。
答:
将命题:“某个学生读过三国演义”分别用谓词公式和语义网络表示
答:谓词公式=∃x(student(x)∧read(x,三国演义))
语义网络:
用语义网络表示下面的知识:(1)我是一个人(2)我有一台计算机(3)我的计算机是PC/PIV1.8G(4)PC机是计算机(5)PC/PIV1.8G是PC机(6)PC/PIV1.8G包括硬盘、显示器、CPU、内存。
答: