博舍

人工智能时代:数据加工厂是如何运作的 人工智能是怎么运作的呢图片素材高清

人工智能时代:数据加工厂是如何运作的

人工智能时代相较于过去的数据处理方式,除了在数据量级上的差别之外,最大的差别是对非结构化数据的处理与运用。本文将介绍:如何通过数据标注工具将非结构化的数据处理为可用于建模的结构化数据?

什么是数据标注

著名杂志《经济学人》将数据类比为21世纪的石油,但石油是不能直接使用的,需要经过复杂的炼制过程才能成为可以被利用的资源。

同样,非结构化的数据也是无法直接使用的,需要根据使用者的需要,将其中有用的部分标记出来,转变为计算机可以理解的结构化数据,才可以被用于AI建模,这个过程就称之为数据标注。

结构化数据就是常见的二维表结构,excel或sql数据库都是以二维表的形式存在的。

而非结构化的数据——例如一张图片,本质上是一堆265色的像素点按一定的顺序进行排列组合。如果要知道这张图片上是否有一只鸟,就得人工用一个框把物体框出来,并做好标记,告诉计算机在这个框里有一只鸟。这样计算机就可以把框内的像素点当做鸟的特征进行学习,构建出识别鸟的模型。

在2012年,谷歌首席科学家李飞飞教授带领的团队在计机器视觉方面取得了重大突破,利用神经网络算法让计算机具备了在图片中识别出猫的能力。

这份成就一方面得益于计算机算力和AI算法的发展,但更为重要的基石是ImageNet图像数据集提供的一千多万张带有拉框标注的图片,正是这些经过了标注的图片,让计算机在视觉方向有了新的发展。

ImageNet官网

机器学习领域有句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

可见数据和特征在人工智能领域的重要性——对于同一个目标,将时间和精力花在改良算法上远不如花在构建更加精确的数据集上更有效,一个具有高质量标注的数据集对于模型的提升效果远高于优化算法带来的效果。

这就是数据标注对于人工智能的重要性。

ImageNet这类开源数据集虽然数量非常多,但是标注的精度并不高,且无法满足所有类型的建模要求。所以,AI团队需要根据自己的需要构建自己的数据集。根据应用方向的不同,大致可以分为:推荐算法,语音语义和计算机视觉三个方向。

从发展阶段来看,推荐算法的发展应该是最为成熟的,一方面是传统的机器学习算法已经非常成熟,另一方面是因为在这一领域有着大量的结构化数据积累。

例如:淘宝在上传商品时需要选择商品的分类;网站上线时也需要设置SEO关键词;在教育行业则有专业的老师给习题打上对应知识点的标签。

而用户的人口数据和行为偏好数据只需要进行埋点就可以收集到了,将商品和用户两者的数据结合推荐算法即可构建推荐系统。

在语音语义方向,有着例如科大讯飞,海量大数据等公司长达近20年的积累,在中文分词,语音模型,语言模型等方面都已经较为成熟,可以达到商用的阶段。

目前,对于语音语义的数据标注常见的有音频识别、语义分析、文本分类等。

而计算机视觉方向,目前处于刚刚起步的阶段,但发展极为迅速,人脸识别,图像转化方向上已经有了大量的商用产品。这一方向对于高质量的标注数据需求非常大,例如上文提到的图片拉框以及图片描点,语义分割,视频跟踪标注等都是这一方向的数据需求。

数据标注工作流程

数据标注工作流程通常是这样的:

先由产品经理确定用户需求,根据用户需求准备对应的原始数据。产品经理与人工智能训练师一起细化对于数据标注的需求。人工智能训练师根据标注需求创建标注教程,将教程与原始数据集发放给数据标注员。标注员根据教程完成对数据进行标注。人工智能训练师及产品经理对标注后的数据进行验收,将不合格的数据打回重新进行标注。将标注好的数据交付人工智能工程师进行算法建模。

这其中对于数据标注人员来说,最重要的就是标注教程。

什么样的需要进行标注,标注的精细度要达到多少,什么样的情况不需要进行标注,很多对于标注的细节都要在教程中对标注员进行说明。

如果未对标注进行严谨的细节说明的话,可能会对最终的算法产生极大的影响。

例如:在一个图片标注任务中,标注需求是要对图片中的鸟进行框选并进行标注——那么鸟在水中的倒影要不要框选,图片中画在油画中的鸟要不要框选,鸟只有一部分在图片中要不要框选等等细节问题,都需要在标注教程中进行详细的说明。

数据标注工具

对于非结构化的数据标注需要使用专门的标注工具进行,这里介绍两款工具:

1.LabelImg

LabelImg是一款由python编写的跨平台标注软件,由个人开发,是业内有名的一款标注工具,标注之后可以导出pascal-voc格式的数据。

但这个工具门槛有点高,一来是英文版,二来需要使用命令行工具下载python以及对应的pyqt4和lxml等第三方库来使用。对于不会使用python命令行的来说,这个不是特别友好,就不再过多的介绍了。

2.精灵标注助手

与LabelImg类似的一款国产工具,但在用户使用上比前者友好太多,直接在官网即可下载并免费使用。

支持目前市面上所有常见的标注需求,并且除了pascal-voc和CoreNLP之外,还可以导出XML,JSON,MongoDB这些常见的数据格式,操作上也非常方便,基本不需要学习就可以直接上手使用。

如果是自己进行数据标注的话,首选这款工具。

当然,也有一些大公司会自己开发标注工具,但因为数据标注并不需要太高的技术含量,且对于标注的需求大多是项目性质的,所以大多数公司会选择将数据标注的工作交给众包团队来进行。

如何做数据标注1.图像类

框选类:对图片中指定的物体进行拉框选择,根据业务的不同,来框选不同的物品。

如果一张图中有多个指定物品,则需要说明:什么样的情况下可以一起框选?什么样的情况下需要分别框选?以及,判断框选的物品是否被遮挡或截断?等等。

应用场景:识别图片中是否存在某种物品,以及识别是什么物品。

例如:自动驾驶中判断交通标示牌,拍照购物中识别物品,儿童认知类产品等。

2.描点类

常见的需求有:描绘人体的关节点、手部的关节点,以及嘴唇的关键点、脸部的关键点,我还见过有对猫和狗的脸部进行打点的需求。

应用场景:描点类的应用场景很多——例如:人脸识别,以及美颜类的产品。还有最近在直播和短视频应用中比较流行的智能换脸,换发型等,以后应该还可以应用到电商购物领域。对于关节点的识别可以应用在动作识别上,例如:安防领域,课堂教学领域等等。

3.语义分割类

将一张图片上不同的物品进行描边,然后标注为指定的标签。常见的有将人体的头发,人脸,身体分割成不同部分,还有自动驾驶中对道路,建筑物,行人等进行的标注。

应用场景:语义分割是图像识别的一个重要领域,对于计算机理解图像进而作出决策有重要意义。

例如:自动驾驶场景中,需要判断看到的物品是什么,进而决定接下来的驾驶行为。

4.语音语义类

音频转写:目前讯飞,搜狗等做语音方向的公司只能提供通用的语音模型,对于一些特定领域的语音识别,或语音本身不是特别清晰,或少数民族语言例如藏语维语等语言的识别则需要进行人工的语音转写。

应用领域:语音转文本,语音模型构建,语言模型构建。

5.文本分类

主要是针对文本的内容及性质进行分类,例如:判断一段文本是积极还是消极,判断一段文本属于哪个领域知识等。

应用领域:舆情监控,新闻类别自动分类,垃圾邮件识别,商品评论情感识别等。

6.实体标注

对于一些专业领域的词语或者同义词,近义词需要进行实体的标注,以帮助计算机理解不同的词代表的含义是什么。同时,在标注实体的时候,还可以标注实体的属性,实体与实体之间的关系等。

应用领域:命名实体识别,知识图谱构建等。

众包数据平台

数据众包是指:公司将数据标注的任务发布到众包平台上,然后由个人或团队来承接任务,并根据任务要求进行标注的一种工作形式。

相较于公司自己组建数据标注团队,数据众包的方式在成本和效率上都有着明显的优势,目前中国从事数据众包的标注员近百万人。

众包带来了成本降低的同时,也带来了标注质量的问题。因为从业人员能力参差不齐,所以众包进行标注之前,要先对标注人员的能力进行考核,只有考核通过的人员才能进行后续的正式标注。

例如:在提供标注教程之后,会先提供10个左右的标注题作为考核的题目,由系统进行判断标注员的标注与正确的标注之间是否存在差异。如果存在较大差异的话则考核不通过,需要重新学习标注教程,直到考核通过之后才可以进行正式的标注。

下面的左图是一个错误的人脸标注,与标准的贴合度不够,正确的标注应该如右图。

除了在工具上设置自动比对的功能,专门做数据标注众包公会,通常会设置专门的审核员对所有标注后的数据进行审核,对于不合格标注进行打回,以此确保数据标注的质量。

对于众包平台来讲,国外首选亚马逊众包平台,ImageNet就是通过这个平台进行标注的。而国内也有百度众包、京东众智、龙猫数据等众包平台可供选择。

在选择数据众包平台上,通常需要考虑以下几个方面:

标注员专业度:

人工智能虽然是高科技领域,但数据标注却是一个典型的劳动密集型工作,有经验的数据标注员在工作的效率和质量上都会比新手要高,是个熟能生巧的工作。

所以,在挑选众包团队时,要注意选择那些经验丰富的标注团队,这点跟招聘面试的道理是一样的。

功能完善度:

众包平台都会自己开发一套标注工具供标注员使用,在选择之前需要看一下平台提供的功能是否满足标注的需求,例如:目前有些平台还不支持三维图形的标注。还有一些平台为了提高标注的效率,会提供预标注功能,在人工标注之前先根据过往数据形成的算法对数据进行预标注,人工只需要对预标注进行审核或修改即可。

另外,平台的审核流程是否完善也是需要考察的重点,有些平台只提供抽检或一重审核,但是对于一些较为复杂的标注需求则需要平台能支持多重的审核流程。

数据安全性:

有一些团队——例如银行,对于标注数据的安全性有较高的要求,则需要数据平台提供API进行对接。

确保标注数据只存在公司内部而不会外泄,标注员只能访问到当前需要标注的数据,“标后即焚”,保护数据的安全性。

数据整理与留存

在标注工作结束之后,拿到的数据根据业务和模型的需求,不同类型的数据要分开进行存储。

例如:人脸标识中,戴帽子和不戴帽子,正脸和侧脸,光线的明暗对于算法模型都有很大的影响,为了可以随时调整建模数据,需要用不同的文件夹进行存储。

除了根据不同的数据特征进行区分之外,还需要根据数据是训练集。测试集还是验证集来对文件进行划分,根据模型训练的效果可能要对标注好的数据做一些增删,所以在一开始就做好数据的分类就很有必要了。

对于文件夹的命名方面,可以参考之前提到的驼峰命名法和下划线命名法——例如“Train_Data”,“Test_Data”等来进行命名。

数据标注是一件费时费力的工作,所以,对于公司所有标注好的数据,最好有一份整合的数据清单文档进行留存,标明:有一些什么数据?数量是多少?是否已经做了标注?标注了一些什么内容?

这样如果以后还有类似的需求,或者公司内部其他项目组有类似需求的时候,就可以直接拿来使用而不需要再重新进行标注了。

数据标注的未来

在一个人工智能项目中,数据的准备工作要占到整个项目至少70%的时间,整个产业链都在想尽办法提高数据准备和标注的效率。

例如:众包平台除了提供标注服务外,还可以提供数据的采集服务。根据业务方的需求采集特定的图片,视频,文本,语音等数据,节省业务方在数据采集上的时间,同时也给自己带来额外的收费点。在算法的研究上,也希望能用尽可能少的训练数据来达到建模的效果。

高质量的标注数据是人工智能的基石,现在才处于一个刚刚起步的阶段,未来的几年随着应用场景的拓展,会有越来越多数据标注的需求,带来可观的就业增长。

同时,随着时间的积累,可通用的高质量标注数据集越来越多,也将极大地降低智能产品落地的门槛,提高人工智能的发展速度。

 

本文由@黄瀚星原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

人工智能现在能有多“聪明”

柔性物流四向车“一车跑全仓”AR眼镜可“同声传译”

正在召开的2023中关村论坛上,“人工智能”无疑是最热门的关键词。无论是自动驾驶还是智能穿戴,是量子计算还是5G通信,甚至碳中和,众多前沿科技的背后都离不开人工智能技术的支持。可以说,未来十年,人工智能将继续改变各行各业以及普通人的生活。在本次论坛国际技术交易大会板块、科博会展览板块,以及人工智能相关平行论坛上,北京青年报记者注意到,各大公司都带来了最新人工智能科技成果,包括视觉通用分割模型SegGPT、5G音视频交互应用、双语数智人等等。

5G通信新应用

可视自助服务带来交互新体验

最新数据显示,我国5G用户已达5.61亿,我国累计建成开通5G基站231.2万个,全球占比均超过60%。而一季度全国平均5G下载网速为334.98Mbps,峰值下载速率为472.92Mbps。如此快的网速,再加上人工智能的支持,除了用来刷社交网络、日常办公学习,还可以用来做什么?

中国联通此次展出的“5G新通信智能交互平台”,就应用了5G“大带宽、低时延、泛连接”的特点,运用5G音视频交互与AI原子能力,结合AR&VR、三维建模、智能交互等先进技术,做到了5G内生服务下的音视频交互应用。平台运用多媒体、三维建模、实时跟踪、传感、智能交互等技术,实现端到端的可视化、智能化新通信服务,为企业、政府等提供5G音视频交互、智慧虚拟形象等功能。

如金融行业应用版平台,用户可以远程接入银行柜台服务,享受与现场办理同等的体验及个人隐私保护;能源行业应用版平台则重构了井场智能联动系统应用体系,实现了井场资源数字化管理、井场巡护数字化编制。交通行业版平台以5G新通信为基础提供无障碍智能通信服务,为老年乘客提供可视化交互的智慧助老服务。

值得一提的是,该平台在国产化适配与自主可控方面实现了平台与国产手机芯片适配;平台端支持国产化系统,手机侧适配华为麒麟芯片、联发科天玑芯片,支持华为、小米、OPPO、VIVO、魅族系列国产手机。

“数智人”更聪明

与大模型融合能“听懂你的话”

数智人,简单来说就是虚拟人,借助拟人化的外表、人工智能的内核,数智人已经开始在众多行业中商业化落地,辅助人工服务,提升企业运行效率。例如,数智人在金融、文旅、传媒、公共服务、医疗、零售等行业场景中,可担任坐席客服、理财顾问、播报主持、导游导览角色;在文化娱乐场景,可以作为虚拟偶像、虚拟歌手等形成IP资产;在智能车载、智能交通、智能家居等场景,可以通过与智能设备结合,为用户提供智能化服务。

腾讯云智能小样本数智人生产平台近日首次对外发布,只需要3分钟真人口播视频、100句语音素材,平台便可通过音频、文本多模态数据输入,实时建模并生成高清人像,在24小时内制作出与真人近似的“数智人”。相较于照片生成、仅能呈现面部形态的数字人,小样本数智人可根据文本设计手势,唇动、口型、表情复现真人风格。

本届中关村论坛,北青报记者也尝试用数智人虚拟主播,代替真人主播出镜,进行7×24小时的直播服务,吸引了诸多观众关注。

不过,以往的数智人,比起真人来,他们的思考能力明显更弱。此次中关村论坛上,由智谱AI推出的“智谱AI脑数智人”则更加聪明,它不再拘泥于固定的互动方式,而是初具理解人类指令意图的能力。智谱AI由清华大学计算机系的技术成果转化而来,公司于2022年合作研发了双语千亿级超大规模预训练模型GLM-130B,并主导构建了高精度通用知识图谱,把两者有机融合为数据与知识双轮驱动的认知引擎,并基于此千亿基座模型打造ChatGLM。通过认知大模型链接物理世界的亿级用户、赋能元宇宙数字人、成为具身机器人的基座,赋予机器像人一样“思考”的能力。此外,它还是一个既会中文又会英文的双语数智人。

“无人驾驶”上街

最新行人预测模型呼之欲出

如今在亦庄等地,已经可以打到百度自动驾驶的车辆。未来,随着技术发展和政策批准后,车上的安全员将会撤出,自动驾驶车辆会实现真正的无人化。

据百度公司介绍,无人驾驶技术核心是“百度汽车大脑Apollo平台”,包括高精度地图、定位、感知、智能决策与控制四大模块。最新的Apollo已经进化到引入多个基于深度学习的模型、发布了基于语义地图的低速行人预测模型、引入了基于语义地图的模仿学习。

在本次中关村论坛上,旷视科技发布了自研智能托盘四向穿梭车系统。旷视智能托盘四向车作为柔性物流系统中的离散型设备,可以实现“一车跑全仓”。为什么说是“柔性物流”?旷视表示,主要是因为它具有离散型设备、分布式控制两大特点,用户企业可以像搭积木一样,根据需要灵活组合,柔性部署。其次,柔性则体现在整个系统的“动态可扩展”,用户企业可以根据淡旺季以及业务增长等变化,随时增减四向车数量,提升系统承载能力。

智慧城市更低碳

AI“管家”水电空调全都管

在智慧城市建设中,AI扮演着越来越重要的角色。例如,AI可以用于城市的基础设施管理,例如自动监测道路、桥梁和建筑物的结构健康状况,以及检测和修复道路上的裂缝和坑洼;AI可以帮助城市管理能源,例如通过分析能源使用数据来实现更高效的能源使用,以及优化城市的能源系统;AI也可以帮助城市保护环境,例如通过空气质量监测、垃圾处理和水资源管理等方面,提高城市的环境质量。

那么,如何利用AI给楼宇减碳来实现碳中和碳达峰的目标呢?恒华数元展示的基于楼宇大脑神经网络系统碳管理平台,从充分利用清洁能源的角度出发,集中引用性价比较高的技术产品应用,遍及楼宇末端传感感知节点和主要用能设备传感感知节点,通过楼宇大脑边缘计算服务器统一协调管理,使楼宇用能设备高效运转,尽可能排除不必要的能源浪费,根据边缘计算模型分析,楼宇各用能子系统能耗曲线处于平稳运行状态下,整体能耗是最低的。

其中,楼宇电力能耗应该占楼宇能耗的首位,针对楼宇弱电系统的特点,在不增加装修施工的基础上,研发出体积更小、计量准确、安装便捷的一套弱电监测及AI控制系统,可以对楼宇的电力系统进行动态的监控,确保无人区及时断电,避免不必要的电力浪费。而楼宇空调系统耗能占到楼宇总能耗的40%,恒华数元通过和高校成立产学研基地深度合作研发出针对楼宇冷、热源系统调优的策略算法,形成了成熟的数据算法模型,使得空调系统节能率达到10%以上。目前,这一项目已在广东、天津、江西、四川、湖北、安徽等省份落地。未来,居住小区、写字楼、商场等,都将向着绿色低碳的方向“进化”。

AR眼镜“同声传译”

智能穿戴设备助力无障碍

随着人工智能融入生活的方方面面,搭载人工智能的设备也趋于小型化,如智能手表可接听电话、回微信、监测运动情况等;智能眼镜外形如普通眼镜,戴上后可以接打电话、听音乐等。

不过,中关村论坛上展示的这一智能眼镜,则更实用。这款名为“亮亮听语者智能眼镜”是一款双目光波导AR智能眼镜。

VR眼镜戴上后会沉浸在虚拟世界,AR眼镜则不会阻挡视线,其将现实世界与虚拟世界进行融合,从而实现一些在现实世界中无法做到的功能。如听力受损人群常常因“听不清”、“听不见”声音而在工作、社交、学习过程中遇到困难,这款眼镜可以将声音信息转换成文字在眼前显示出来。它还具有同声传译功能,可以识别不同国家的语言,同时转换成汉字或者其他国家的文字呈现前,帮助用户在国际语言交流的环境中方便理解。这款眼镜轻巧便携,机身仅重79g,相比于目前市面上200-300g的AR眼镜,其自重非常适合长时间佩戴;还可以适配近视、远视、散光、老花眼等情况的镜片;眼镜外侧不漏光,保护隐私,内容仅自己可见;这款眼镜还搭载了毫秒级实时字幕,降噪算法,5米内精准收音,转译准确率最高可达95%以上。据悉,该款产品目前已经具备量产能力。

隐私保护计算技术开源

应用于金融医疗保险等领域

隐私计算,也叫隐私保护计算,是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,实现数据在流通与融合过程中的“可用不可见”,从而实现数据价值的转化和释放。隐私保护计算对隐私数据提供了未来行业亟须的保护能力。本次中关村论坛展览(科博会)上,蚂蚁集团首次公布以关键基础软件为核心的开源完整版图,9大核心技术全部开源,其中就包括隐私计算技术“隐语”。也就是说,这一技术平台面向全球用户开放,可无需调用和开发代码,直接使用产品功能,帮助用户低成本探索隐私计算应用场景。

据介绍,隐语目前已经在金融、医疗、保险等场景应用。如浦发银行联合蚂蚁集团隐语平台,识别出超过14.5万名高风险用户,阻止了数十亿人民币的高风险贷款的发放。在医疗方面,蚂蚁隐私计算平台和阿里云数字医疗团队合作,为医院搭建了面向医院运营管理的数据融合平台,为管理者提供数字化绩效管理分析,帮助医院建立精细化运营管理体系,减少医院的经济风险或临床风险。此外,过往保险机构在理赔过程中,通过向医疗机构明文(即数据不加密)查询被保险人的诊疗情况,将会获得不必要的原始数据。而蚂蚁的解决方案通过设定数据逻辑查询,利用多方安全计算等隐私计算技术,使得保险公司只获得是否理赔的查询结果,不会获得各种原始数据,保护理赔用户隐私。

声音

大模型将改变世界开发的同时应研究控制技术

ChatGPT是2023年最引人关注的科技界新事物之一,它的发布也引发了语言大模型狂潮,百度、阿里、知乎、商汤、京东等多个公司纷纷推出了其大模型。AI另一个重大领域——视觉GPT也亮相本届中关村论坛:智源研究院视觉团队正式推出通用分割模型SegGPT,这是首个利用视觉提示完成任意分割任务的通用视觉模型。

据介绍,SegGPT使用时,摈弃语言类大模型的传统思维,与机器交互时不使用文字而是使用图像。比如用户给出SegGPT一张图并在上面将“彩虹”圈了起来,当用户再给许多张包含有彩虹的图片时,SegGPT就能自动识别上面的彩虹,并将这些部分圈出来。可以说,SegGPT“一通百通”:给出一个或几个示例图像和意图掩码,模型就能get用户意图,“有样学样”地完成类似分割任务。此外,SegGPT还“一触即通”:通过一个点或边界框,在待预测图片上给出交互提示,识别分割画面上的指定物体。利用这个特性,可以实现诸多功能,比如机器人机械手去拿西红柿等物件时,机器人就可以迅速知道西红柿的边缘在哪里,既能拿起西红柿,又不会捏碎,十分精准。

目前,国内大模型处在百花齐放、百家争鸣的状态下。百度创始人、董事长兼CEO李彦宏在中关村论坛上表示,人工智能再次成为人类创新的焦点,越来越多的人认可第四次产业革命正在到来。他强调:“大模型改变了人工智能,大模型即将改变世界。”中国工程院院士、中国人工智能学会理事长戴琼海也表示,人工智能将带来多个方面的应用变革:面向科学研究新范式(宇宙起源、自然规律、生命奥秘);面向人民生命健康(AI药物研发、远程虚拟手术);面向经济主战场(虚拟创造、工业制造、灵境交互);面向国防重大需求(多源态势分析、AI地空战线部署)等等。

值得关注的是,面对新变化,也有人提出了警示。创新工场董事长、首席执行官李开复表示,“AI仍会出错,会一本正经地胡说八道,它只能被应用于生成内容初稿、开拓想法,而不能作为最终版本,AI需要持续的人工干预,避免谬误或灾难发生。此外,AI可能还存在一些法律及伦理问题,因此,AI并非适合所有的领域,只能应用于容错度较高的应用中。”李开复强调,“AI可能制造虚假信息,可能被不法分子利用来做针对性的欺骗用户,因此,开发时,需要同时研究控制AI的技术和管理的法律法规。”(李娜温婧)

【纠错】【责任编辑:张樵苏】

人工智能是如何在某一领域达到人类水平的

在很多方面,人工智能的表现已经超越了人类,这并不代表人工智能很聪明。相反,其实人工智能是很傻很天真的,你认认真真与它交流,会被吓到,但如果稍微使点诈,它就会原形毕露。那么人工智能是如何看起来很聪明的呢,下面笔者以讲故事的形式,让大家了解监督学习下的人工智能是如何运作的。

故事的主角叫小A(AI),我们让小A学习化妆。

 · 非人工智能阶段

在没有任何的帮助下,小A化妆只有一个步骤,那就是上色,所以刚开始小A化妆会全部涂成纯色。这是因为初始化的小A相当于计算器,你给她一个指令,她就输出一个结果。你让她化妆,她就涂上纯色。结果客户非常不满意,怎么办?你得先教小A认脸。

 · 人工智能起步阶段

小A眼中的世界与我们是不一样的,我们能够看到色彩、形状,而小A的眼里只有0和1两个数字(二进制),你可以理解为小A高度近视,但不愿意戴眼镜。所以小A想要认脸,先要把人脸抽象化,比如人的嘴巴就是一条曲线。小A将这条曲线对应的0、1排列顺序认作是人的嘴巴。

人工智能“眼中”的世界就是0和1的组合

问题又来了,曲线代表嘴巴的话,小A有时候会把眉毛也看成嘴巴,为了避免笑话,你让小A判断是不是嘴巴的时候,不要单纯的以“是”或“不是”为结果。这时候你给小A的一些算法,让她把疑似嘴巴的曲线对应的0、1排列顺序输入算法中,最终结果会出现一个百分数,当百分数大于90%的时候,小A就知道这条曲线就是嘴巴,然后就能化妆了。

上面就是比较初级的人工智能,比刚开始聪明一些,但还是不够聪明。

 · 人工智能发展阶段

小A又遇到了问题。小A给一个人化妆的时候没有问题,但给多个人化妆就有问题了,因为人之间差别太大。比如之前都是给樱桃小口的客户化妆,现在突然来了一位大嘴客户,小A不知道该怎么化了。

那该怎么办?为了让小A能够快速掌握技能,你准备了一沓照片,上面几乎拥有人类的全部嘴型(大数据),然后又掺进去了一沓动物嘴型和其他乱七八糟的照片(负样本),一张张的让小A认。小A认对了,你就鼓励她,认错了,就打一巴掌。

监督学习

认对就夸、认错就打,这就是监督学习。

这个过程中小A如何成长呢?还记得之前你给小A的算法吗,现在这个算法里面有几项数值非常重要,这几项数值就是权重。在小A判断照片是不是人的嘴巴时,小A会根据正确或错误的结果调整权重,直到能够不会出现错误。

让小A自己修改权重就是机器学习。

机器学习

小A要看多少照片呢?越多越好,而且要重复的让她看。除了看嘴巴的照片,还要看眼睛的、鼻子的,还要给她看拥有全部五官的……这样小A就能将识别的正确率提升到很高的水平。再给客户化妆的时候,客户就会夸小A真智能。

以上就是人工智能发展时要经历的几个阶段,当然其中涉及到很多复杂的知识和技术,而且后续还会有更为复杂的理论和概念,笔者在此就不做深入探究了。

 · 对人工智能的一些认识

相信很多朋友在学生时代对数学中的回归计算有着比较深刻的印象吧,xy轴上的很多个点,你需要找一条线,让所有点到曲线的距离是最近的,然后用一串字符模拟出这条曲线。人工智能机器学习的过程就相当于回归方程计算的过程。只不过人工智能的“回归计算”包含很多节点,过程更加庞大、复杂罢了。

回归计算与人工智能是相似的

以往人工智能没有得到重视的原因是大数据和硬件运算能力达不到神经网络运行的要求,而如今已经达到了,所以人工智能才得以迅速发展。

GoogLeNet网络将大熊猫认为长臂猿

曾经有组织对某人工智能大赛冠军GoogLeNet网络进行过测试,测试方法与普通识图稍有不同。他们在一张大熊猫的照片中加入了肉眼无法辨别的影响因素后,GoogLeNet网络竟然将大熊猫认成了长臂猿。从这个例子我们能够看出,目前人工智能是很傻很天真的,只是在某些领域发挥除了机器计算的优势而已。

本文属于原创文章,如若转载,请注明来源:人工智能是如何在某一领域达到人类水平的//nb.zol.com.cn/679/6792783.html

纠错与问题建议标签:笔记本电脑//nb.zol.com.cn/679/6792783.htmlnb.zol.com.cntrue中关村在线//nb.zol.com.cn/679/6792783.htmlreport3099在很多方面,人工智能的表现已经超越了人类,这并不代表人工智能很聪明。相反,其实人工智能是很傻很天真的,你认认真真与它交流,会被吓到,但如果稍微使点诈,它就会原形毕露。那么人工智能是如何看起来很聪明的呢,下面笔者以讲故事的形式,让大家了解监督学习下...

TikTok背后的人工智能是如何运作的

TikTok是一款视频分享应用程序,可以让用户创建和分享短视频。它以“只为你”的个性化推荐给用户留下深刻印象。它非常容易上瘾,在Z世代中很受欢迎,而人工智能技术是其背后采用的主要技术。

TikTok架构TikTok推荐系统的架构包括三个组成部分:大数据框架、机器学习、微服务架构。

(1)大数据框架是推荐系统的起点。它提供实时数据流处理、数据计算和数据存储。

(2)机器学习是推荐系统的大脑。一系列机器学习和深度学习算法和技术被应用于构建模型,并生成适合个人偏好的建议。

(3)微服务架构是让整个系统快速高效服务的底层基础设施。

大数据框架没有数据,就没有智慧。TikTok的大多数数据来自用户的智能手机。这包括操作系统和安装的应用程序等。更重要的是,TikTok特别关注用户的活动日志,例如观看时间、滑动、点赞、分享和评论。

日志数据通过Flume和scribe进行收集和汇总,它们通过管道传输到Kafka队列中。然后ApacheStorm与ApacheHadoop生态系统中的其他组件实时处理数据流。

ApacheHadoop生态系统是一个用于数据处理和存储的分布式系统。这包括第一代分布式数据处理系统MapReduce,它与批处理并行处理数据。YARN是一个用于作业调度和集群资源管理的框架;HDFS是一个分布式文件系统;HBase是一个可扩展的分布式数据库,支持大型表格的结构化数据存储。Hive是提供数据汇总和查询的数据仓库基础设施。Zookeeper是一个高性能的协调服务。

随着数据量的快速增长,实时数据处理框架应运而生。ApacheSpark是第三代框架,有助于对大数据工作负载进行近乎实时的分布式处理。Spark通过在内存中处理来增强MapReduce的性能。在过去的几年里,TikTok应用了第四代框架Flink。它旨在本地进行实时流处理。

数据库系统包括MySQL、MongoDB等。

机器学习这就是TikTok如何获得家喻户晓的超个性化、令人上瘾的算法的核心。在大量数据集涌入之后,接下来是内容分析、用户分析和场景分析。TensorFlow等神经网络深度学习框架用于执行计算机视觉和自然语言处理。计算机视觉将用照片和视频破译图像。自然语言处理包括分类、标签和评估。

使用经典的机器学习算法,包括逻辑回归、卷积神经网络、递归神经网络和梯度提升决策树。应用了常见的推荐方法,例如基于内容的过滤、协同过滤和更高级的矩阵分解。

TikTok用来解读人们思想的秘密武器是:

(1)算法实验平台:工程师对逻辑回归、卷积神经网络等多种机器学习算法的混合进行实验,然后运行测试(A/B测试)并进行调整。

(2)广泛的分类和标签:模型基于用户的参与度,例如观看时间、滑动以及常用的点赞或分享(人们所做的作为通常是潜意识的反映)。用户特征、向量和类别的数量超过了世界上大多数推荐系统都要多,而且它们还在不断增加。

(3)用户反馈引擎:在多次迭代检索用户反馈后更新模型。体验管理平台是建立在这个引擎之上的,并最终改善了这些缺陷和建议。

为了解决推荐中的冷启动问题,使用了召回策略。就是从数以千万计的视频中挑选出数千名候选人,这些视频已经被证明是受欢迎的和高质量的视频。

与此同时,一些人工智能工作已经转移到客户端,以获得超快的响应。这包括在设备上进行实时培训、建模和推理。客户端使用了TensorFlowLite或ByteNN等机器学习框架。

微服务架构TikTok采用了云原生基础设施。用户分析、预测、冷启动、召回和用户反馈引擎等推荐组件用作API。这些服务托管在AmazonAWS和MicrosoftAzure等云平台中。作为系统的结果,视频策展将通过云端推送给用户。

TikTok采用基于Kubernetes的容器化技术。Kubernetes被称为容器编排器,它是自动化应用程序生命周期的工具集。Kubeflow致力于在Kubernetes上部署机器学习工作流。

作为云原生堆栈的一部分,服务网格是另一种处理服务到服务通信的工具。它控制应用程序的不同部分如何相互共享数据。它在平台层而不是应用程序层插入功能或服务。

由于对高并发性的要求,这些服务是用Go语言和gRPC构建的。在TikTok中,Go由于其良好的内置网络和并发支持而成为服务开发中的主导语言。gRPC是一个远程过程控制框架,用于高效地构建和连接服务。

Tiktok的成功在于它会更加努力地提供最佳的用户体验。他们构建内部工具以最大限度地提高低级别(系统级别)的性能。例如,ByteMesh是ServiceMesh的改进版本,KiteX是一个高性能的GolanggRPC框架,Sonic是一个增强的GolangJSON库。其他内部工具或系统包括参数服务器、ByteNN和abase等。

正如TikTok机器学习负责人所说,有时底层的基础设施比其上面的(机器学习)算法更重要。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇