博舍

字节跳动研究:以“智能算法”为驱动,推动业务多元化发展 先进人工智能算法为数据驱动算法

字节跳动研究:以“智能算法”为驱动,推动业务多元化发展

一、特别提示

1.欢迎您入驻广州艾媒数聚信息咨询股份有限公司拥有的艾媒网平台(以下简称“本平台”),各条款标题仅为帮助您理解该条款表达的主旨之用,不影响或限制本协议条款的含义或解释。为维护您的自身权益,建议您仔细阅读各条款具体表述。

2.您在申请入驻或在本协议更新时点击同意本协议之前,应当认真阅读本协议。请您务必审慎阅读、充分理解各条款内容,特别是免除或者限制责任的条款、法律适用和争议解决条款。免除或者限制责任的条款,您应重点阅读。

3.当您按照页面提示填写/提交信息、阅读并同意本协议且完成全部入驻程序后或在本协议更新时点击同意,即表示您已充分阅读、理解并接受本协议的全部内容。阅读本协议的过程中,如果您不同意本协议或其中任何条款约定,您将无法正常使用本平台账号的部分功能。

4.由于本平台提供的产品和服务较多,为您提供的产品和服务内容也有所不同,本协议为本平台统一适用的艾媒网平台入驻协议条款。针对本平台的某些其他特定产品/服务,本平台还将制定特定用户服务协议,以便更具体地与您约定相关服务内容、服务规则等内容,您应在充分阅读并同意特定用户服务协议的全部内容后再使用该特定产品/服务。

二、入驻及授权

1.您同意入驻本平台开设账号,并通过上述账号在本平台上传图片、文字、音频、视频等内容(“上传资料内容”)或进行直播。

2.您同意授权本平台将您在其他第三方平台(包括但不限于微信、微博、抖音等平台)发布的图片、文字、音频、视频等内容(与上述上传资料内容合称为“资料内容”)在本平台进行转载发布。

三、您的权利和义务

1.您已经充分了解本平台的各项规则及要求,并确认您有条件与能力履行本协议项下的职责与义务。您应根据本平台的要求提交完整、真实、合法、有效的相关资质材料,完成实名认证;且本协议对您上传、本平台转载发布的资料内容及您直播中出现的主播(“主播”)均构成有效的,带有约束力的可强制执行的法定义务。

2.您在本平台上传或本平台转载发布的任何资料内容或直播中不得包含违反法律规定、违背公序良俗之内容,包括但不限于:

(1)法律、法规、规章、条例以及任何具有法律效力之规范所限制或禁止的内容;

(2)色情、低俗、轻浮及裸露的音频及视频内容;

(3)反对宪法所确定的基本原则,煽动抗拒或者破坏宪法、法律、行政法规实施或危害国家统一、主权和领土完整,损害国家尊严、荣誉和利益,有损民族团结,宣扬恐怖主义、极端主义的的言论;

(4)歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或其他方式侵害英雄烈士姓名、肖像、名誉、荣誉的内容;

(5)表演方式恐怖、残忍、暴力血腥、低俗,危害表演者自身或他人身心健康的内容;

(6)任何暴力和/或自残的内容;

(7)任何危害或可能危害自身或他人生命健康、财产安全的内容,包括但不限于利用刀具等危险器械表演、高空攀岩等;

(8)怂恿、诱导他人参与可能会造成人身伤亡或财产损失的危险或违法活动的内容;

(9)利用人体缺陷或以展示人体变异等方式招徕用户的;

(10)以偷拍偷录等方式,侵害他人合法权益的;

(11)以虐待动物等方式进行表演的;

(12)使用未取得网络游戏出版物号的网络游戏产品进行网络游戏技法展示或解说,或对该等网络游戏产品进行宣传推广的;

(13)侵害未成年人合法权益、损害未成年人身心健康,或可能引发未成年人模仿不安全行为及违反社会公德行为、诱导未成年人不良嗜好的;

(14)侮辱、诽谤他人,或在直播中肆意喧哗、辱骂观众或其他用户、挑起用户间矛盾等;

(15)不当仪容仪态和行为方式的内容;

(16)不当评述自然灾害、疫情、重大事故等灾难等内容;

(17)诋毁民族优秀文化传统,煽动民族仇恨、民族歧视,侵害民族风俗习惯,歪曲民族历史和民族历史人物,伤害民族感情,破坏民族团结的;

(18)煽动破坏国家宗教政策,宣扬宗教狂热,危害宗教和睦,伤害信教公民宗教感情,破坏信教公民和不信教公民团结,宣扬邪教、迷信的。

3.您有责任积极维护自身形象,与其他用户共同营造良好的互动环境,在本平台内外均不得作出有损自身、本平台的品牌、形象、声誉的行为。

4.您不得利用本平台提供的直播及相关服务,在本平台内外进行任何违法违规或不当行为(包括但限于诈骗、赌博、非法转移财产、传播虚假信息等),如您有上述行为或本平台有理由相信您发生了上述行为(如本平台收到相关投诉等),本平台有权根据实际情况对您采取包括但不限于冻结或封禁帐号的措施,同时还有权保存您的相关信息并向相关执法、司法机构提供以依法追究您的法律责任。如因此给本平台造成任何损失,本平台有权向您全额追偿。

5.您同意并保证您在本平台的行为符合法律法规、行业自律公约、平台规则及本协议之规定,本平台有权依据前述规定对您的行为进行管理。您承诺通过本平台实施的行为合法、不侵犯第三人的合法权益;您承诺您通过本平台上传、本平台转载发布的资料内容及您通过本平台进行的直播为您原创内容或已经获得合法授权(且含转授权),并有权使用上述内容在本平台进行上传、发表、直播等行为;您承诺与本平台开展本协议约定的合作的行为不会侵犯任何第三方的合法权益。

6.您同意并授权本平台及本平台关联公司,在本协议有效期内以及期满后,于本平台及本平台关联方平台的宣传推广渠道和活动上,免费、非独家、可再许可(包括但不限于复制权、翻译权、汇编权、信息网络传播权、改编权、制作衍生品、表演和展示等权利)使用主播个人的人身形象(包括但不限于艺术形象、表演形象、广告形象、平面形象,以下合称“人身形象”)及身份标识(包括但不限于姓名、昵称、艺名、肖像、签名、声音、符号、动画图标等,以下合称“身份标识”)以及通过本平台上传及本平台转载发布的资料内容、开展网络直播活动所形成的内容(包括但不限于文字、图片、图像、音频、视频和/或音频中的音乐、声音、对话等,以下将您授权的上述内容合称为“授权内容”)。您同意,上述权利包括在与授权内容、平台相关服务、本平台和/或本平台品牌有关的任何广告、营销、宣传推广和/或研究中使用和以其他方式开发内容(全部或部分)的权利和许可。为避免疑义,本平台有权使用、复制和展示您的人身形象及/或身份标识,以及对授权内容添加商业标识、利用其进行其他开发或将其植入其他内容。同时,您确认授权本平台有权以本平台自身名义或委托专业第三方对侵犯上述授权内容进行代维权,维权形式包括但不限于:监测侵权行为、发送维权函、提起诉讼或仲裁、调解、和解等,本平台有权对维权事宜做出决策并独立实施。

7.您不得通过任何渠道或媒体(包括但不限于自媒体等)发出“与艾媒网合作”、“与艾媒网共同出品”等任何携带“艾媒网”或“iiMedia”品牌的字样,如您需宣传推广合作作品,您只能在宣传中提及作品本身而不得提及与艾媒网关系或者擅自以艾媒网品牌进行推广,凡是您的发稿带有“艾媒网”的一切宣传稿件必须通过艾媒网之书面同意,否则因此给艾媒网造成的一切损失您应予以赔偿。

四、本平台的权利和义务

1.本平台为您提供平台技术服务,将不断推进本平台的用户流量提升和技术更新。

2.为规范本平台运营,保障本平台用户的整体利益和用户体验,本平台有权根据国家监管部门的要求和运营需要制定、调整本平台规则,并以公告或邮件、微信等方式通知您。若您不接受修改后的相关内容,应当停止使用相关服务。

3.本平台有权根据法律法规的规定、相关部门的要求或者第三方的通知对您上传或本平台转载发布的资料内容及直播内容的合法性进行审查。如果您上传或本平台转载发布的资料内容及直播内容存在违法违规、侵害本平台或第三方合法权益的情形,本平台有权采取删除内容、封停直播、冻结/注销账号、配合主管部门调查等措施。如因此给本平台造成任何损失,本平台有权向您全额追偿。

4.本平台无义务对您产生于本协议或与本协议相关的任何间接的、或惩罚性的损失负责,无论该类责任系基于违反协议、或基于侵权(包括疏忽)或严格责任、或基于其他情况而产生的,也无论本平台是否已被告知其受到该类损害的可能性。

五、信息安全及保密

1.您理解并同意遵守本平台的保密制度,承诺无限期保守本平台的商业秘密。商业秘密是指由本平台提供的、或者您在双方合作期间了解到的、或者本平台对其他方承担保密义务的,与本平台业务有关的,能为本平台带来经济利益,具有实用性的、非公知的所有信息,包括但不限于:技术信息、经营信息、本平台相关活动信息、收益信息、工作人员信息、通讯信息以及与本平台运营或管理有关的信息和文件(含本协议及相关协议内容)。

2.您理解并同意严格遵守本协议,未经本平台书面授权或同意,对本平台的商业秘密不得:

(1)以任何方式向第三方进行传播、泄露(包括暗示);

(2)为非本协议的目的而使用。因您违反约定使用或披露本平台商业秘密使本平台遭受任何名誉、声誉或经济上的直接或间接的损失,您应赔偿本平台全部损失。以上保密条款并不因本协议的解除和终止而失效。

六、知识产权

1.本平台在本协议有效期内提供给您的包括但不限于数据、素材等资料和信息,其知识产权均为本平台独立拥有。未经本平台书面同意,您不得将其用于本协议之外的目的和用途。

2.如无特别约定,您在本平台进行上传、发布、直播或本平台进行转载发布时,上传或本平台转载发布的资料内容或直播内容为您拥有合法知识产权的原创作品或已经获得合法授权(且含转授权),除非有相反证明,您知悉、理解并同意,为使您的作品得到更好的分享及推广,提高其传播价值及影响力,您通过本平台相关服务上传、发布或传输的内容及本平台转载发布的内容(包括但不限文字,图像,音频,视频、直播内容等各种形式的内容及其中包括的音乐、声音、台词、视觉设计、对话等所有组成部分),您授予本平台一项全球范围内、免费、非独家、可再许可(通过多层次)的权利(包括但不限于复制权、翻译权、汇编权、信息网络传播权、改编权及制作衍生品、表演和展示的权利等),上述权利的使用范围包括但不限于在当前或其他网站、应用程序、产品或终端设备等使用。本平台可将前述信息在本平台及本平台关联方平台上使用,可再次编辑后使用,也可以由本平台授权给合作方使用。

七、协议期限及终止

1.您理解并同意,本平台在本协议项下提供的平台及相关服务是按照现有技术和条件所能达到的现状提供的,本平台会尽最大努力向您提供服务以确保服务的连贯性和安全性。但您亦知悉并认可,本平台不能随时或始终预见和防范技术及其他风险,包括但不限于因不可抗力、网络原因、第三方服务瑕疵、第三方网站等原因可能导致的服务中断、不能正常使用服务以及其他的损失和风险;此外,除前述情况外,本平台有权视法律法规、规章政策、运营规划等具体情况随时单方中断、中止或终止本协议项下部分或全部服务,并将以平台页面公告或其他适当方式向您发出通知。

2.双方就解除本协议协商一致的,可终止本协议。

3.若您出现下列任何情形之一,本平台可以不经事先通知而随时解除本协议:

(1)您违反本平台规则及/或本协议之约定的;

(2)您或主播存在吸毒、盗窃、嫖娼、出轨、赌博、诈骗等违反法律法规、公共秩序以及其他影响公众形象的言论、行为,或经本平台独立判断认为您存在或涉嫌存在上述行为;

(3)因您的原因直接或间接给本平台利益或形象、声誉造成损害的;

(4)因异常情形的出现,本平台认为您不适合进行本协议下服务事项,经本平台通知后合理期限内异常情形仍未消除的;

(5)因本平台业务调整,本平台不再提供平台相关服务的。

4.无论本协议因为任何原因终止的,对于您在本平台账号中的全部数据或您因使用本平台而存储在本平台服务器中的数据等任何信息,本平台可将该等信息保留或删除。

八、违约责任

1.若您存在违约行为,本平台有权独立判断并视您违约情节的严重程度采取下列某一项或者某几项措施以追究您的违约责任:

(1)预先警示;

(2)断开直播、拒绝通过本平台发布内容;

(3)限制账号的部分或全部功能;

(4)暂时冻结或者永久性地封停/冻结本平台账号;

(5)将本平台账号永久性地删除;

(6)拒绝再次注册本平台账号;

(7)向本平台支付违约金,该等违约金应足以弥补本平台损失(包括但不限于本平台向第三方支付的赔偿款、行政罚款、公证费、鉴定费、差旅费、律师费、诉讼费等合理费用);

(8)单方面解除本协议,终止双方基于本协议的所有合作事宜。

2.如因您的任何不实陈述或保证,或因您违反本协议项下的义务,或因您对第三方的侵权行为或违约行为,导致本平台面临任何索赔、承担任何责任(如行政处罚等)或遭受任何损失,您应当采取适当的措施(包括但不限于与该第三方协调解决纠纷、采取公开声明消除影响等),保证本平台免受上述事由的影响。在该等情形下,本平台就因此所受损失保留向您索赔的权利,如您的违约行为遭到媒体曝光,导致本平台遭受不利影响及/或公关危机的,您应积极配合本平台发表书面声明,澄清事实并向用户和/或本平台道歉。

九、法律适用及争议解决

1.本协议的订立、履行、解释及争议解决均适用中国法律。

2.本协议签订地为中华人民共和国北京市朝阳区。若您和本平台之间发生任何纠纷或争议,首先应友好协商解决;协商不成功的,双方均同意将纠纷或争议提交本协议签订地有管辖权的人民法院解决。

十、附则

1.为了向您提供更好的服务,或者基于法律法规规定、主管部门要求、业务开展情况等因素的更新与变化,本平台有权在必要时修订本协议及/或本平台规则的内容,修订后本平台会通过平台发出修订后的版本,并将修订后的版本进行公示或者通过网页公告、站内信或其他适当的方式通知您修订的内容,以便您及时了解本协议的最新版本。如您于该等修订内容生效之后仍继续使用本平台提供的服务,即视为您已同意接受该等修订内容;如您不接受修订后的相关内容,您应立即停止使用相关服务。

2.本协议各条款之标题为方便之用,不对本协议双方产生任何约束力。

3.您和本平台均是独立的主体,在任何情况下本协议不构成本平台对您的任何形式的明示或暗示担保或条件,双方之间亦不构成代理、合伙、合营或雇佣关系。

数据驱动的算法工程落地!

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

 Datawhale干货 

开源数据平台格物钛 X Datawhale

导读:随着科技浪潮的演进,数据已然成为第五大生产要素,越来越多的企业开启数字化转型,然而目前企业的现状却是数据人才的储备远远不足,学生却求职内卷,所学与企业具体生产环境匹配极低。

本文邀请了雪湖科技算法专家张益兴、格物钛首席产品官王广宇带来分享:企业面临的数据问题是什么,以及企业实际工程落地的经验。分为三部分,第一部分是会先讲数据驱动算法目前的进展,第二部分是算法部门分工与招人痛点,第三部分聊聊数据管理的痛点问题。

01张益新:数据驱动算法的进展

人工智能在国内2017年后才开始火热,资本市场也竞相追逐,但其实在1950年左右就出来了人工智能概念。但当时没得到很好的发展,出现了所谓第一次危机的,到了60-70年代,又出现了第二次危机,明斯基等人工智能大拿论断说人工智能是无法实现的。直到布尔兹曼基的算法出现打破了这一论断,80年代的时候,现在我们大家所熟知的图灵奖深度学习三巨头出现,终于在2008年开始有一些转机。吴恩达用GPU解决了数据集训练问题,才把我们目前使用的这种基于数据的方法训练这条路走通了。

我们现在还是处于弱人工智能时代,是有多少数据,就有多少智能,有多少人工就有多少智能。目前的人工智能分为机器感知、学习、语言、记忆、决策几个方向。现在我们能落地的大部分都属于感知层级。语音和自然语言处理等处理的数据类型不一样,但也属于基于数据驱动的类型。

在目前的弱人工智能阶段,是一个趋于数据驱动的过程。工程落地的大致流程步骤,其实就是我们基于深度学习的框架tensorflow等所架构的一套叫做生产环境部署的流程。从最初的提取和验证数据,到训练分析模型,最后部署到生产环境中,这是一套环环相扣的标准流程。只要把每一步操作都链接起来,有机会形成一个快速落地的工程,这是在算法落地中非常看重的一环。

举个例子,在我们做安防场景的实际过程中,第一步其实不是数据也不是算法,而是设备的安装。在一些特殊性的场景,不管是机场海关港口银行,还是传统的安防场景。我们都很关心摄像头的安装位置等所决定的最后带来的精度上限,是否满足客户需求,能够完成验收。现在做激光雷达这一块,还涉及到产品的选型,产品价格从六七千到十几万不等,要根据施工现场的限制和甲方的需求来。之后还需要把涉及到的交通局、城市管理局、城市规划局等各个部门拉到一起,去处理设计图纸等。

对于企业中来说,算法里的研究、出一个好的trick、训练一个好的模型,这块对于最后的工程落地可能只有10%的影响,在我所接触的客户范围内,其实前面提到的设备安装这部分就占了50%的比重。

设备安装后的数据采集,就各不相同了。有些可以远程采集,有些需要到本地去。比如银行等保密级别比较高的场景,没有外网就需要到现场采集。有了数据后面临数据清洗的问题,主要是剔除无效数据,之后将有效数据挑选得到高质量的数据。

在整个算法落地过程中,除了设备安装占50%外,第二大重要的就是数据标注了,占比可能要达到20%。这部分很多是管理性的问题,而不是技术性。数据验收之后会将结构化的数据送入模型进行训练,进行模型部署。

02张益新:算法部门分工与招聘痛点

我们可以根据算法落地过程,将算法部门拆分为三块。分别是数据管理、算法研究和工程落地。数据管理部门会提供数据给研究人员,算法研究人员对应出不同的模型,让工程落地人员去部署在不同的GPU上。有些公司会将数据管理外包出去。

对算法部门中这三类人员的能力需求各不相同。

数据管理的人员需要完成从数据采集和标注到验收这一块,我们叫做“脏活累活”的工作。对于数据管理人员,会要求有较强的运营能力,编程能力也需要,但懂得基本操作就可以。

算法研究人员需要有创新研究能力。提出一些新的网络结构、新的训练方法、trick,或者把整体精度提到的方法。这背后需要一定的数学能力支撑,为什么这么设计有效?从哪个方向去才能达到需要的精度或速度?一个BN怎么去设计?如果要走在算法研究前列,这些都是必要的研究能力。

另外就是工程落地人员。我目前招聘了200人左右,只通过了2、3人。大部分所谓的算法人员,他们的工程能力都普遍偏弱。有一些好的想法,但自己实现不了,比如编程,除了Python,一般还需要C++的能力(Python很好也可以),需要自己可以用C++去把一些功能实现出来。

目前遇到的招聘痛点,对于数据管理人员来说,是人员的流动性较大,我们正在思考逻辑性解决的方案。对于算法研究人员,主要是数学能力不够,提不出新的结构等等。对于工程人员,则是他们的编程能力需要提高,要懂一些深度学习,了解目前使用的一些模型。

03王广宇:企业的数据管理痛点

这部分由格物钛联合创始人、首席产品官王广宇解答。

Q

在公司数据采集的流程中,会遇到很多不同的数据格式,尤其是点云中的obj格式、pcd格式等,还有一些自定义的csv等等,这些一般怎么处理?

答:我们当时做数据平台也遇到了很多格式问题。过去的文件组织格式,是直接存储在文件夹里。比如可能是一个激光雷达的文件,里面再有一个描述文件去描述它的label等信息。如果有十万个一百万个,里面就去乘以十万或者一百万。尤其是当公司标准没有统一时,可能会出现一个灾难,就是A和B的存储格式完全不一样。我们提供了一个统一的数据存储方法,只要按照存储方法,我们会自动在平台上去组织这些文件。当读取文件时,读的是我们提供的一个对象。这样一来,工程师就会有一个统一的接口去调用这些信息,而不需要去感知数据的格式。

第二个是当可视化渲染或者读取数据时,有时候可能需要感知数据格式,将其解析出来。目前格物钛平台已经可以适配大部分格式,此外,未来也会将适配标准逐步开放出来,来应对未来自定义文件存储格式等场景。

第三个管理数据。不仅是数据存储,还有数据标注这个关键信息。大家都用过很多公开数据集,在用的过程中,每使用一个数据集,就要去了解一个数据格式。即使是目标检测也可能有不同的描述方法,激光雷达的描述方法就更多了。我们也在与一些企业和社区联合,尽量做一些适合应用的统一格式,希望在今后数据集的使用过程中,所有调用数据和读取标签的格式是一致的,这样就大幅增加数据的流通性,降低了使用门槛。

Q

从企业拿到第一手的原始数据,到最后变成数据集,过程中会有很多中间性数据,这些数据不确定是否有价值,该怎么处理?

答:这是一个要平衡的过程。如果使用频次很高,可以选择保存下来,因为高频使用每次抽取数据所耗费的时间和算力,远大于存储成本;如果很长时间采用一次,就丢弃掉。重要的是要把获取中间数据的方法保留下来,当想用的时候可以很快从数据中提取出来。

我们在平台上也遇到很多用户有这种需求,所以提供了一个自动化的能力,把数据的自动化处理流和数据本身绑在一起,作为一个版本。

Q

关于数据存储,我们所有项目全开的话,数据量会达到PB级,一直在本地买硬盘很难持续,这方面有什么建议?

答:当数据规模很大时,反而建议存储在云上。因为云上存储并不像我们想象的那么贵。PB级的数据中不是所有的都是高频的活跃的,可以把其中有价值的放在热存储里面,低频的放在冷存储里——冷存储是非常便宜的。另外,本地存储会需要运维团队去保证数据可靠性,甚至使用分布式存储等等,如果存放在云上,运维成本会指数级下降,可能一两个工程师就解决问题了。

关于云的可靠性问题,其实比很多人想象的要高,安全性是所有云厂商最在意的问题,它提供的账号等合规体质往往比本地更成熟,可靠性都在六个、七个9以上。我们目前采取的方式是一方面和云厂商合作,另一方面提供授权管理服务,面向整个人工智能开发团队提供版本管理、格式管理、可视化等等。当然,当数据上云时,可能算力也要上云,来避免传输成本,我的客户会有类似案例。

Q

关于这一点,我们目前的项目是外地采集数据,回到本地训练,想知道是否可以直接在云上进行?

答:有些客户是使用本地之前遗留下来的GPU做一些不紧急不耗时的任务,大规模的、并行的任务放在云上进行,采用这种混合方式。之前对接过一家美国无人车公司,是不需要数据工程师感知数据在哪里,要使用数据集训练时,会自动同步一份到云上,自然开启一个服务器跑起来,中间和GPU、算力、调度等的交涉都放在后台,不需要算法工程师考虑。

Q

我们目前交付给客户的主要是部署这一块,边缘性的内容可能覆盖不到,希望把从训练到数据整个流程都交付给客户,做一套管理平台,想知道这里的可行性。

答:我们目前对接的一家公司,算法负责人就有类似需求。他们需要用检测感知算法,配上GPU算力都部署到一些停车场,去检验货车或卡车停放得是否合规,人员是否在合规范围内行走。需求方的变动可能两三天就会变,比如过去识别工作服,只需要识别蓝色和灰色,突然有一天就多了个紫色的。这时如果没有一个很好的方案,成本会非常高。大概估算下来需要三个工程师一个月左右,快20万的成本。如果这件事可以做成自动化,比如捕捉这种case进入异常流程,积攒数据量到一定程度就生成一个数据集,自动发到标注平台,然后自动训练、优化再到应用。如果整个流程可以压缩到一周之内,他的产品将变得非常有竞争力。我认为这部分事情是可以自动化的,不能完全自动化的部分可以通过对客户的一些简单教学搞定。

现场问答

Q

对于技术面试官来说,对校招生做算法工程师看重的能力是什么?

张益新:我最近几年面试了200人,大概也就招了2、3个。首先深度学习的反向传播一定要会,自己要可以手推,最好能用Python、C++实现一遍,这个是基础。你要把整个CNN最起码 BatchNormalization(批量归一化)整明白,就是每一层的map剪去均值除以方差,开了根号以后,阿尔法乘以beta这个公式为什么能这么推导,到这一步其实就差不多了。如果这些都会,可能会问为什么这么设计,BN背后的原理等,深度学习的基础知识和背后的逻辑关系、数学原理等。此外就是一些C++的内容,我们对工程能力的要求很高,算法能力我们这边会的人都可以叫,但写代码的能力怎么样是我最看重的,因为创业公司的性质是这样。此外最好有一些github上的开源项目、或提交了一些bug,说明是圈子里的人。

Q

对于医疗上的敏感数据,如何做数据管理?

王广宇:首先是对于身份证等人物标识进行脱敏处理,其次要提供一个明确的访问权限,谁可以访问数据、谁可以管理,谁可以使用,同时所有的操作记录都要保存下来,这是在合规上非常硬性的要求。

Q

数据分析师会参与数据管理工作吗?还是只有业务上在使用?

王广宇:如果把数据看成是机器学习的代码,不同于以往用于数据分析、数据决策的BI数据,数据在机器学习中更多是一种核心生产资料,相当于带功能的代码一样。如果把它看作是开发的流程,有很多人会参与。数据分析是也可能参与到其中,不是结构化数据的根系,可能是到底要加多少数据,加哪些数据会使模型迭代更好、更有效。

Q

企业在数据的收集、标注成本会很高,如何处理?

王广宇:在收集这一块,对于项目制的公司,可能会按照项目单独收集,这是不可避免的。有很多企业已有成熟的产品,这时候去收集数据不同于我们传统的模式,而是可能在很多场景的边缘布算法trigger,进行特定收集、人工检查后标注。这时候标注就有很多方式了,可以根据之前的训练模型进行预标注。这时候大量的标注成本是花在了质检上,来保证数据质量,如果标注团队不行,可能要花上几周甚至上月的时间去解决质检问题。

这部分是企业很需要的工程能力,如果有人可以提升质检效率,这个价值可能比写一个算法、或模型的价值还要大,因为大幅缩短了整个研发周期。

分享嘉宾:

整理不易,点赞三连↓

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇