陶大程:判断人工智能是否可信的“四把尺子”
在2021年世界人工智能大会的可信AI论坛上,陶大程进行了主题为《可信人工智能的前世今生》的报告。他在报告中表示,在人工智能的技术落地浪潮中,AI的可信度将成为一大关键难点,他还基于国内实践提出了人工智能是否可信的四个度量标准,并指出在可信AI的框架探索方面,我们还有很长的路要走。
陶大程是人工智能和信息科学领域国际知名学者、澳大利亚尤里卡(Eureka)奖获得者、IEEEICDM研究贡献奖(数据科学领域技术成就最高奖之一)。他目前担任京东探索研究院院长。
以下是报告原文,AI科技评论进行了不改变原意的整理。
1
前世今生
今天介绍一下可信人工智能的前世今生。人工智能并不是一个新的概念,从1950年的图灵之问开始,到今天产业的蓬勃发展。起起伏伏,人工智能已经走过了三次浪潮,甚至有学者认为,我们今天正处在第四次浪潮,其特点是:广泛的产业落地。
正是由于“落地”,所以才带来了一些问题,因此讨论可信AI正是时候。先来看一些可信AI的例子,大家在网上购物的时候,经常会使用拍照购这一功能,其使用的是计算机识别技术。如果拍照购识别的照片含有“小标签”或者被遮挡了一下,那么这个时候,AI系统就无法准确识别;我们曾经对自动驾驶系统做过一个实验,如果将小广告贴在道路交通牌上,那么就到导致自动驾驶系统误判。
因为人工智能缺乏可解释性,这也限制了人工智能更广泛的应用和赋能。举个例子,无人驾驶车辆在道路上出现事故,该如何定责任?由于无法解释,在将驾驶权从人类转交到人工智能系统的过程中就会产生困难。毕竟,人类驾驶员无法在短短的几秒钟之内对道路情况进行及时的判断。
此外,无论是欧盟的GDPR,还是中国的个人信息保护法,都表明用户的个人信息在使用的时候必须谨慎。这其实也对人工智能系统的模型提出了很多要求。
另一方面,不仅仅是成年人在使用人工智能系统,儿童同样在使用,如何公平地考虑各种因素,保证所有人都公平享受到技术带来的价值,也是人工智能领域从业者所要思考的。
在上述急迫的需求下,2016年欧洲颁布《通用数据保护条例》,2017年12月份,IEEE提出了《人工智能的伦理设计准则》。之后澳洲、美国等多个国家和地区也相继发布相关政策、指南、白皮书。
国内情况如何呢?中国科学家何积丰院士于2017年11月香山科学会议第S36次学术研讨会首次在国内提出了可信人工智能的概念,即人工智能技术本身应具备可信的品质。2017年12月份,工信部发布了《促进新一代人工智能产业发展三年行动计划》,在此之后,中国的科技公司都提出了相应的可信人工智能发展规划。
2019年10月,京东首次在乌镇世界互联网大会提出践行“可信赖AI”六大维度;2021年4月份,可信人工智能正式列为京东探索研究院主要研究方向之一。
其实,可信人工智能也并不是一个新的概念,很多组织或者机构都在谈论可信人工智能。从2017年到今天,已经诞生了许多概念,例如IEEE提出了透明性,以正确的方式使用技术,以人为本,明确责任,造福人类。澳大利亚提出了隐私保护,明确责任,提高透明性和可解释性等。
在中国,我们更多地谈到包容共享、和谐友好、公平公正、安全可控等等几个维度。在学术研究方面,在1998年甚至更早,就有隐私保护、数据治理、公平包容、明确责任等等相关方面的科技文献。
综上,可信涉及的领域非常多,那么这些领域之间有何关系?例如安全可靠意味着什么?它和稳定性和可解释性有什么关系?而在造福社会等主题中,可解释性、隐私保护、公平性在其中发挥怎样的作用?
2
四把尺子
接下来,我会从四个方面进行“可信”度量,包括:稳定性、可解释性、隐私保护、公平性,可以称之为可信AI判断的四把尺子。
其中,稳定性是指:人工智能系统能够抵抗恶意攻击;可解释性是指:人工智能系统所作出的决策需要让人类能够理解;隐私保护是指:人工智能系统不能把个人的隐私信息或者群体的隐私信息进行泄露;公平性是指:人工智能公平对待所有用户。
如果人工智能在以上四大度量上都达到很高的水平,就能够做到明确责任、透明可信。
稳定性的度量有很多种方式,例如对抗攻击、中毒攻击和后门攻击。这些攻击都会影响人工智能系统,我们需要度量系统在面对这些攻击时,是否足够稳定。这些攻击技术既可互相独立也可以同时存在。
下面举例说明这几种攻击方式:中毒攻击通过按照特殊的规则进行恶意评论等方式,向训练数据集投入干扰数据,继而影响推荐系统的准确度;对抗攻击通过在道路交通标志牌上贴上特殊设计的图案,可以误导自动驾驶系统使其错误识别路牌上的信息,进而造成交通事故;后门攻击具有隐蔽性,可能会被用于对AI供应链发动攻击。相比于传统的软件系统,此类干扰对人工智能系统的稳定性影响更大。
可解释性的度量包含很多方面,例如我们如何描述模型的泛化能力?如何理解神经网络损失曲面的几何结构等等。其实,除了模型和算法的可解释性之外,训练样本、测试样本的可解释性也非常重要。人工智能的可解释性还有非常远的路要走,需要学术界在深度学习及人工智能的基础数学理论方面继续发力,只有找到合适的数学工具、统计工具、几何工具才能够有效的描述人工智能系统的可解释性。
今天,人们越来越重视隐私保护,我们在使用人工智能系统的时候,非常想了解它是否保护了我们的个人隐私不受侵犯。如何度量模型的隐私保护能力呢?差分隐私是一个主要的量化指标。其核心思想是,一个具有优秀隐私保护能力的人工智能算法,应当对输入数据中的微小扰动不敏感。
通俗理解是:我们使用一个数据库进行模型训练,对此数据库进行微调之后,就得到了另外一个数据库,然后用微调的数据库再次训练人工智能模型,就会得到另一个模型,最后,衡量两个模型之间的差异,量化模型的隐私保护能力。
基于该思想,可以通过对数据进行下采样、顺序置换、添加噪声等方式,来防御攻击者的隐私窃取行为。
此外,隐私攻击方式也可以用来衡量模型的隐私保护能力。常用的攻击方式有成员推断攻击、模型反转攻击等等。如果攻击的成功率越低,表明模型的隐私保护能力越强。
关于公平性,我们需要考虑个体公平和群体公平两个方面。对于不同的个体,我们希望系统不要有偏差。这非常困难,即使对于人类而言,这也是很难达到的。例如,在参加委员会表决的过程中,为了消除CulturalSpecials,通常会有专门的培训。至于群体的公平性,则需要考虑大群体和小群体。
3
统一框架
那么,稳定性、隐私保护、公平性、可解释性(泛化能力),它们之间有何联系?如何相互影响?其实需要深入研究。目前对于隐私保护和可解释性之间的关系,我们已经有了初步的研究成果:例如,通过利用差分隐私来解释泛化能力,我们发现模型的泛化能力和隐私保护能力具有协同性。
至于泛化能力和公平性,稳定性和公平性,公平性和隐私保护之间是什么样的关系,有待于我们进一步考察,有可能是协同的,也可能是平衡的。
要想最终实现可信人工智能,就要找到统一的综合治理框架。也就是说,我们需要构建可信人工智能的大一统理论,帮助我们实现有效的可信治理。
关于人工智能的判定
图灵使用著名的“图灵测试”判定人工智能是否达到了人类智能的水平。
在人工智能拥有准确的定义之前,判断一个程序是否成为所谓的人工智能是一个艰难的事情,况且即便siri,cortanna未能达到上述标准之前在人们的共识中已然成为了人工智能的标杆。
那么,判断人们多年前就开始幻想的“人工智能”的标准应该是什么呢?或许图灵的方法并不是那么的严谨和尽善尽美。
我认为成功的人工智能的标准之一应该是无法复制。
目前为止电脑文件很方便的一个优点就是很容易复制出一份一模一样的文件,仅需要一个硬盘就可以方便的将他人几TB的资源悉数拷走。
而作为一个自我学习能力完备的人工智能而言,当他的数据在完全复制完成那一刻起开始,他的复制版本和原版就再也不是同一个东西了,或者说,不再是同一个“人”。
就如同一个人与他的克隆版一样,尽管他们在曾经一个时刻又有相同的身体和记忆状态(假设记忆也可以克隆),但克隆版作为一个智能他的认知与思维是完全不可控的,你永远无法说他的克隆版与他本人是同一个人。
那么可以考虑这样一件事情,如果一个软件或又游戏需要内嵌一个人工智能,会有如下几种情况。
1.该人工智能被复制无限次安装在各种设备上,他们能听懂人类语言并与人类交流,解决人类所需的相关问题,对于不同的人或者不同的设备解决相同的问题方法相同或类似,但学习能力仅限于对设备主人使用和生活习惯的适应,像是预设了很多种答案但仅供选择设置。在这种情况下每个设备每次安装的人工智能完全相同,仅能通过跟随软件的升级进行进化。
2.每个设备上安装的人工智能具有独立且完备的学习能力,这样的话每次安装相当于种下了一颗种子,根据该人工智能的使用者不同,解决过的问题不同,所能接触学习的文件资源不同,拥有完全不一样的智力水平,每个人工智能相互完全独立,软件公司无法统一从终端控制人工智能思维状况。
3.每个设备上安装的人工智能完全独立但只拥有被限制的学习能力,每个设备上的人工智能不同,但可以限制他运行时所占用的资源,可以接触学习的内容空间,不能优化自身的学习速度与范围等,限制对自身基层程序的修改,这样每个人工智能学些内容不同,但智力水平相同,软件公司可以从终端控制每一个人工智能的基层程序。
4.每台设备上安装的不过是一个用户可以和人工智能接触的接口,仅在终端拥有一个人工智能,通过类似人类一心多用的方式为用户服务,自身拥有完备的学习和优化自身程序的能力,完全独立。
这样看来,第一种人工智能有些类似伪人工智能,而最后一种才是真正意义上的强大的人工智能,学习与优化自身的能力会极强,或许是未来的发展趋势。第二种在占用资源上造成极大的浪费,但拥有一个完全属于自己的人工智能或许是很多人尤其是极客们的梦想,应该也有不错的的市场,但因为不受控制或许会成为混乱甚至灾难的根源,这样的话第三种或许是不错的选择,然而第三种在拥有限制的情况下很难说与第一种拥有什么区别,应该这样理解,举一个极端的例子,两个设备和上的第三种人工智能可能因为用户不同而导致完全不同,拥有相对自由的学习路线选择权力,在智力相同的情况下,擅长于数学的人工智能解决不了美术问题,擅长于美术的无法解决数学问题,并拥有相对的记忆能力,换句话说,根据刚刚所述的人工智能判定方法,第一种可以复制而第二三四种无法复制。
在一定时间段内或许四种人工智能会共存占有各自的市场。根据人工智能的不可复制性,人工智能或许会走向拥有有人类个体同样多的多样性方向和只有大公司或国家才能培养的超级人工智能两个极端。
联合国和教育部强调的信息素养是什么评价指标有哪些
茁壮君说:
“信息素养(InformationLiteracy)”的本质是全球信息化需要人们具备的一种基本能力。这是一种综合能力,涉及人文的、技术的、经济的、法律的诸多因素,和许多学科有着紧密的联系。
1989年美国图书协会(AmericanLibraryAssociation,ALA)在报告中对信息素养人做了具体的描述:“要想成为具有信息素养的人,应该能认识到何时需要信息,并拥有确定、评价和有效利用所需信息的能力……从根本意义上说,具有信息素养的人是那些知道如何进行学习的人。他们知道如何进行学习,是因为他们知道知识是如何组织的,如何寻找信息,并如何利用信息。他们能为终身学习做好准备,因为他们总能寻找到为做出决策所需的信息。”
简而言之,有信息素养的人是一个懂得如何在信息社会实践终身学习的人。从信息时代步入智能时代,能否在信息和科技的环境中有效地学习?能否在竞争的快节奏的社会中有效率地工作?能否有效地利用信息、掌握研究方法和学习技能?这些依然是当今社会对人才的衡量指标。
吴砥教授来自华中师范大学,该校拥有教育信息化战略研究基地、国家工程中心和教育大数据国家工程实验室。2020年,该校成立人工智能教育学部机构,也是全国各师范大学中第一个实体化的人工智能教育学部。在近日的一场关于人工智能的教育论坛中,吴砥分享了关于信息素养的理论知识和实地调研的测评体会。
智能时代阶段已经开启,如果机器越来越智能,在与人类系统工作时应当扮演什么角色?人机之间又当如何交互?对此,他强调了应给予“人机协同”智慧能力培养更多的重视。
吴砥:华中师范大学教授、博导;国家数字化学习工程技术研究中心副主任;教育部教育信息化战略研究基地(华中)常务副主任;湖北省高校人文社科重点基地:湖北教育信息化发展研究中心主任。
信息素养的价值定位
在今天,信息素养受到关注与“数字原生代”或“数字土著”(DigitalMakings)的概念密切相关。当下,数字原生代成为新一代受教育者。学生的成长和学习环境已完全步入数字化时代,由此,学生的认知方式、学习习惯都产生了变化。
数字鸿沟成为了新旧两代学习者之间最大的问题,而这也是新一代学习者的特征。
如今,信息素养已成为信息化时代学习者和劳动者的必备思维,那么它有怎样的价值定位?
而在我国,近年来教育相关部门也发布了一系列相关的政策文件,对信息素养的培育提出明确要求。
其中,对中小学、职校以及高等学校的数字项目规范都对信息素养给与了明确的界定,尤其强调了在中小学的培育。
信息素养的内涵演进
信息素养的内涵具体指什么?
这一概念最早出现于20世纪70年代。1974年,美国信息产业协会的主席保罗·泽考斯基向美国图书馆与信息科学委员会提交了《信息服务环境:关系与优势》(TheInformationServicesEnvironmentRelationshipsandPriorities)报告,最早使用了信息素养的概念。其中,将信息素养定义为“利用多种信息工具及主要信息资源使问题得到解决的技术和技能”。
吴砥介绍,其实,信息素养的内涵在不同时期(时间)、不同国家(空间)之间都存在着较大差异。随着大数据、人工智能等新兴技术的广泛深入应用,对个体应具备的信息素养提出了新的要求。
在吴砥看来,从工业时代到信息时代,再到智能时代,教育特征的演变可以从生产工具、受教育者以及学习方式三个角度来总结。
比如,工业时代中社会所形成的各种生产设备被信息技术改造,数字化的生产工具在生产和服务领域广泛普及和应用,而到了以智能化生产、人机协同融合为主要特征的智能时代,智能化设备、机器人等是主要的生产工具。
另外,学习方式上,工业社会中的教师以班级授课传授知识,学生通过听课、记笔记、做作业等方式学习教材上的知识,而信息时代,教室不再是唯一的学习场所,学生可以通过在线平台随时、随地进行自主学习、个性化学习,到了智能时代,学习无时无刻不在发生,学生则通过联结式的、人机协同的智能化方式进行学习。
如此,智能时代对信息技术的整体要求更高。目前,智能时代阶段已经开启,如果机器越来越智能,在与人类系统工作时应当扮演什么角色?人机之间又当如何交互?这里,吴砥强调了对“人机协同”智慧能力的重视。
信息素养的评价指标
信息素养的内涵在不同的阶段有很明显的区别,早期可能关注是否会打字、会用办公软件,后来强调是否会发邮件、使用互联网,现在更强调是否会使用智能化的工具、平台以及良好的信息责任意识。
那么,应该用什么样的指标来评价信息素养的水准呢?
吴砥认为,工业时代,大众媒体的单向传播特性,使得该阶段信息素养评价主要聚焦于信息使用、查找与获取、理解与吸收、评价等低阶素养,重在考察人对信息的解读、分析和评价能力;到了信息时代,赋予了人们更强的能动性,使得信息素养的评价指标也随之扩展到信息交流与分享、加工与整合以及生产与制作等方面,信息道德与法律也在这一阶段受到重视;而智能时代的到来对人的信息素养提出了更高要求,信息安全、人机交互与协作、信息创新、信息思维以及终身学习等高阶素养开始进入人们的视野,并成为衡量人能否适应智能社会发展的新的关键指标。
从上图可见,每一个阶段,不同的研究机构给出的指标有所区别,但信息资源的整体要求向高阶引进趋势明显。
早期只要求信息存储、信息管理、信息理解、信息查找这些简单的信息能力,而越往右,评价指标覆盖就越多,包含了早期指标不关注的信息内容。显然,进入信息时代之后,社会更强调了数字版权问题,进入智能时代后,人机交互的伦理问题颇受关注。
由此,自2017年至今,吴砥团队连续5年开展了学生信息素养水平调研。这一测评范围覆盖全国31个省、自治区、直辖市和新疆生产建设兵团,累计采集中小学生样本1,000,000余份。
在实测中,他和团队发现,在依赖数字技术进行各类活动、习惯快速接收信息、喜欢并行处理多任务等方面,新一代学习者的信息素养正在快速提升。
另外,有趣的是,学生信息素养和家庭信息素养与家长之间有着非常密切的关系,同时,可以把家长分为静态应用者、合规应用者、活跃应用者三个类型。
他说,这次疫情期间的在线教学是对整体学生的信息素养水平的一次检验,可以明显看到,家庭信息化基本条件以及家长的信息素养,对学生能否顺利完成一整个学期在家线上学习的任务是一个非常有力的支撑,有的学生能应对自如,而有的家庭则暴露出短板。
此外,他指出,信息素养测评应从“结果性评价”向“过程性评价”转变。“信息素养必须投放到日常行为、日常学习中反映。比如是否善于利用互联网来解决问题?是否善于利用信息化通讯工具来进行远程协作?是否具有合作意识?在网上是否遵守相应的规则,不上传有害信息、不攻击他人?这都属于信息素养的范畴。”
通过这一调研实测,他还体会到信息素养测评是一个动态发展的过程。随着下一代的学习者人机交互方式的更加多元,他建议,对学生信息素养评估指标,特别是信息素养知识、技能相关指标予以适时的更新和调整;而在传统测评工具的基础上,也还需要开发多样化的新型测评工具,以精准测量学生信息素养水平。
人工智能 —— 归结演绎推理
什么是归结演绎推理归结演绎推理是一种基于逻辑“反证法”的机械化定理证明方法。其基本思想是把永真性的证明转化为不可满足性的证明。即要证明P→QP→QP→Q永真,只要能够证明P∧﹁QP∧﹁QP∧﹁Q为不可满足即可。
谓词公式不可满足的充要条件是其子句集不可满足。因此,要把谓词公式转换为子句集,再用鲁滨逊归结原理求解子句集是否不可满足。如果子句集不可满足,则P→QP→QP→Q永真
逻辑学基础(1)谓词公式的永真性
如果谓词公式P对非空个体域D上的任一解释都取得真值T,则称P在D上是永真的;如果P在任何非空个体域上均是永真的,则称P永真。
(2)谓词公式的可满足性
对于谓词公式P,如果至少存在D上的一个解释,使公式P在此解释下的真值为T,则称公式P在D上是可满足的。
(3)谓词公式的范式
范式是公式的标准形式,公式往往需要变换为同它等价的范式,以便对它们进行一般性的处理。在谓词逻辑中,根据量词在公式中出现的情况,可将谓词公式的范式分为以下两种。
前束范式
任一含有量词的谓词公式均可化为与其对应的前束范式Skolem范式
任一含有量词的谓词公式均可化为与其对应的Skolem范式子句和子句集谓词公式化为子句集鲁滨逊归结原理(消解原理)基本思想:
检查子句集S中是否包含空子句,若包含,则S不可满足。若不包含,在S中选择合适的子句进行归结,一旦归结出空子句,就说明S是不可满足的。(1)命题逻辑中的归结原理:
设C1C_1C1与C2C_2C2是子句集中的任意两个子句,如果C1C_1C1中的文字L1L_1L1与C2C_2C2中的文字L2L_2L2互补,那么从C1C_1C1和C2C_2C2中分别消去L1L_1L1和L2L_2L2,并将二个子句中余下的部分析取,构成一个新子句C12C_{12}C12。其中,C12C_{12}C12称为C1C_1C1和C2C_2C2的归结式,C1C_1C1和C2C_2C2称为C12C_{12}C12的亲本子句。
(2)谓词逻辑中的归结原理:
设C1C_1C1和C2C_2C2是两个没有公共变元的子句,L1L_1L1和L2L_2L2分别是C1C_1C1和C2C_2C2中的文字。如果L1L_1L1和L2L_2L2存在最一般合一σσσ,则称C12=(C1σ−L1σ)U(C2σ−L2σ)C_{12}=({C_1σ}-{L_1σ})U({C_2σ}-{L_2σ})C12=(C1σ−L1σ)U(C2σ−L2σ)为C1C_1C1和C2C_2C2的二元归结式,而L1L_1L1和L2L_2L2为归结式上的文字。
归结反演(1)归结反演证明定理:
步骤:
(1)将已知前提表示为谓词公式FFF。
(2)将待证明的结论表示为谓词公式QQQ,并否定得到﹁Q﹁Q﹁Q。
(3)把谓词公式集{F,﹁Q}{F,﹁Q}{F,﹁Q}化为子句集SSS。
(4)应用归结原理对子句集SSS中的子句进行归结,并把每次归结得到的归结式都并入到SSS中。如此反复进行,若出现了空子句,则停止归结,此时就证明了QQQ为真。
(2)归结反演求解问题:
步骤:
(1)已知前提FFF用谓词公式表示;
(2)把待求解的问题QQQ用谓词公式表示,并否定QQQ,再与ANSWERANSWERANSWER构成析取式(﹁Q∨ANSWER)(﹁Q∨ANSWER)(﹁Q∨ANSWER)
(3)把谓词公式集{F,(﹁Q∨ANSWER)}{F,(﹁Q∨ANSWER)}{F,(﹁Q∨ANSWER)}化为子句集SSS。
(4)对SSS应用归结原理进行归结;
(5)若得到归结式ANSWERANSWERANSWER,则答案就在ANSWERANSWERANSWER中。
归结演绎推理的应用(1)归结反演证明定理:
(2)归结反演求解问题:
【科普】人工智能全面介绍
本文主要内容
一、人工智能是什么?
二、人工智能包含哪些领域?(应用层,技术层,基础层介绍)
三、人工智能的岗位有哪些?
四、人工智能学习哪些内容?
五、适合哪些人学习?
六、学出来对不同岗位有什么帮助?
一、人工智能是什么?
人工智能是一门利用计算机模拟人类智能行为科学的统称,它涵盖了训练计算机使其能够完成自主学习、判断、决策等人类行为的范畴。
例如:人工智能的图像识别,模拟的是人的视觉能力,语音识别模拟的是人的语言表达能力····,“人工智能”并不属于一门单独的技术,属于交叉学科,同时可以跟各个行业进行结合。
大家在网站上所看到的像自动驾驶、工业机器人、智能翻译、人脸识别的门禁等属于AI的应用场景,已经结合了产品后完成的AI应用。
二、人工智能包含哪些领域?(应用层,技术层,基础层介绍)
上图为人工智能的产业结构图。
第一,应用层:属于场景行业+AI,如智能医疗、智能安防、智慧教育,智能工厂智能家居等,可以将AI应用到所在行业,同时应用层也是产品经理和项目经理的主战场;
第二,技术层:AI的技术层,主要研究通用技术,如图像识别、语音识别、文本识别、自然语言处理等通用技术;其中AI的通用技术离不开机器学习(ML)和深度学习(DL),下文有关于机器学习和深度学习的详细介绍;
第三,基础层:主要做芯片、云计算、框架等方向。
从人工智能的底层平台需求出发,构建完整的从人工智能计算平台的硬件单元研发、数据治理、AI建模再到平台部署的人工智能的“基础设施”,基础层主要布局一些PaaS形态的基础计算平台和算法平台供其他公司直接调用,减少其他公司的人工智能研发成本和周期。
三、人工智能的岗位有哪些?
根据人工智能的产业结构,所以不同层都会有不同的岗位,具体如下:
第一,应用层岗位:AI项目经理、AI产品经理、AI售前解决方案工程师、智能硬件解决方案工程师、AI产品销售、传统制造,电力,化工燃气等行业+AI······
应用层属于PM岗的主战场,普遍薪资在25-50w之间,比普通PM岗位普遍高出30%-50%左右薪资。
第二,技术岗位:机器学习算法工程师、深度学习算法工程师、推荐算法工程师、自动驾驶算法工程师、语音识别工程师、图像识别工程师、NLP自然语言处理工程师、AI技术管理、AI高级研发工程师等······
技术层岗位起步薪资30-60w之间,且对年龄没有限制。
第三,基础层:属于岗位+AI,例如当下大数据开发工程师是要求懂AI机器学习算法,高级数据分析要求懂AI的机器学习,智慧IC,智能芯片等相关岗位······
第四,衍生岗位,即人工智能行业发展后衍生出来的以往从未有过的行业,像机器人训练营,智能手臂工程师,工业机器人系统操作员,服务机器人应用技术员等,是这两年新出现的岗位,大部分岗位对学历要求不高,同时一二线城市甚至三四线城市都会有。
四、人工智能学习哪些内容?
(1)Python提到人工智能就一定会提到Python,python是一门编程语言,在AI算法实现当中扮演中工具的角色,如果你本身有其他的编程语言也会有优势的。(2)数学主要教授的大学期间的高数,线性代数,数学需要配合着项目来学习,不然你会觉得比较枯燥,像人脸识别的产品,单独开发出来这个AI人脸识别的产品,精准度89%和99%所用的算法模型和数学公式就有不同,所以需要配合着场景来学习(3)机器学习机器学习(MachineLearning,ML),机器学习在公司当中处理的是结构化数据,(结构化数据也就是有行列序列之分的,比较容易能找到规律)是人工智能的核心,属于人工智能的一个分支。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。简单来讲:机器学习是类似于教孩子认字,第一次见不了解,但是大批量的这个字长得一样,我逐渐就认识这个字了。(4)深度学习深度学习(DeepLearning)是机器学习的一种新方法,深度学习在公司当中处理的是非结构化数据,(非结构化数据也就是不容易找到规律的数据,例如图片、音频等)它使用包含复杂结构或由多重非线性变换构成的多个处理器(神经网络)对数据进行高层抽象的算法。其机动在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音,文本。深度学习的过程分为训练和推理(即评估)两个过程,通过训练过程来获得数据模型,然后用于评估新的数据。简单来讲:深度学习就是模拟的人的大脑,让机器有自主学习的意识了。
以上是关于机器学习和深度学习相关的介绍。
五、适合哪些人学习?
第一,突破薪资发展,在保持原有岗位上的业务能力的同时突破瓶颈薪资,普遍能上涨30%-50%的薪资;
第二,岗位转型,从传统软件开发岗位、PM岗位、技术管理岗位转型成为AI的PM岗位、AI的算法工程师,以及人工智能的团队管理;
第三,数字化转型公司,目前所面临的公司转型的现况,学习AI可以解决原有行业当中的痛点问题,借力AI做降本增效等问题;
第四,入职就业,面对疫情后内卷的市场,公司中对于技术人员要求更高了,学习后会有专业的就业老师进行简历指导内推企业,增加入职企业成功率。
六、学出来对不同人有什么帮助?
(一)技术管理岗位年薪30w上涨到50w,负责AI技术团队;
(二)技术岗位转型AI算法,年薪60w;
(三)PM转型AI项目经理、AI产品经理,年薪40w;
(四)失业零基础学员提升AI转行就业,月薪18k
(五)数据分析岗位提升AI,上涨7k月薪
(六)刚毕业学生学习AI,就业年薪30w
不同的行业和不同岗位学习AI的需求是不同的,自己的岗位结合AI后具体的薪资可以一键三连查询!
重拾批判性:大数据时代人工智能的迷惑与反思
——读《错觉:AI如何通过数据挖掘误导我们》有感
西泽研究院特约研究员 邓宇
《错觉:AI如何通过数据挖掘误导我们》
大数据时代,让我们置身于智能化与大数据时代快节奏、便利化的生活方式当中,并且通过人工智能AI技术逐步渗透到社交、购物、出行、新闻媒体、政治事件等各个领域,甚至通过人工智能这种强大的学习能力和数据分析开始左右我们的思考、诱导我们的日常选择。
美国经济学教授加里·史密斯的新著《错觉:AI如何通过数据挖掘误导我们》(以下简称《错觉》)一书提供了非常独特的视角,与大多数倡导大数据和追逐大数据产业的研究者不同,史密斯教授更多的是对计算机挖掘大数据以及应用到各个领域的现象进行批判性研究,这项研究将启迪我们思考大数据与人工智能的社会意义、伦理价值、科学内涵。如果只考虑大数据和计算机应用的优势,忽视其负面效应和局限性,那么大数据以及AI将可能失去其科学与社会价值,这也是作者对“理论先于数据”这一科学方法的有力辩护。
《错觉》列举了很多思想性实验以及案例研究,如图灵测试、汉语室思想实验、威诺格拉德模式挑战赛等等,这些实验无不揭示计算机本身的思维模仿与学习并不是完全超越人类,计算机的语言、阅读和写作缺乏灵魂、语境。而计算机模型以及数据分析结果无法替代人类的判断,仍然需要人类充分的讨论与批判,完全依赖计算机的数据结果将导致很多混乱和错误的决策。
从理论上来说,计算机技术的演进以及大数据、人工智能的应用的确已从实验室进入到人们的日常生活当中,特别是随着移动互联网、5G通信技术的进步,计算机甚至在某些领域,如计算能力、学习能力、数据分析、储存以及模型预测方面超越人类智慧。数据挖掘成为各个科技公司、高科技企业、创业公司的核心竞争力,一切产业发展都以大数据为支撑,而这的确产生了巨大的经济、社会效益和广告宣传效益。互联网产业以及数字经济的崛起为大数据与人工智能的应用提供了广泛的市场,数据库的泛滥也间接引发了诸多的争议,特别是一些购物网站、新闻媒体、社交软件大肆应用数据挖掘,跟踪用户的日常应用习性、消费特点和社交网络,企图诱导用户选择购买服务或订制某些产品。
值得注意的是,当前计算机的运算能力早已比人类更快,承载的数据资源也更为庞大,这些依据人工智能开发的应用系统已渗透进人们的生活,甚至左右人们的思维。如果缺乏对计算机语言以及数据分析结果本身的识别,将带来很多消极的结果。《错觉》这本书通过一系列数据结果质疑计算机的“坏数据”,而使用数据同样存在较大的“随机性”,作者指出,模型不可避免地是由无法解释的随机事件创建出来的,我们应该承认自己容易受到模型的诱惑。
AI大数据融入日常生活
看似无所不能的计算机技术却也存在诸多的缺陷,与人类的智慧、思维相比还有很多的局限性。其中,最重要的一点,正如作者在文章开篇表明的那样,计算机在批判性思维方面存在严重缺陷。计算机在数据处理、储存以及记忆方面的优势是人类无法匹敌的,随着计算机与人工智能的深度融合,大量的产业、产品以及思维将受制于计算机技术。有一点可以明确,现代人们的生活、生产以及创新大都依靠计算机模型和数据分析,海量的数据往往意味着创业客群与市场,而“窃取”这些个人信息和数据渐渐演变为一种产业,行走在法律的边缘。作者列举了预测总统大选、非线性模型、神经网络算法等一系列典型的案例,这些“新瓶装旧酒”的计算机数据模型看似提供了有力的技术支撑,为预测和分析验证带来了从未有过的“技术优越性”,却最终在现实面前“现形”。从现实来看,很多技术至上论者盲目地认为计算机语言和数据可以“无所不包”,迷信于大数据,陷入数据的误导与错觉,难以做出理性的决策。如作者在本书第三章总结道,计算机没有现实生活认知,这些智慧和常识来自真实生活。
《错觉》这本书的结构充满了“批判性”,作者并未采取理论说教、枯燥解读的传统模式,而是另辟蹊径,从科学实验、医疗技术、历史政治事件、经济数学模型、股市、保险等不同角度切入文章主题,以计算机数据分析的过程、结果进行批判性思考,启迪读者去正确认知计算机语言的逻辑,以及数据模型结果的随机性因素。事实上,在这本书中,作者提出了很多识别数据和验证数据真实性的方法,一方面是计算机语言缺乏时间性,线性的数据分析并不能解释非线性世界的诸多现象,反而简化了现实世界的复杂性;另一方面是数据本身的缺陷,在计算机技术尚处于开发阶段,人工智能还未成熟,距离人类的思想、批判能力存在较大差距,导致了数据的收集、整理和分析并不全面,漏洞百出的数据结果不足以支撑分析的可靠性。近年来,计算机与大数据也正在通过其广泛的民意基础对政治选举进行“干预”,网上民调、互联网民意、媒体舆论等,甚至开始进入到选举程序。
人工智能的发展没有达到预想的效果,是因为现实生活与历史事件的复杂性超越了大数据本身的分析,而且众多的数据未能考虑时间的跨度,模型以及计算机语境的符号不能完全取代人类的批判性思维。《错觉》这本书的精彩之处正在于此,如马里兰大学法学教授弗兰克·帕斯奎尔所评价的,本书从计算机的角度出发,对人工智能、大数据和机器学习在我们日常生活中愈发盛行的现状做出了强烈批判。本书的写作逻辑与加里·史密斯教授一直以来对数据分析方法的批判性研究一脉相承,其经典著作《数据科学的9个陷阱》《基本统计、回归和计量经济学》《标准偏差:有缺陷的假设,扭曲的数据,以及其他欺骗统计数据的方法》等几乎都在批判数据分析模型和方法,这种思维贯穿于《错觉:AI如何通过数据挖掘误导我们》之中。本书最后四章的案例论述聚焦于医疗、股市、日常生活的事例,详细分析AI如何通过数据挖掘误导我们。如作者在结语部分所言,统计学证据不足以辨别真知灼见和虚假信息。只有逻辑、智慧和常识才能对其加以区分。人工智能目前还无法评估事物是真正相关还是偶然相关,因为她还不理解数据的意义。
读罢此书,也让我想到了近期一本风靡的畅销书,以色列历史学家尤瓦尔·赫拉利的《今日简史》,这本跨学科的经典著作提出了富有启发性的思考,其中对人工智能和大数据提出了深刻的批判,作者认为,我们真正应该担心的,是有一小群超人类精英凭借算法带来的力量,与大量底层的手无权利之人之间发生冲突。两本书有异曲同工之妙,都对大数据、AI人工智能和算法提出了质疑,这种批判精神有助于我们对计算机科学技术的应用保持警惕。对于普罗大众来说,正确理解和判断人工智能、大数据的虚假信息、错误模型着实比较困难,需要花费时间和精力去辨别,最重要的是能够形成独立的思想判断力,尽可能不被大数据所误导。当然,本书的出发点并不是毫无根据地指责大数据和人工智能的科学进步,而是站在更接近于人性和社会学的角度理解AI,这才是真正的科学精神。加里·史密斯教授最后指出,在大数据时代,真正的危险部署计算机比我们更聪明,而是我们自己也这么认为,从而信任计算机为我们做出重要决定。《错觉:AI如何通过数据挖掘误导我们》则给予我们一次反思大数据和AI人工智能的机会。
科学精神