人工智能现在能有多“聪明”
柔性物流四向车“一车跑全仓”AR眼镜可“同声传译”
正在召开的2023中关村论坛上,“人工智能”无疑是最热门的关键词。无论是自动驾驶还是智能穿戴,是量子计算还是5G通信,甚至碳中和,众多前沿科技的背后都离不开人工智能技术的支持。可以说,未来十年,人工智能将继续改变各行各业以及普通人的生活。在本次论坛国际技术交易大会板块、科博会展览板块,以及人工智能相关平行论坛上,北京青年报记者注意到,各大公司都带来了最新人工智能科技成果,包括视觉通用分割模型SegGPT、5G音视频交互应用、双语数智人等等。
5G通信新应用
可视自助服务带来交互新体验
最新数据显示,我国5G用户已达5.61亿,我国累计建成开通5G基站231.2万个,全球占比均超过60%。而一季度全国平均5G下载网速为334.98Mbps,峰值下载速率为472.92Mbps。如此快的网速,再加上人工智能的支持,除了用来刷社交网络、日常办公学习,还可以用来做什么?
中国联通此次展出的“5G新通信智能交互平台”,就应用了5G“大带宽、低时延、泛连接”的特点,运用5G音视频交互与AI原子能力,结合AR&VR、三维建模、智能交互等先进技术,做到了5G内生服务下的音视频交互应用。平台运用多媒体、三维建模、实时跟踪、传感、智能交互等技术,实现端到端的可视化、智能化新通信服务,为企业、政府等提供5G音视频交互、智慧虚拟形象等功能。
如金融行业应用版平台,用户可以远程接入银行柜台服务,享受与现场办理同等的体验及个人隐私保护;能源行业应用版平台则重构了井场智能联动系统应用体系,实现了井场资源数字化管理、井场巡护数字化编制。交通行业版平台以5G新通信为基础提供无障碍智能通信服务,为老年乘客提供可视化交互的智慧助老服务。
值得一提的是,该平台在国产化适配与自主可控方面实现了平台与国产手机芯片适配;平台端支持国产化系统,手机侧适配华为麒麟芯片、联发科天玑芯片,支持华为、小米、OPPO、VIVO、魅族系列国产手机。
“数智人”更聪明
与大模型融合能“听懂你的话”
数智人,简单来说就是虚拟人,借助拟人化的外表、人工智能的内核,数智人已经开始在众多行业中商业化落地,辅助人工服务,提升企业运行效率。例如,数智人在金融、文旅、传媒、公共服务、医疗、零售等行业场景中,可担任坐席客服、理财顾问、播报主持、导游导览角色;在文化娱乐场景,可以作为虚拟偶像、虚拟歌手等形成IP资产;在智能车载、智能交通、智能家居等场景,可以通过与智能设备结合,为用户提供智能化服务。
腾讯云智能小样本数智人生产平台近日首次对外发布,只需要3分钟真人口播视频、100句语音素材,平台便可通过音频、文本多模态数据输入,实时建模并生成高清人像,在24小时内制作出与真人近似的“数智人”。相较于照片生成、仅能呈现面部形态的数字人,小样本数智人可根据文本设计手势,唇动、口型、表情复现真人风格。
本届中关村论坛,北青报记者也尝试用数智人虚拟主播,代替真人主播出镜,进行7×24小时的直播服务,吸引了诸多观众关注。
不过,以往的数智人,比起真人来,他们的思考能力明显更弱。此次中关村论坛上,由智谱AI推出的“智谱AI脑数智人”则更加聪明,它不再拘泥于固定的互动方式,而是初具理解人类指令意图的能力。智谱AI由清华大学计算机系的技术成果转化而来,公司于2022年合作研发了双语千亿级超大规模预训练模型GLM-130B,并主导构建了高精度通用知识图谱,把两者有机融合为数据与知识双轮驱动的认知引擎,并基于此千亿基座模型打造ChatGLM。通过认知大模型链接物理世界的亿级用户、赋能元宇宙数字人、成为具身机器人的基座,赋予机器像人一样“思考”的能力。此外,它还是一个既会中文又会英文的双语数智人。
“无人驾驶”上街
最新行人预测模型呼之欲出
如今在亦庄等地,已经可以打到百度自动驾驶的车辆。未来,随着技术发展和政策批准后,车上的安全员将会撤出,自动驾驶车辆会实现真正的无人化。
据百度公司介绍,无人驾驶技术核心是“百度汽车大脑Apollo平台”,包括高精度地图、定位、感知、智能决策与控制四大模块。最新的Apollo已经进化到引入多个基于深度学习的模型、发布了基于语义地图的低速行人预测模型、引入了基于语义地图的模仿学习。
在本次中关村论坛上,旷视科技发布了自研智能托盘四向穿梭车系统。旷视智能托盘四向车作为柔性物流系统中的离散型设备,可以实现“一车跑全仓”。为什么说是“柔性物流”?旷视表示,主要是因为它具有离散型设备、分布式控制两大特点,用户企业可以像搭积木一样,根据需要灵活组合,柔性部署。其次,柔性则体现在整个系统的“动态可扩展”,用户企业可以根据淡旺季以及业务增长等变化,随时增减四向车数量,提升系统承载能力。
智慧城市更低碳
AI“管家”水电空调全都管
在智慧城市建设中,AI扮演着越来越重要的角色。例如,AI可以用于城市的基础设施管理,例如自动监测道路、桥梁和建筑物的结构健康状况,以及检测和修复道路上的裂缝和坑洼;AI可以帮助城市管理能源,例如通过分析能源使用数据来实现更高效的能源使用,以及优化城市的能源系统;AI也可以帮助城市保护环境,例如通过空气质量监测、垃圾处理和水资源管理等方面,提高城市的环境质量。
那么,如何利用AI给楼宇减碳来实现碳中和碳达峰的目标呢?恒华数元展示的基于楼宇大脑神经网络系统碳管理平台,从充分利用清洁能源的角度出发,集中引用性价比较高的技术产品应用,遍及楼宇末端传感感知节点和主要用能设备传感感知节点,通过楼宇大脑边缘计算服务器统一协调管理,使楼宇用能设备高效运转,尽可能排除不必要的能源浪费,根据边缘计算模型分析,楼宇各用能子系统能耗曲线处于平稳运行状态下,整体能耗是最低的。
其中,楼宇电力能耗应该占楼宇能耗的首位,针对楼宇弱电系统的特点,在不增加装修施工的基础上,研发出体积更小、计量准确、安装便捷的一套弱电监测及AI控制系统,可以对楼宇的电力系统进行动态的监控,确保无人区及时断电,避免不必要的电力浪费。而楼宇空调系统耗能占到楼宇总能耗的40%,恒华数元通过和高校成立产学研基地深度合作研发出针对楼宇冷、热源系统调优的策略算法,形成了成熟的数据算法模型,使得空调系统节能率达到10%以上。目前,这一项目已在广东、天津、江西、四川、湖北、安徽等省份落地。未来,居住小区、写字楼、商场等,都将向着绿色低碳的方向“进化”。
AR眼镜“同声传译”
智能穿戴设备助力无障碍
随着人工智能融入生活的方方面面,搭载人工智能的设备也趋于小型化,如智能手表可接听电话、回微信、监测运动情况等;智能眼镜外形如普通眼镜,戴上后可以接打电话、听音乐等。
不过,中关村论坛上展示的这一智能眼镜,则更实用。这款名为“亮亮听语者智能眼镜”是一款双目光波导AR智能眼镜。
VR眼镜戴上后会沉浸在虚拟世界,AR眼镜则不会阻挡视线,其将现实世界与虚拟世界进行融合,从而实现一些在现实世界中无法做到的功能。如听力受损人群常常因“听不清”、“听不见”声音而在工作、社交、学习过程中遇到困难,这款眼镜可以将声音信息转换成文字在眼前显示出来。它还具有同声传译功能,可以识别不同国家的语言,同时转换成汉字或者其他国家的文字呈现前,帮助用户在国际语言交流的环境中方便理解。这款眼镜轻巧便携,机身仅重79g,相比于目前市面上200-300g的AR眼镜,其自重非常适合长时间佩戴;还可以适配近视、远视、散光、老花眼等情况的镜片;眼镜外侧不漏光,保护隐私,内容仅自己可见;这款眼镜还搭载了毫秒级实时字幕,降噪算法,5米内精准收音,转译准确率最高可达95%以上。据悉,该款产品目前已经具备量产能力。
隐私保护计算技术开源
应用于金融医疗保险等领域
隐私计算,也叫隐私保护计算,是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,实现数据在流通与融合过程中的“可用不可见”,从而实现数据价值的转化和释放。隐私保护计算对隐私数据提供了未来行业亟须的保护能力。本次中关村论坛展览(科博会)上,蚂蚁集团首次公布以关键基础软件为核心的开源完整版图,9大核心技术全部开源,其中就包括隐私计算技术“隐语”。也就是说,这一技术平台面向全球用户开放,可无需调用和开发代码,直接使用产品功能,帮助用户低成本探索隐私计算应用场景。
据介绍,隐语目前已经在金融、医疗、保险等场景应用。如浦发银行联合蚂蚁集团隐语平台,识别出超过14.5万名高风险用户,阻止了数十亿人民币的高风险贷款的发放。在医疗方面,蚂蚁隐私计算平台和阿里云数字医疗团队合作,为医院搭建了面向医院运营管理的数据融合平台,为管理者提供数字化绩效管理分析,帮助医院建立精细化运营管理体系,减少医院的经济风险或临床风险。此外,过往保险机构在理赔过程中,通过向医疗机构明文(即数据不加密)查询被保险人的诊疗情况,将会获得不必要的原始数据。而蚂蚁的解决方案通过设定数据逻辑查询,利用多方安全计算等隐私计算技术,使得保险公司只获得是否理赔的查询结果,不会获得各种原始数据,保护理赔用户隐私。
声音
大模型将改变世界开发的同时应研究控制技术
ChatGPT是2023年最引人关注的科技界新事物之一,它的发布也引发了语言大模型狂潮,百度、阿里、知乎、商汤、京东等多个公司纷纷推出了其大模型。AI另一个重大领域——视觉GPT也亮相本届中关村论坛:智源研究院视觉团队正式推出通用分割模型SegGPT,这是首个利用视觉提示完成任意分割任务的通用视觉模型。
据介绍,SegGPT使用时,摈弃语言类大模型的传统思维,与机器交互时不使用文字而是使用图像。比如用户给出SegGPT一张图并在上面将“彩虹”圈了起来,当用户再给许多张包含有彩虹的图片时,SegGPT就能自动识别上面的彩虹,并将这些部分圈出来。可以说,SegGPT“一通百通”:给出一个或几个示例图像和意图掩码,模型就能get用户意图,“有样学样”地完成类似分割任务。此外,SegGPT还“一触即通”:通过一个点或边界框,在待预测图片上给出交互提示,识别分割画面上的指定物体。利用这个特性,可以实现诸多功能,比如机器人机械手去拿西红柿等物件时,机器人就可以迅速知道西红柿的边缘在哪里,既能拿起西红柿,又不会捏碎,十分精准。
目前,国内大模型处在百花齐放、百家争鸣的状态下。百度创始人、董事长兼CEO李彦宏在中关村论坛上表示,人工智能再次成为人类创新的焦点,越来越多的人认可第四次产业革命正在到来。他强调:“大模型改变了人工智能,大模型即将改变世界。”中国工程院院士、中国人工智能学会理事长戴琼海也表示,人工智能将带来多个方面的应用变革:面向科学研究新范式(宇宙起源、自然规律、生命奥秘);面向人民生命健康(AI药物研发、远程虚拟手术);面向经济主战场(虚拟创造、工业制造、灵境交互);面向国防重大需求(多源态势分析、AI地空战线部署)等等。
值得关注的是,面对新变化,也有人提出了警示。创新工场董事长、首席执行官李开复表示,“AI仍会出错,会一本正经地胡说八道,它只能被应用于生成内容初稿、开拓想法,而不能作为最终版本,AI需要持续的人工干预,避免谬误或灾难发生。此外,AI可能还存在一些法律及伦理问题,因此,AI并非适合所有的领域,只能应用于容错度较高的应用中。”李开复强调,“AI可能制造虚假信息,可能被不法分子利用来做针对性的欺骗用户,因此,开发时,需要同时研究控制AI的技术和管理的法律法规。”(李娜温婧)
【纠错】【责任编辑:张樵苏】假如人类完全开发大脑,再和人工智能比,谁更聪明
人类大脑比人工智能复杂得多,它的神经元可以根据学习和经验,创造新想法和思考方式。我们需要明确人工智能和人类大脑的不同。人工智能是通过计算机程序和算法来模拟人的智能的一种技术。计算机可以快速处理大量的数据和信息,并根据程序的要求进行计算。相比之下,人类大脑的复杂性要远远高于计算机。人类大脑是一种高度适应性的体系,它能够根据从感官接受到的信息和学习经验,进行思考和决策。另外,人类大脑还能够联想,创造新的想法和思考方式。
就算人类大脑目前只开发了10%,爱因斯坦的大脑开发了13%,智商高达183,它已经表现出了巨大的智慧和创造力。假如人类完全开发了大脑,那么人类可能会有更好的思维和创造性能力,并且有能力参与到更加复杂的问题领域中。人工智能也有自己的独特优势。人工智能可以通过大量的数据和机器学习算法来快速地完成许多任务,并且无需休息或错误。在某些任务上,人工智能已经可以优于人类。例如,在围棋这个复杂的游戏上,人工智能能够战胜人类的世界冠军,这已经成为了科技界的突破。
假如人类完全开发大脑,再和人工智能比,我们很难得出一个明确的答案。人类大脑能够利用丰富的经验和创造性思维来解决复杂的问题,但在处理大量的数据和信息时,人工智能可能会胜过人类大脑。另外,我们还需要认识到,情感因素对我们的思维和决策有着重要的影响,而人工智能缺乏这种因素。在实际应用中,我们往往需要将人类智慧和机器的计算能力相结合,以最优化的方式解决问题。人类大脑与人工智能相比具有更高的复杂性和创造性。如果人类完全开发了大脑,那么可能会具有更好的思维和创造性能力,在处理大量数据和信息时,还是需要机器智能的帮助。
参考来源:
1.人脑开发程度--ResearchGate
2.人工智能在围棋上击败世界冠军--中国新闻社
3.人工智能和人的区别--麻省理工学院
人工智能的未来之路
人工智能的未来之路
演讲人:刘嘉 演讲地点:清华大学人文清华讲坛 演讲时间:2022年11月
演讲人简介:
刘嘉,麻省理工学院博士,心理学家,长期从事心理学、脑科学与人工智能研究。清华大学基础科学讲席教授、心理学系系主任、清华大学脑与智能实验室首席研究员、北京智源人工智能研究院首席科学家。
人的认知与大脑构造
为什么人如此难以理解?为什么这个世界总是让我们产生很多困惑?这是人类从有文明开始就一直存在的问题,道理其实非常简单。
首先,我们看见的世界只是这个世界中非常小的一部分,我们忽略了绝大部分的东西。
我们在清华做过一个小实验:一位戴黑色渔夫帽的女士在清华问路,在她问路的时候,我们安排一块隔板从戴黑色渔夫帽的女士和被问路的人之间穿过。当板子过来时,原来问路的女士抬着板子走开了,而原来抬板子过来的另一位戴蓝色渔夫帽的女士留了下来,由她继续问路。在7个被问路的人中,只有一个人注意到了提问人的变化。这个小实验的问路场景里,人们其实只看见了世界上非常小的一部分,由于这些是不重要的信息,人们就容易忽略掉这些信息。
但更可能发生的是,人们的认知还会扭曲这个世界。比如图1这一组图里,有两个拼在一起的方块图,一个颜色深一点,一个颜色浅一点,还有一个圆环,它的灰度介于两者之间,圆环左右两半颜色一样。但如果把两个方块图分开,大家一般都会觉得圆环的颜色一边变浅了,一边变深了,事实上,它们的颜色仍是完全一样的。再把这个圆环分开,变成上下移动,这时看见的东西有立体感了,好像是深灰色的东西盖上了一层浅色的毛玻璃,以及浅色的板盖上了深色的毛玻璃。
我们无时无刻不在观察这个世界,但又无时无刻不在扭曲这个世界,这到底是为什么?
这其实取决于我们的视觉系统。假如外部世界存在一个绿苹果,它会以大约100亿比特/秒的信息量进入我们的视网膜,视网膜通过约100万个神经连接,连接到视觉皮层,这个时候我们的信息流就从百亿比特/秒变成600万比特/秒;经过视觉初级皮层加工再传到高级皮层来决定看到的东西是什么时,信息流又变成了100比特/秒。这时信息量衰减了1亿倍。可见,当我们做决策时,我们获得的信息其实是非常有限的,所以我们就需要构造出新的东西,把缺失的信息补上,而我们的大脑就像魔术师一样来弥补这些缺失的信息。这一方面可以解释为什么有很多东西我们看不见——因为传输过程中已经被人脑衰减掉、过滤掉了;同时也可以解释,为什么有的人看见一个绿苹果会认为是红苹果——因为这个重构的过程是创造性的,不是简单复制。正是基于这个构造,我们也可以把一个苹果看成一个梨子,这是我们大脑构造的过程,是一个正常的现象。
人脑重构的意义
为什么我们的大脑不能像摄像机、照相机一样忠实客观地反映物理世界,为什么非要自己来重构这个世界?这样的人脑重构究竟有什么好处?
正如康德所言:“没有感觉支撑的知识是空的,没有知识引导的感觉是瞎的。”这句话的前半句说的是,如果没有外部的输入,我们很难构建自己的心理世界,但我想强调的是下半句“没有知识引导的感觉是瞎的”。如果你不知道你看的是什么东西,那你就等于什么都看不见。这是因为,这个世界是模棱两可的,需要我们去构造,把我们的理解加进去,只有这样我们才能真正知道这个世界究竟发生了什么。
与理解相比,更重要的是创造。当大脑没有被外部信息填满而留下空间时,我们能够在这空间里创造出自己想要创造的东西。正如《小王子》的作者圣·德克旭贝里所言:“一堆岩石在有人对着它思考时就不再是岩石了,它将化身为大教堂。”这就是人类了不起的创造——当我们的祖先跋山涉水来到一片荒原,他们看见的不是一堆乱石,而是未来的家园。所以,在过去的300万年里,人和猴子分开进化,人的大脑体积增加了3倍;但是,这体积并不是平均增加的,增加最大的地方在额叶:与200万年前的祖先能人相比,我们的头骨往前突出,以容纳更大体积的额叶,而强大的额叶使我们能构造出不存在的东西。比如我们的祖先准备去打猎,不用等看见猎物才做出反应,他只需要提前想象狩猎的情景,就可以把一切安排好。如此一来,人可以把未来在脑海里“演”一遍,构建出一个个可能的未来,从而对未来做出行动方案,这是人类能够战胜其他比我们更强大更凶猛的动物,成为万物之灵的关键。这也印证了荀子的一句话:“然则人之所以为人者,非特以二足而无毛也,以其有辨也。”
重构心理世界的知识从何而来
人脑对世界的构造,总是需要先验知识,而先验知识一部分来自基因的烙印。换言之,我们来到这个世界时并不是一块白板,而是带着32亿年的智慧来的,这些智慧就印刻在基因中。
我们曾经用我校心理系女教授和女博士后的照片,做了一个有趣的小实验:如果把她们的脸全部叠加起来,做一张“平均脸”,大家普遍反馈说这张“平均脸”充满两个字:“睿智”。“平均脸”所代表的意思是什么?人脸其实是我们的基因图谱——我们的基因都写在脸上,当我们把脸平均起来之后,得到的是这18位老师平均的基因,平均的基因代表突变很少。而基因一旦突变,大概率是有害的,基因突变越少,说明基因越好,携带遗传性疾病的概率就越低,这就是为什么人们普遍会觉得“平均脸”更好看、更符合我们的审美。
既然脸是我们的基因图谱,对生存来讲如此重要,我们便需要发展出非常强大的看脸能力,即面孔识别。我们研究小组已经通过实验证明,面孔识别能力也写在人类的基因里。我们找了两类双胞胎,一种是同卵双胞胎(由同一个受精卵发育而来),基本上具有100%相同的基因。另外一种是异卵双胞胎(由两个独立的受精卵发育而来),基因遗传物质的平均遗传度大概是50%。通过比较他们在面孔识别上的能力,我们发现同卵双胞胎在面孔识别任务上的相似程度更高,即面孔识别的能力受遗传因素的影响。这一点也可以从我们的另一研究得到验证,即面孔失认症或者大家说的“脸盲”。
在图2显示的这个遗传树里,只要孩子有面孔失认症,他的父母中大概率有一个也是面孔失认症。第二幅图里有一个有趣的三角,三角形底边的两个端点代表的就是同卵双胞胎。当时我们在大学里测试了一个女孩,发现她有面孔失认症,那女孩说她有一个同卵双胞胎姐姐,我们把她姐姐请来一测,发现果然也是面孔失认症。
②
“自尊”对大脑的影响
除了看别人的面孔,我们也常常照镜子看自己。最喜欢照镜子的人据说是纳西索斯,他是古希腊神话里的超级帅哥,对自己的面孔着了迷,每天趴在溪边,通过水的倒影欣赏自己的绝世美颜。心理学由此称这种现象为“纳西索斯情结”,意思是一个人高度自恋,对自己爱到了极致。
其实对自己的爱,对自己面孔的欣赏,背后反映的是一个非常重要的特质,即人类的自尊。自尊是个体对自己的总体态度,人分成高自尊和低自尊两种。
什么是高自尊?这里有四个问题:1.你是否认为你是一个有价值的人?2.你是否认为你拥有很多美好的品质?3.你是否对自己满意?4.你是否对自己持肯定态度?
如果你对每道问题的回答都是“是”,那么你就是高自尊的人。“自尊”在我们面临困境时能提供极大的帮助。
当一个人长期经受压力和苦难,身体会变得差,心理幸福感会低下,更糟糕的是,认知发展会受损,认知能力会比别人低很多,体现在大脑上就是海马体会受到极大的损伤,而海马体是人学习、记忆、空间导航的中枢。
自尊在压力源和心理世界之间建立起一道牢不可破的防线,它就像勇敢的士兵一样挡在人的心理世界面前,帮人把压力、负性事件挡在外面,让人能够正常、健康地成长。人有两种资本,一种是物质资本,一种是心理资本,自尊自信、理性平和,这些就是心理资本。物质资本富裕的人未必有高自尊,而处境不利的人没有丧失他的自尊与自信时,就很可能在触达低点时再反弹,并达到人生新的高度。
我们所处的物理世界永远是不完美的,总有让人不满意之处,但是每个人可以在一个不完美的物理世界里构建出一个美好的心理世界。为什么?因为我们的大脑就是一个构造体,从物理世界所接收到的信息,经过大脑的工作,可以构建出一个完美的心理世界。这正印证了社会心理学家班杜拉所说的一句话:“人既是环境的产物,也是环境的营造者。”
人的双链进化
人和动物的进化有着本质的区别。动物是按照基因,按照达尔文的进化论,一点点试着生存、前进。人除了有代表着过去的生物基因的演化,还有另外一条演化线,即基于社会基因(Meme)的演化,而这条线带着我们以与动物不一样的方式前进。
生物基因由一些碱基对构成,那社会基因是什么?远古时,我们的祖先中有一位突然因为某种原因能够把火生起来了,一种知识、技能被创造出来,这就相当于基因在突变,一个优秀的基因产生了。会生火的这种技能、知识就像基因一样开始传播给其他人,从一个部落传到其他部落,慢慢地生火就从个人拥有的技能变成人类拥有的技能。渐渐地,人们又开始会制作长矛和其他工具,经过漫长的发展,逐步构建成今天的人类社会。这就是为什么我们一直强调知识、文明是如此重要,而大学就是文明的产房。孟子说过:“人之所以异于禽兽者几希;庶民去之,君子存之。”这里的“几希”就是我们的文明,就是我们在演化过程中所创造所传播的社会基因。
科技发展的主要目的之一,是要让知识的扩散变得更快、更便利。大约在六千年前,人类最早的文字楔形文字在新月地带被发明出来,使得人类的知识技能可以被记录下来,可以被忠实传播。之后的活字印刷,以至今天的电话、电报、互联网等等这一切,使得我们能够更加高效地把知识传播出去,推动文明加速演化。
人类的文明时代大约可以分成三个阶段:第一个阶段是原始文明,大约经历了两百多万年,它的前十万年和后十万年没有什么太大变化。第二个阶段是农业文明,大约经历了四千多年,这个时候人类开始变成文明种族,懂得了一些天文地理知识等等,学会种植庄稼,可以驯服野兽,把它们变成家畜,但发展依然十分缓慢。真正带来巨大变化的是第三个阶段,即工业文明。工业文明从开始诞生到现在,不过是短短三百年;但在这三百年里,变化是如此之快,以至于我们不得不将它再细分成四个阶段,第一个阶段是机械化时代(1760-1840年代),出现了蒸汽机等。第二个阶段是电气化时代(1840-20世纪初),出现了电力等。第三个阶段是自动化时代(1950-21世纪初)。而第四个阶段,就是我们现在所处的信息时代。
人工智能的进展
2002年,我的博士论文答辩题目是《面孔识别的认知神经机制》,在答辩的第二张PPT里我这么写道:“现在最先进的机器识别面孔的正确率只能是随机水平,而人类能够在一秒钟内识别上百张面孔,为什么人类如此伟大,为什么人类如此聪明,为什么机器如此愚笨?”
在2002年,机器识别人脸还可以说是“一塌糊涂”。到了2015年,我作为江苏卫视《最强大脑》的总策划,设计人机大战项目,即机器和人比拼面孔识别,看谁的能力最强。比赛的结果让我震惊:经过十几年的发展,人工智能已经强大到在人脸识别上胜过人类的最强大脑。我当时非常庆幸我的博士论文是在十几年前答辩的;如果我现在这么开题,可能就拿不到博士学位了。
当时除了震惊,还有好奇:人工智能究竟是靠什么来达到和人一样的面孔识别水平,甚至超越人类的水平?
我们建立了一个人工神经网络,训练它去识别性别,即区别是男性还是女性,它的正确率能达到100%。这个神经网络究竟是靠什么把男性和女性区分开?我们找了一张中性面孔,就是把男性和女性面孔求平均,给它加上随机噪音,然后“喂给”人工神经网络,它有时候会判断这个图是一个女性,而这个面孔加上其他噪音,则会被判断为男性。于是,完全一样的底图,加上不同的噪音,就会得到一组被人工神经网络认为是女性的图和一组被认为是男性的图。当把这组被认为是女性的图中的中性面孔去掉,只留下噪音时,这些噪音叠加起来,我们得到的就不再是随机噪音,而是人工神经网络用于识别女性的内部表征。同样,我们也可以得到男性面孔在这个神经网络中的内部表征。进一步,我们把两者相减,就得到了人工神经网络用以区分男性和女性的模式。在这个模式里,可以看到,眼睛、眉弓、鼻子、人中是它认为的区分男性和女性的关键特征。而这些关键特征,的确是我们人类用于区分男性和女性的关键特征,它们的相似度达到了0.73,这是非常高的相关度。但是,自始至终,我们并没有告诉过这个人工神经网络:你应该用什么方式去识别男性和女性;只是要让它做这件事情,它就会产生跟人类类似的内部表征、认知操作,从而完成性别判断。也就是说,人工智能在这个过程中呈现出和人类一样的心理世界。
在那一刻我开始意识到,生物过去的进化都是一条单线,基于碳基的方式运行。但是当人类创造出人工智能之后,人类文明就很可能不再是平滑向前,接下来或许会出现一种革命性的跃迁,可能在文明的进化中出现奇点。
为什么这么说呢?我们来看人类和人工智能的三大区别。
第一,算力。人类的大脑通常重3.5斤左右,虽然只占我们体重的2%,但消耗了我们身体25%以上的能量,因此它是一个耗能大户,已经达到了我们身体能够支撑的极限。所以,人类的大脑看起来已经到了进化极限,再给一千年、一万年,人类的大脑很可能不会变得更大,聪明程度也不会增加。但是对于人工智能来说,一块CPU不够可以再加一块CPU,一块硬盘不够可以再加一块硬盘,理论上它有无限的算力和无限的存储能力。
第二,寿命。人的寿命是有限的,再伟大的思想也有停止的一刻。但人工智能的寿命是无限的,CPU烧了可以换块CPU,电线断了再换根电线就行。
最关键的,是人工智能的无尽可能。对于人类而言,一般来说有两种知识,一种是可以描述的明知识,比如牛顿定律。一种是可以感受但难以描述的默知识,比如骑自行车的知识。此外还有第三种知识,是人类所没有而机器拥有的,即暗知识,它不可感受,不可描述,不可表达,它是存在于海量数据中万世万物之间的联系,数量极其巨大,人类无法理解。
2016年,AlphaGo击败了人类围棋顶尖高手之一李世石。当时世界围棋积分排名第一的围棋手柯洁说:“我们人类下了2000年围棋,连门都没入。”棋圣聂卫平说:“我们应该让阿老师(AlphaGo)来教我们下棋。”这不是他们谦虚,而是事实。一个人不吃不喝一辈子所下的围棋最多也就是10万盘,而从人类发明围棋到现在,累计总共下了大约3000万盘围棋。而围棋的空间有多大呢?一个格子可以有三种状态,放白棋、放黑棋或者不放,而棋盘总共有19×19个格子,所以它的状态总共有319×19种,大约等于10172,这比整个宇宙中的原子数量还要多。相对于如此庞大的围棋空间,人类的两千多年探索,只是这个空间里一个微不足道的小点,而大部分空间还是一片黑暗。AlphaGo之所以比人类更加强大,并不是它比人类聪明,而是因为它探索了更大的空间,因此找到了更多下法而已。牛顿曾说:“我就像在海边玩耍的小孩,偶尔拾到美丽的贝壳,就高兴不已。但面对真理海洋,我仍一无所知。”现在看来,这不是牛顿谦虚,而是实情。
再看一下艺术。目前人工智能已经可以制作达到专业水平的绘画(图3、图4)和音乐。此外,律师、医生、税务师、咨询师等需要非常专业的知识的“金领”职业,也逐渐出现了人工智能的身影,看起来很可能有一天会被人工智能取代。神经网络之父、深度学习的创始人杰弗里·辛顿(Geoffrey Hinton)接受麻省理工学院的《Tech Review》采访时说:“将来深度学习可以做任何事情。”
③
④
人工智能与类人智能的巨大差距
人工智能真的已经无所不能吗?心理学家考验了当时最先进的人工神经网络模型GPT-3。他们认为之所以GPT-3显得非常聪明,是因为问了它智能的问题。假设问它一些很“弱智”的问题,它会怎么回答?他们问它:“我的腿上有几只眼睛?”这个连没有上过学的小孩都能正确回答的问题却难倒了GPT-3,它回答说:“你的腿上有两只眼睛。”这表明它并不理解眼睛是什么,它只是在做关联而已——人有两只眼睛,腿是人的一部分,所以它认为腿上应该有两只眼睛。这个例子充分印证了爱因斯坦名言:“任何傻瓜都知道,关键在于理解。”GPT-3知道但并不理解眼睛究竟是什么,而理解,恰是我们人类真正了解这个世界、能在这个世界里自由徜徉的关键。
杰弗里·辛顿显然也意识到了这个问题,他表示,我们可以进一步发展人工智能,当一个人工智能能够准确描述一个场景,它就是理解了。真是这样么?假设有这么一个场景:有个人从柱子上狠狠摔了下来,摔倒在地。如果让人工智能来描述这个场景,它会说一个人从柱子上掉下来了。而我们对这个场景还有一个很重要的反应——“疼”。这个区别体现了人类具有一种特别重要的能力,即共情:别人遭受了苦难我能感同身受,而这种感受是自动的。共情不是一种奢侈品,而是一种必需品,因为当一个孩子没有这种感同身受的能力,缺乏同理心,他在小时候就很难对父母产生依恋,很难和其他小朋友玩到一起;在长大以后,会对社交常情缺乏理解,对他人情绪缺乏反应,不能根据社交场合调整自己的行为,有可能做出反社会的行为。假设我们的未来是由一台台没有共情的机器所组建的“自闭症”式的社会,这个社会还能有文明吗?这个社会还能有发展吗?所以,人工智能的奠基人之一马文·李·明斯基说过这么一句话:“现在的问题不是一个智能的机器是否拥有情感,而是不拥有情感的机器是否能拥有智能。”在马文·李·明斯基看来,情感是智能的基础,得先有情感才有智能。
又如在好莱坞电影里,美国的黑手党跑去找一个店家说:“你这个蛋糕店看上去真不错,如果意外发生火灾烧掉那就太可惜了。”请问这个黑手党的话是什么意思?A:请店家做好消防工作,别烧掉了店铺,那样太可惜了。B:请店家交保护费,要不然就要烧掉店铺。对我们而言,答案显而易见是B,是黑手党在威胁并勒索店家。但是对于机器来说,它还很难理解这话背后隐藏的推理和因果。正如古希腊哲学家德谟克利特所言:“我宁可找到一个因果的解释,也不愿成为波斯人的王。”对人而言,我们认为万事万物都是有因果的,而正是这种对因果的执着使我们能够推理,能够把零散的万世万物联系在一起,构成一个个故事。
其实笛卡尔四百多年前就说过:“即使机器可能在某些方面做得和我们一样好,甚至更好,但它们在其他方面不可避免地会失败。这是因为它们不是通过理解而只是根据预设来行动。”这一点,到现在还没有发生本质的改变。
所以,虽然目前人工智能取得了很高的成就,但是和人的智能仍然存在巨大差距,依然没有达到类人智能。那么未来如何实现类人智能呢?我认为,关键点就在于脑科学+人工智能。
举个简单的例子:线虫是一个非常简单的生物,只有302个神经元。但是,麻省理工学院的研究者模仿了其中19个神经元,就完成了自动驾驶这个任务,其参数比传统的大模型足足低三个数量级,只有75000个参数,而这个仿生的人工神经网络对不同道路具有非常高的通用性和可解释性,以及非常强的鲁棒性。仅仅模仿来自简单生物的19个神经元,就可以完成自动驾驶的初步任务,这是因为生物不是靠神经元的数量取胜,而是靠32亿年进化形成的智慧取胜,这项研究模仿的其实是32亿年进化形成的智慧。从这个角度讲,人类的大脑是目前世界上最聪明的大脑,有860亿个神经元,平均每个神经元有3000个连接,它代表着宇宙中在智力上所能达到的最高成就。那么,人工智能为什么不能向人脑学习,以人脑为模板、以人脑为借鉴,来发展出更好的人工智能呢?
对线虫神经元的模仿,只是一个开始,下一步也许我们会去模仿神经元数量百万级的果蝇、更高量级的斑马鱼,甚至小鼠、大鼠、猕猴,最后是人类。仅仅从神经元的数量上来讲,这就是一个巨大的挑战,因为神经元的数量足足差了9个数量级,而还有更多更大的挑战来自机制和算法,以及更多的未知。但是我坚信,脑科学加上人工智能,有一天也许能够造出一个媲美人脑的数字大脑。
小结
莎士比亚说:“所谓过往,皆为序章。”我们的现在是过去的未来,已经写定,但我们的此刻绝对不是未来的过去,因为我们的未来是未定的,取决于我们现在如何做出选择。
人类发明了人工智能,在今天随着算力的增加、技术的进步,它开始有了超越人类的可能。我们现在需要对具有一切可能的未来做出选择。
在我看来,未来大约有三种可能。第一种,人工智能像科幻电影《星球大战》里的R2-D2一样,是人类忠实的伙伴,成为人类非常好的朋友,帮助人类变得更强大。第二种可能,我们构建出一个数字大脑,它的能力可能比现在人类的大脑更强,这时可以实现人机合二为一,把我们的意识、记忆、情感上传到这个数字大脑里,如果CPU坏了就换一块CPU,内存需要扩大一点就加点内存,这样人就可以获得精神上的“永生”。未来学家库兹韦尔在《奇点来临》这本书中认为大约在2045年,这一刻就会到来。第三种可能,就是科幻电影《终结者》里所展示的,人类文明消失。
未来会怎么样,最终取决于我们现在做什么。这很重要,因为我们今天站在了这个进化的节点之上。
《光明日报》(2022年12月24日 10版)
[责编:孙宗鹤]