香港科技大学(广州)熊辉教授:人工智能算法中的不易、简易和变易
算法受到自然界和人类生活的启发,是科技的一部分。由于计算机已被广泛用于解决人类的日常问题,算法在快速发展,对人类和自然界的算法思考也变得普遍。那么,算法的基本原理、性质与中国文化之间究竟有何联系?
作者|杏花编辑 |青暮
12月9日,第六届全球人工智能与机器人大会(GAIR2021)在深圳正式开幕,140余位产学领袖、30位Fellow聚首,从AI技术、产品、行业、人文、组织等维度切入,以理性分析与感性洞察为轴,共同攀登人工智能与数字化的浪潮之巅。
大会次日,香港科技大学(广州)教授,IEEE/AAASFellow熊辉教授发表了题为《人工智能算法中的人性和社会性》的演讲,从算法的人文及社会意义层面进行了探讨。熊教授结合《易经》中的“不易”、“简易”以及“变易”思想对算法在促进人类社会发展、创新中的作用进行了解读。
熊辉教授在此次演讲中,熊教授向与会者分享了一些关于算法中人性和社会性的个人想法,阐述了算法的基本原理、性质与我们熟知的课堂知识、日常经验和中国文化之间的联系。
例如,对于GAN算法中的判别器,熊辉教授是这样解释的:
“就好比有个非常好的老师指导学生学习的内容和学习的方向。”
再如对不同聚类方法特点的形象描述:
“分层级的聚类就像资本主义的市场经济,它在早期和中期会产生一些问题,这些问题还会逐渐累积;K-means是社会主义,兼顾公平但在一些问题上不符合现实。有没有办法把两种方法的优点融合起来呢?这就是我们的‘中国特色社会主义’。”
以及用易经中乾卦的爻辞解释来讲算法的“中庸之道”:
“九五是飞龙在天,古代帝王说自己是九五之尊,因为九五卦是至高点,九六就是亢龙有悔。(我们做算法做到)飞龙在天就完美了,再往上就是Overfitting(过拟合),往下就是Underfitting(欠拟合)。”
熊辉教授的讲解生动易懂,娓娓道来,赢得在座掌声不断。
熊辉教授现为香港科学技术大学(广州)讲席教授,人工智能学域主任;曾在学术休假期间担任百度研究院副院长并主管5个实验室。
熊教授获得的部分荣誉包括AAASFellow、IEEEFellow、ACM杰出科学家、中国教育部长江讲座教授、中国国家基金委-海外及港澳学者合作研究基金、哈佛商业评论2018年“拉姆·查兰管理实践奖”-全场大奖、ICDM-2011最佳研究论文奖、和AAAI-2021最佳论文奖。
以下是演讲全文,AI科技评论做了不改变原意的整理:
1GAN与师生今天演讲的主题是《人工智能算法中的人性和社会性》。此前一年,我一直在美国。这期间,我将人工智能的很多经典算法进行了审视与回顾,以人性和社会性的角度反思了这些算法与人类的关系,感慨良多,于是整理成报告与大家分享。
感谢我之前指导过的17位学生(有一位今年毕业,照片没放PPT上),他们现在大多都在学术界从事研究工作。前三位都已获得终身教授的荣誉,也有一些学生在工业界,还有些在创业。
首先,作为引子我先介绍GAN算法。
我们知道,对抗生成学习方法可以产生很多虚拟数据,比如人脸。此外,GAN还在其他场景中发挥作用,比如"时光机",当我们给出一个人18岁的照片,GAN算法可以预测这个人年老时的样子。
在百度期间,我们进行了一些有趣的工作,例如,走失儿童的问题前些年较为严重,近年已大幅减少,因为天眼系统日趋成熟。但天眼系统还未普遍应用的时候,走失儿童的找回是个大问题。当儿童走失且若干年没有回家,其样貌会随年龄发生改变。
我们的系统可以根据孩子童年的照片,生成如今的样子,然后将当前生成的样貌进入公安系统数据库中比对查找。锁定一些范围的人群后,再进行DNA的测试比对,从而找到走失儿童。这种应用十分有效,并且具有人性和社会意义。
这种算法和人性甚至社会性有何关联?我想先介绍两个概念。
我们在进行监督学习时,有两种思路,一种是Discriminative,即差异性的、差分式的方法。还有一种是Generative,即生成式的。下面我们举例来理解这两种方法的差异所在。
假设一个场景中有两个外国人,如何判断他们是否在使用韩语?
按照Discriminative的思路,我们可以找一些韩剧,观察演员的发音和语气。当我们大概知道韩语的发音模式时,再去听这两位外国人的对话,便可以判别他们是否使用韩语。虽然我们不知道谈话内容,但可以快速判别口语种类。
还有一种是生成式的方法,在同样的场景中,为了判别两位交流者所使用的语言是否为韩语,我们可以报班学习,学会后就可以判断这两位外国人说的是否为韩语,此外还可以对谈话内容加以理解。
这两种方法各有利弊,前者更为快速,后者则需要我们付出时间和精力进行系统的学习。那么,是否有一种学习方式融合两者的优势呢?生成式学习便是这样的方法,这也是其最显著的优势之一。
但这和我们的人生有何关系?
站在个人的层面,我们也需要一个很好的判别器。不同的人有不同的经历和选择,有些人成功有些人失败,主要在于他们使用的判别器。这个辨别器告诉个体在什么时候应该进行怎样的生成式学习。
也就是说,我们需要一个良好的导师。好的导师能让我们走在光明大道上;不好的导师则放任我们自由生成,甚至走在错误的生成式学习道路上。
人生在世,就像进行一次漫长的生成式学习。如果我们有一个好的生成式判别器,这个判别器可以是导师、偶像、家长、甚至是我们追逐的对手。因此,对抗学习融合了生成式和判别式学习的优点,它总是在寻找一个极佳的判别器,让我们走在正确的轨道上,让我们的资源用在正确的方向上。算法之所以有用,很大程度上是因为它从生活中来,抽象了我们的经验和哲理。
2AI与易经当我站在一个比较系统的宏观角度来观察所有的算法时,我用易经的理论对它们进行了梳理,将它们分成三个主要类别:不易、简易和变易。这里,我们所说的"易"是指变化。
“简易”,就是我们常说的大道至简,可以帮助我们洞悉事物的本质。事物的本质就是“不易”,是万事万物中恒定不变的东西。
比如,我曾在百度做过一项开发,帮助我拿到了哈佛评论的奖励。在这个智能化专业系统中,我涉足的是人力资源领域。其实学习人力资源并不困难,它只是一个行业知识基础,任何行业都有其"不易"的东西。
但如果我们的方法不对,学习可能会很难。我们需要把握住人力资源中恒定不变的那些"根本性知识树"。比如对企业、对团队、对个人的管理。如何把握这些根本性的东西,就是我们学习的难点。
我们的算法都可以从这些角度出发对问题进行审视。比如,对于监督式学习,如果想训练一个苹果香蕉的分类器,这之所以在技术上是可行的,主要是因为苹果和香蕉分别有着它们特有的、恒定不变的根本属性。
如果香蕉整天变化,算法就没法对其进行预测和识别。我们的算法主要是捕获这些不变的"根本"。只有捕获到这些,才能实现目标任务。
比如,我曾在百度进行员工的离职分析。一些HR问我这个事情是否具有可预测性?我说肯定可以,因为它有不变的根本——当我们准备离职时,心就不在公司了,工作状态就会发生变化。工作状态改变时,一定会在数据上表现出来。如果能抓住这个根本,就能预测离职。
很多人都觉得CNN不具备可解释性。但是从更高层级来说,黑盒一样的CNN也有其不变的根本。
例如手写字母的识别,对于一个X,我们可能根据心情、疲劳和习惯把X写成各种姿态,但机器判断的时候,其实都可以发现一些共性的东西,比如图中的红色和黄色小块,就算手法、字迹不同,它们也会恒定出现。这些就是Kernel(核心),即不变的根本。
CNN的任务就是去捕获这些Kernel,一旦捕获住,不论字体写成什么样,有这些Kernel在,CNN都可以将其识别。
这就是通过"简易"寻找不变特性的过程。这个例子中,卷积计算就是"简易",目的是捕获"不易"。但由于随机性,一些Kernel的表现并不完美,因此就要进行一些模糊化的Pooling操作。MaxPooling也是一种"简易",目的是让“不易”凸显出来,让Kernel更显眼。
所以,传统的CNN-Pooling组合背后的原理就是通过"简易"寻找"不易"的过程。机器学习另一个常用的工具是集成学习,它的意义是什么呢?
举例来说,一位VIP病人想知道自己是否罹患某种疾病,这时医院会召集多位临床专家共同探讨病情,并通过投票给出最终诊断结果。在很多机器学习竞赛时,我们都会用集成学习来提升算法效果。这其实就是民主投票,让多数人认可的结果作为最终输出。
这样的民主投票好处很明显。比如我有25个基分类器,每个分类器的误差都是0.35,那么集成学习能将误差降至0.06。
但集成学习也是有前提的。想让集成学习的投票成立,每个基础分类器都必须独立。即每个人的决策都必须不受他人影响。
第二个前提是,每个基分类器都要足够聪明。每个人对事物的认识起码要优于随机猜测,这就是投票机制的民主基础。所以一人一票并不一定是好的机制,不谈前提的投票,就是耍流氓。
这两个前提的必要性可以从数学上证明。
因此,从社会学的角度,投票之前要先看人口结构。如果人口结构太差,那投票就相当于让一堆随机猜测甚至低于随机猜测的基分类器投票,其结果会更糟。只有在"足够聪明"的人群中进行投票才是有意义的。
如何判断人群是否足够聪明呢?可以看人群中是否有足够数量的中产阶级,且每个人都要有独立的思考能力和选择投票的权利。
所以,算法和社会的运转形态一样。
有时我会感慨,和懂算法的人沟通十分顺畅,因为可以类比。只要我们认可算法的证明过程,将其应用于社会与人生,就无需赘言。
上面我们介绍了“不易”,接下来说“简易”。
“简易”包含很多东西,比如注意力机制(Attention)、聚类(Clustering)、规则化(Regularization)等等。它们都是“简易”的过程,目的是让我们聚焦到事物的本质——“不易”。
近年,我们一直在说大数据,但不意味着数据越多越好。大数据带来最好的提升是让其"不易"的本质更容易被捕获。但如何捕获这些本质呢?
比如,聚类是最简单的“简易”方法之一,将相似的东西组合在一起,再转化成一些优化问题,让类间的差异最大化,类内的误差最小化。这可以帮助我们进行知识的总结,而总结有助于我们理解。举一个简单的例子:
公司有5000万个客户,老板让我们分析这5000万个用户处于怎样的生态。我们通过聚类分析,可以将他们分类:第一类对钱不在乎。他们可能会买两张同个运营商的卡,还都买了无限流量的套餐,而且就摆着不用。这样的用户在公司眼中是最好的,因为他们付了最贵的代价,却占用最少的资源。
还有一类是需要公司赔钱的用户。他们会最大限度利用套餐中的服务,100分钟的通话肯定用到99.99为止。这样的用户会给公司的运维造成较大的负担。
进行了这样的聚类后,就能对用户归类并分别管理。这个例子的目的是说“简易”的意义。简易有两种方法,一个是分层次的,一个是Partitional聚类。分层的方法主要是产生分层的聚类理解。
它的好处是不用预先设定聚类结果的数量,而且有利于自然形态最终态的形成。这很像原始资本主义的市场经济,让企业自由竞争,互相吞并,不强加干涉,这就是一个自然的状态和结果。
它的缺点是什么呢?由于缺乏全局的指导(损失函数),它在早期和中期会产生一些问题,这些问题还会逐渐累积。这就是分层次的聚类方法的问题。
相对应的,我们一看K-means,就觉得像最初的社会主义形态。在这里我们首先需要一个中央全权负责周围的统治,并且规定好最终的簇数量,然后再按最优函数进行分配。
但其问题在于什么?比如我们国家,汉族人口占到90%以上,但我们却说有56个民族,在使用K-means进行民族划分时,就会有很多汉族人被分成壮族、苗族、维吾尔族人等等,这就不符合现实。
因此,分层级的聚类和K-means的方法各有利弊,能否将其融合起来呢?
这就是我们的“中国特色社会主义”,既能兼顾市场经济的灵活性,又能融合社会主义的大局领导力。
在算法中,为了克服不同数据的规模和密度差异,我们会首先将目标数量定高,然后发挥K-means的公平性特点,保证每个小类中的对象聚于一堂,这就是"兼顾公平的市场经济"。
每个小类再使用分层次的方法进行市场竞争,让它们自由融合吞并,最终大类和小类会呈现更好的、更自然的分布。
除了中国,北欧也将资本主义进行了改良。他们的改良资本主义也是将分层级和K-means的思路进行兼容。总的来说,社会和科学相辅相成、相互借鉴和促进交叉。
但话说回来,“简易”必然带来信息的缺失。信息丢失可能带来一些问题,比如“简易”后,原本三维的信息映射到二维空间,我们看到二维信息时很可能会"浮想翩翩"。因为它的信息本不完整,比如图中的男女,我们看这张图总觉得他们之间有点什么问题,但当恢复成三维的样子,却发现他们毫无瓜葛。
这提示我们不要在“简易”时丢掉了“不易”。最后讲“变易”,这里面的代表性算法是强化学习。
我们都听说过内卷,这里有两个概念,一个是Exploitation,中文就是内卷。为什么有内卷?是因为我们每个人都想活在自己的舒适区,不愿破圈。当很多人都不愿破圈,就形成了内卷。
为了避免内卷,我们要做Exploration,就是去破圈。比如,在给学生寻找研究方向时,我说推荐系统领域已经有内卷的趋势了,我们突破一下,去做人力资源的人才推荐。因此,同样是做推荐算法,研发传统推荐的人和我们没有竞争,人力资源的研究人员也跟我们没有关系,这就找到了新的天地,避免了内卷。
当我们开辟了一个新领域时,就像挖了一个坑,很多人也想涌进来分一杯羹。但不怕,我们继续开辟新领域即可。
因此为了避免内卷,我们要在Exploration和Exploitation之间找到有机的平衡。这个平衡是什么呢?就是强化学习算法。
强化学习算法首先有两个本体,一个是Agent,另一个是环境。Agent能感知环境的状态,之后可以采取一些动作,比如砍树。当树砍光,环境变差,就会通过Reward来惩罚Agent。如此一来,人类就知道树砍多了环境就变差了。因此,不仅不要砍树,还要去植树,从而形成一个循环。人类不断感知环境并采取行动,这就是强化学习算法。
强化学习的优点在于,它能在错误中学习,不断试错迭代,在内卷和探索之间取得很好的平衡。
算法其实很美,人类一直在艺术和科学之间进行拔河。例如,微积分。如果我们想估计一条曲线下的面积,微积分会进行近似。但不论多精确,都会有差异。那么这个差异就可以用艺术弥补。这也是不同机器学习炼丹师效率的差异核心所在。有的人可能上手一天就能完成任务,有的人可能三个月也束手无措。
其根本原因在于"艺术感"上的差异,后者缺乏一点"感觉",即那种看山是山,看山不是山的inside-out的经验和大局观的艺术感。只有当我们了解了算法中的人性和社会性,才能发挥算法的艺术性。
此外,做算法一定要有"中庸之道"。机器学习需要在偏差(Bias)和方差(Variance)之间取得平衡。前者会导致过拟合,后者则欠拟合。
那么,机器学习的"中庸之道"是什么意思?我们不论使用早停、L1/L2损失都是为了达到Bias和Variance之间的最优点。这就像易经的"乾卦",它分为前卦后卦、内卦外卦。
我们知道初九叫做潜龙勿用,意思是我们在学习时不要朝三暮四,就安心学习。学完之后,我们可以初出茅庐,显龙在田,小试牛刀,就像很多老师努力获得“优秀青年”称号。之后有人可能开始得瑟,这时就会进入九三。我们应该做到终日潜潜,也就是小心谨慎,避免枪打出头鸟。
有的人可能一辈子都在下卦,上不到上卦。此时一部分人能够从九三跨越到九四。九四再往上就是飞龙在天。很多古代帝王说自己是九五之尊,因为九五卦是至高点,九六就是亢龙有悔,比如袁世凯,他非要称帝,就物极必反,遗臭万年。
所以,“飞龙在天”就到完美了,再往上一步,就过拟合了,再往下可能就处于欠拟合的状态。因此,如果想真正做好算法的应用,一定要把领域知识和专业知识结合,明白什么是“不易”。领域知识能告诉我们“不易”是什么、在哪里,然后做到艺术和哲学的有机平衡。
雷峰网雷峰网(公众号:雷峰网)雷峰网原创文章,未经授权禁止转载。详情见转载须知。
香港人工智能发展策略研究
杨荃荃 I (香港)一国两制研究中心高级研究主任
林晓燕 I (香港)一国两制研究中心高级研究主任
《紫荆论坛》专稿/转载请标明出处
数字化变革是当前经济和社会最重要的发展趋势,人工智能代表了一个地区数字化水平的关键技术,其发展和应用反映了一个地区的经济发展潜力、社会治理水平以及综合竞争力。近年来香港政府在推动人工智能发展方面做出了显著的努力,包括开放数据、增加科研经费、开设「人工智能及机械人科技创新平台」、设立「智慧政府创新实验室」、构建新一代政府云端基础设施、大数据分析平台等举措都令人十分欣喜,这无疑为未来香港人工智能的发展打下了良好的基础。然而,香港在人工智能发展上仍相对落后于其他地区,一些较根源性的问题仍未得到解决。香港发展人工智能,既是突破自身发展局限的需要,也是融入国家发展大局的需要,应该从宏观政策和具体领域多管齐下,积极推动人工智能发展。
一、人工智能冲击香港就业市场
每一次新技术革命的兴起,都曾引发机器取代人类的担忧,人工智能带来前所未有的生产力突破,其带来的挑战更甚。早在2013年,牛津大学马丁学院的佛瑞教授(CarlBenediktFrey)和奥斯本尼教授(MichaelOsborne)就通过前沿的机械学习方法,对美国就业市场受到以人工智能为代表的新技术冲击,首次进行了定量分析。该研究显示,美国在未来十到二十年,有高达47%的工作面临七成风险可能被智能化技术取代。
2018年,一国两制研究中心与牛津大学合作,用同一算法评估香港情况。结果显示,在香港370万就业人口中,有28%的工作处于智能化的高风险区域(≥70%),有18%的工作处于低风险区域(≤30%)。这意味著在未来十到二十年,香港有约100万就业人口面临高达七成风险可能被智能化技术取代。
有别于一般认为蓝领工种比较容易被机器取代的刻板印象,面临高风险的工种既涉及一般秘书、出纳员、速递员等需要较多人手操作的工种,也涉及如会计、核数师、法务助理等专业服务工种。总体而言,对创造性和社交智慧技能要求越高的工种,被智能化技术取代的风险越低。并且,收入和教育水平与工种的智能化风险成负相关,再次凸显了教育的重要性。
工种被取代风险高低的影响因素包括三类技术瓶颈,分别对应九个变量。「手工灵活度」这一变量在高风险区域得分更高,说明当某一工种有更多人手操作要求时,其被智能化的风险也更高。比如,速递员智能化的可能性高达88%,现实中许多物流企业已采用机械人分拣和无人机派送。此外,程序化的、较少创造性的工作风险也较高,如会计师和核数师面临被取代的风险高达95%。现实中,四大会计师事务所德勤、普华永道、毕马威、安永都在这两年先后推出了机械人程序帮助数据处理和财务分析。
其他变量,包括协助和照顾他人的能力、艺术性、社交洞察力、游说能力、原创性和谈判能力,则在低风险区域录得更高得分,意味著相关技能要求更高的工作面临被取代的风险较低,或是在更远的未来才会被智能化。对此,日本学者井上智洋在其著作中进一步将「社交智慧」区分为「经营管理」和「款待服务」,指出有三类领域的工作是人类强势所在,即创造性工作、经营管理工作,以及款待服务工作。他同时指出,要在与AI的竞争中脱颖而出,必须超越平庸,「到2045年,只有高度创造力、款待服务技能的人类,才能胜出」。需要复杂管理、社交和照顾他人能力的工种,如教育行政人员、护士、餐厅和酒店经理、首席执行官等,其风险都低于10%。像信息及通讯科技研究与产品开发专业人员这样需要创造性智慧的工种,也处于较安全区域。
分析香港经济结构,四大支柱产业(金融服务、旅游、贸易与物流、专业服务)虽然贡献了香港GDP的56%,却只雇用了47%的就业人口,这些工作,平均而言,面临更高的被智能化技术取代的风险。而不容易被人工智能冲击的产业,比如文化艺术、医疗、教育和创新科技,只贡献了8%的经济和11%的就业。也就是说,当面对技术进步可能带来的技术性失业,香港经济承受冲击的风险面比较大。不仅如此,香港的持续教育参与率比其他主要发达地区低,劳动人口投入持续教育的人数连年下降,缺乏技术升级,劳动人口面临技术冲击的风险承受能力较弱。而香港的科学基础教育较弱。根据国际水平测试,与其他主要发达地区相比,香港中学生的数学和科学能力竞争力不强,科技人才后继不足,制约长远人工智能产业的发展。
有鉴于此,一国两制研究中心早在2018年就建议香港应该顺应人工智能大趋势,积极应对人工智能对就业市场的冲击,帮助经济和社会转型,并提出了十大政策建议,第一条就是制定全面的人工智能发展策略。
2020年11月23日,2020年「世界互联网领先科技成果发布活动」在浙江义乌举行。图示华为技术有限公司代表介绍「智能体:智能升级技术参考架构」(图:新华社)
二、香港人工智能发展在国际上相对落后
2018年报告发布之后,香港社会出现了一股讨论人工智能的热潮,香港政府亦积极推动创新科技发展,如争取人工智能开放平台落地香港、通过政府采购扶持本地科技企业、帮助企业使用创新科技和吸引人才等。近年来香港政府在推动人工智能发展方面做出了显著的努力,包括开放数据、增加科研经费、开设「人工智能及机械人科技创新平台」、设立「智慧政府创新实验室」、构建新一代政府云端基础设施、大数据分析平台等,令人十分欣喜,这无疑为香港人工智能未来发展打下了良好的基础。
然而,香港在人工智能发展上仍相对落后于其他地区,一些较根源性的问题仍未得到解决。比如,香港政府虽然将人工智能设定为四大创科发展范畴之一,但至今没有一份完整的发展蓝图,在推动技术发展和应用上较为被动,初创生态仍较薄弱,香港的创科文化和企业生态也存在明显制约。人工智能是一项赋能百业的通用技术,更是国际竞争的关键领域,如果香港未能及时规划推动人工智能发展,利用技术进步提升现有竞争力,香港未来的发展将大大受限。
其实,全球已有二十多个国家重视人工智能的战略意义,并制定了国家人工智能发展战略。可以根据国家的经济规模、科技基础、人工智能发展程度以及对香港的借鉴程度,分别分析两类国家和地区,比较这些国家的政策,同时可以参考中国内地城市发展人工智能的一些经验,总结出对香港的借鉴意义。
第一类「大而全」的国家包括加拿大、美国、中国、日本和英国,它们的工业基础良好、经济总量较大,且人工智能技术水准领先,其目标都是力求保持或争取其在全球人工智能领域的领导地位。这类国家的政策全面而深入,一定程度也说明了人工智能的方向和必要的发展路径,对香港追赶国际领先水平有重要的参考价值。包括:制定了国家最高级别的发展规划、增强本国前沿技术水准、营造有利的创新环境、重视人才培养;通过率先制定相关法律、技术标准和伦理道德的指引,力求在制度和价值观上保持影响力;在政府和议会各个层面设立了专门推进人工智能发展的机构组织。
第二类「小而美」的国家包括韩国、新加坡、以色列和阿联酋,在经济发展情况上与香港有类似之处,属本地自然资源稀缺,对外依赖性大,但有较好的商业和科技基础,重视人工智能发展,策略进取,表现出很强的竞争性。这类国家更加专注于突出本国的优势领域,政策目标更加明确,也更注重政府对企业的服务,以及对国际人才的吸引。
在国家的层面,由于当前人工智能尚属成长阶段,各国都倾向抱持开放态度,鼓励技术发展和产业应用,支持先把市场做大,因此现时各国的政策更强调刺激创新要素的供给以及营造良好的环境。但随著未来全球市场更加成熟,竞争更加激烈,预计政策会逐渐增加对市场需求的调节,考虑重点扶持本国社会需要的应用领域,通过政府采购增加对本国企业的支持,或在市场准入上对外资加以限制。例如德国政府于2019年11月宣布收紧非欧盟国家收购该国科技公司股份的政策,其中人工智能是重点关注领域。这些政策体现出对待人工智能,政策制定者必须保持敏感度和弹性。
同时,绝不可忽略中国内地城市发展人工智能的决心。中国作为应用人工智能程度最高的国家,北京、上海、杭州、深圳等城市在人工智能发展方面积极布局,是人工智能发展领先的城市。其中,上海为抢占先机,出台了非常进取的发展政策,成功吸引了亚马逊、微软、商汤、阿里巴巴、腾讯、华为、科大讯飞、旷视等重量级人工智能企业将研发总部设立于上海。对比香港政府在智慧政府方面的举措,除了两地同样重视构建数据库和数据开放平台等基础性措施外,上海政府在推动和参与市场方面更主动,积极搭台和引导需求,例如发布应用场景、设立人工智能投资基金等,这些做法都值得香港借鉴。
反观香港,多年来创科发展仍然未如理想,尽管历届香港政府不乏推动创科发展的努力,但政策措施较为零散。缺乏长期规划使政府各部门未能就共同愿景做出调整、形成合力,也未能在市场上起到主动引导和创造需求的作用,在吸纳业界和公众参与方面存在不足;缺乏跨部门协调以及缺乏考核指标;对创新要素投入的支持被动而短视,行政审批缺乏灵活性且效率不高。
三、构建和完善香港人工智能发展的政策环境
(一)政府策略思维需创新
要突破瓶颈,香港政府需要认识到人工智能底层赋能的性质、产业生态各要素之间开放而密切的关系、对新基建的要求以及治理的挑战。
人工智能的技术特点和商业化模式正在打破一直以来科技发明和应用的模式。开源软件框架、自动化机械学习、「人工智能平台服务」等技术和服务的出现,大大降低了企业应用人工智能的门坎;产业生态呈现出开源开放、服务导向、平台化、定制化的特点,科学理论和应用发明也从过去依靠个人和组织各自进行、有限协作的模式,向著跨领域、共享数据和资源、相互学习、藉助开放平台赋能的模式过渡,对行业生态带来深远的改变;企业之间的竞争正在从专门化或垂直领域的竞争转向商业网络、独特数据和复杂分析的竞争。
这些变化一日千里,令有意搭上人工智能浪潮的政府面对很多前所未有的挑战,例如作为人工智能三大核心要素之一的数据,既有的法律和监管框架已无法满足目前数据治理的诸多问题。近年,数据治理在技术和法律上已逐渐得到实质性的推进,数据治理的全球合作已成为国际共识。各国作出的共同努力证明政府层面的高度参与是发展人工智能的必要原则之一。因此,传统资源分配的方式和政策制定的考虑将与过往有所区别:为推动产业发展,以求真正释放人工智能的潜能,必须拥有丰富而活跃的人工智能产业生态;政府需要突破过去相对封闭的产业经济结构去思考政策设计,重视数据作为核心资产的地位,公共服务需与新的产业生态相适应;政府应采取更积极主动的策略,在增强安全度、透明度和信任感上做出努力。
(二)政府定位要准确
为迎合人工智能发展需要,香港首先要面对的是政府角色定位的问题。一直以来,香港在经济发展问题上都信奉「小政府、大市场」原则,然而,面对人工智能的颠覆性以及产业结构的现状,香港政府有需要转变角色,不应只是创科的促成者(Facilitator)和推广者(Promotor),而应更加积极主动地承担「宏观领导者」和「需求创造者」的角色。
第一,香港政府可以主动承担推动人工智能发展的领导者角色。人工智能发展蓝图的制定必须具有前瞻性、全域性和可操作性,需要政策制定者对人工智能和社会治理都有专业和深刻的认识,也需要组织在沟通机制、组织文化、人员培训等方面做出改进。具体分析现行政府组织架构存在的困难可以发现香港政府内部缺乏一个发展人工智能的顶层单位;借鉴美国、英国、日本等国增设人工智能专责部门的经验,以及新加坡为推行智慧国(SmartNation)策略而经历的组织架构调整,香港政府可在创科局下增设人工智能办公室。这个办公室应为外聘专家团队,全权负责人工智能发展蓝图的制定,为加强各部门协调和沟通,蓝图上交行政长官及最高层讨论通过后,经创新科技督导委员会落实到各局贯彻推行。
第二,香港政府可以主动承担需求创造者角色。人工智能可帮助政府预测需求和趋势,提升公共服务,政府反过来可引导市场规范发展以及帮助本地初创企业打开市场。尽管政府近年加大对数码基建的投入,但仍然停留在电子政府(E-Government)层面,缺乏对数据价值的认识,电子政府也未能从公共服务使用者的需求出发进行功能设计,导致公共服务未能升级成为真正的数字政府(DigitalGovernment)。香港政府应借鉴新加坡的成功经验,围绕市民和企业的需求,建立以数据为驱动的智能政府架构,从法律规范、道德指引、社会参与、文化培育、技术方案等方面著手,制定全面的智慧政府策略;实现从电子政府到智能政府的转变,智能政府策略需认定数据作为核心资产,建立数据驱动的政策制定、公共服务、部门管理以及创新,释放数据价值。
(三)数据治理要突破
数据是人工智能发展的先决条件。如果缺乏可信赖的数据治理,安全可靠的数据开放只能沦为空谈,数据经济也无从谈起。尽管香港良好的信息科技基础提供了大量优质数据,但由于缺乏有效的开放和利用,数据的可及性和可信度不足,仍然制约了人工智能的发展。
香港数据治理需首先解决私隐保护条例更新的问题。国际上近几年已就隐私保护和数据安全立法,具代表性的两部数据治理法律——欧盟的GDPR和美国加州的CCPA,都强调增强数据当事人的控制权以及加强对数据用户的问责。因此,香港完善数据治理,首先需要政府以前瞻性的原则,尽快完成《个人资料(私隐)保护条例》修订,包括加强对数据当事人的控制权及对数据控制者以及处理者的问责。同时,建议政府成立专门的数据治理委员会,从领导力和愿景、执行机制、规章制度、数据基础设施、数据架构、数据价值周期管理等方面,制定全面的数据治理策略。数据治理委员会需建立与业界的紧密合作,推动健全香港数据治理规范,争取推动香港规范成为国际标准;数据治理委员会还需承担对公众的科普教育,以消除公众对人工智能原理及其他问题可能产生的认识偏差和不安。
(四)资金、产业、人才互为支撑
2020年8月26日,香港特区行政长官林郑月娥到访深港科技创新合作区深圳园区。图为林郑月娥(左七)与国务院港澳事务办公室副主任张晓明(右七)、深圳市市长陈如桂(左四)、创新及科技局局长薛永恒(左二)及政制及内地事务局局长曾国卫(右四)在粤港澳青年创新创业工场与在当地创业的香港青年合照
为推动人工智能发展,还需要资金、产业及人才全方位的政策配合,以调动各有利于创新的要素。
第一,本地初创企业对资金支持的需求贯穿企业成长的各个阶段。建议参考以色列的创业投资引导基金,成立创投基金。香港可以动用充裕的外汇基金中的一部分成立创投母基金,下设多个子基金,与其他外部私人募资投资者合作投资具潜力的本地初创企业,其中一定比例必须以人工智能技术研发或应用之本地初创企业为投资对象。
第二,香港在人工智能领域的研究水平名列世界前沿,但需要与商业有效结合才能转化为生产力。一方面,建议香港政府在审批资助的人事架构中引入能深入理解技术前景的专业人员,加速审批流程,以促进官为学研的有效协作。另一方面,香港需利用内地完备的产业链和庞大的市场,抓住粤港澳大湾区的发展机遇。建议在河套深港科技产业园划定一定区域作为人工智能产业园,为本地人工智能企业提供应用场景和试验专区。
第三,人才是人工智能发展的关键,吸引和培养科技人才,应著重短期和长期政策配合。建议政府:推出「认证科技教育者计划」,为教师提供科技教育培训;为学校聘请科技顾问提供补助,帮助教师整合科学内容,为学校提供科学教育规划、培训和持续性专业指导;成立香港人工智能学院,与国际知名人工智能企业形成定向培养机制;增加人工智能的硕士和博士课程,为已掌握一定信息科技基础的人士提供升级进修路径;利用考评局数据和知识图谱技术,开展自适应学习试验计划(可在官立学校或创科领先的办学团体中试行),优化教学资源分配,为创新教育铺路;将科技科目设为小学核心课程,更新中学大纲,理顺升学衔接;吸引国际人才方面,可参考英国推出创业家(innovator)签证,由政府背景的企业孵化器等机构出具担保,推出为期三年的创业家签证。
四、香港人工智能发展的具体可行方向
除宏观政策外,值得注意的是人工智能技术并不是一个独立的产业,而需要藉赋能百业成就更多愿景。因此,在具体探讨香港人工智能发展的可行方向时,可以本地两大优势产业(金融和医疗)作为突破口,探讨如何利用人工智能奠定香港在区域中的竞争地位。
图表1:AI+金融
数据来源:国际货币基金组织《金融科技体验现状》,一国两制研究中心整理(一)以「AI+金融」增强香港金融科技中心地位
1. 香港「AI+金融」发展现状
金融行业的营运模型中有不少环节和业务都亟待更高效的解决方案,是潜在的AI应用场景(图表1)。而且金融业内的标准化程度高,大部分的金融信息都是统一格式的数字化数据,海量的高质数据有利AI技术、知识图谱和机器学习系统的发展和应用,是AI+金融发展过程中极大的天然优势。金融业的AI采用率也很高,仅次于高科技行业和通讯行业。
作为国际金融中心的优势基础潜力、经济结构依赖金融业的危机感,及为达到普惠金融(InclusiveFinance)的社会抱负,是香港发展「AI+金融」的主要推动力。然而,在传统金融行业的基础之上,香港作为全球三大金融中心之一的优势并没有拉高香港在全球金融科技相关排名(图表2)。
图表2:全球金融及金融科技相关排名
而且,打造一个国际金融科技枢纽,不是金融与科技的简单结合,而是需要对整个金融行业加入新的催化剂。香港本地中小型金融科技公司是结合金融与科技的催化剂,它们机会成本较低,更愿意冒险,可填补行业创新的空隙,催使参与者作出响应和产生动力。现时,香港的金融科技生态圈已经形成一个相互联系的网络,然而当中也不难发现本地金融科技公司的成长稍有落后,与香港完善、现代化和先进的金融体系有明显落差,以致制约了整个金融行业以人工智能技术升级转型的速度。
本地创科企业不时反映困难重重。虽然AI+金融的应用已相对普及,市场也认识到这些前沿技术有机会带来更大回报和更好的服务,但是市场对于监管的不确定性、数据安全和隐私安全有顾虑,反映出香港市场结构成熟度不足,导致行业前景不明朗。其中,政府投入不足更使创科企业和创业者缺乏信心。例如,金融管理局发放的八个虚拟银行牌照持牌人中,只有一家是初创企业(WeLab),其余由银行、保险公司和科技巨头包揽,有碍本地生态健康发展。
2. 香港发展「AI+金融」的建议
突破公众信心问题的切入点在于香港政府的角色定位。作为社会上最大的服务使用者,有责任以身作则,更具体地给予本地金融科技企业建立实绩、口碑及管道的机会。
对比香港和新加坡两地政府在公共服务中采纳创新科技的措施和机制可以发现(图表3),新加坡政府的采购方式和范围更贴近创新市场需要,财政和行政力度比较大和完备。新加坡与香港有类近定位和高度可比性,香港应从中学习,以制定更有效的支持政策。
图表3:香港和新加坡政府于公共服务中采纳创新科技的措施和机制对比
因此,建议香港政府:第一,构建一个由上至下的方针,先了解现时公共服务的智慧化程度,制作公共服务智慧化图谱,为政府部门的智能升级设定一个时间表,制定一些分阶段的、硬性的指针和目标,以开放更多应用场景为目标,制定开放应用场景的路线图。第二,政府可以考虑设定分解采购合同的「最佳竞争点」,将采购合同分解成小型项目来吸引初创企业,强制导向公共部门在采购符合「最佳竞争点」合同时考虑本地中小型创科企业,或透过规定中标企业分拆合同予分包商(Sub-contractor)时必须有一定比例授予本地初创企业。第三,政府部门可以透过更简易的报价程序完成采购,方便人手和资源短缺的初创。政府应就报价程序作出改革,发挥程序简易的优势,加入创新优先的原则,建设崭新的初创向政府销售的快速通道。第四,向初创采购对初创的最大价值在于能够测试产品,然后为其履历添上亮丽的实绩,开辟更广阔顺畅的商机路径。建议连系粤港澳大湾区的建设,建立具体机制让本地和大湾区的企业参与,为「智慧政府创新实验室」的后续提供商业市场的落地场景。
(二)以「AI+医疗」建设香港医疗人工智能应用中心地位
1. 香港「AI+医疗」发展现状
医疗产业一直勇于寻求新科技的协助。过去医疗科技集中在医疗器材、医疗硬件和消耗品上,如3D打印义肢、体外血液循环系统和利用机器延续寿命等。近年来,医疗科技逐渐形成以大数据、可穿戴设备和健康数据分析为特征,旨在提供更实时的实时护理。而未来,在新一波科技浪潮中,医疗科技将会向医疗机械人、AR和机器学习发展,可运算出具预测性的结果,达到用于预防和早期干预的目的。
在香港推动医疗人工智能技术的研发,首先需要面对本地市场狭小的问题,其次是解决「AI+医疗」欠缺政策依归的问题。事实上,香港具备以「AI+医疗」建设香港医疗人工智能应用中心(HealthAISolutionHub)的可能性。这是一个「AI+医疗」发展的战略性愿景:其概念定位是希望透过增强香港医疗领域内发展「AI+医疗」的优势,吸引全球资源汇聚香港交流,起到集聚性效果,推进更多「AI+医疗」的研发和应用的落地,为可以再次输出国际,提升香港「AI+医疗」的全球影响力,同时惠及香港医疗系统。
香港拥有成为全球智慧医疗解决方案中心的潜力,包括全球难得的高质医疗数据、医疗复合型人才和资源整合能力。香港的医疗数据达到一定程度的可得(Available)、可及(Accessible)、可信(Assurable):香港的公立医疗服务在整个医疗体系中扮演著重要的角色,承担了全港近90%的住院服务。香港的公立医疗机构由医管局统一管理,除拥有一个统一的患者个人数据管理系统,记录了所有到医管局求诊患者的个人资料外,还有一个记录病人病历的「临床信息管理系统」。该系统早于1995年供所有医院和医生使用,收集了覆盖所有香港公营医疗机构的医疗数据,超过一千万名病人医疗记录,由专业的医护人员录入,涵盖各类病人医疗资料,包括临床记录、药物记录、化验报告和放射检查结果及影像等。这份大数据的特征难得,具有进一步挖掘的价值,从而支持香港医疗能力的提升,以及为医疗人工智能技术的研发提供支撑。
显然,香港最具差异化的优势是其医疗数据,而其妥善开放将会是首要问题。针对此问题,可以参考英国曾推动实施的Care.data项目,探索充分发挥香港在医疗大数据方面优势的方法。该项目2012年开始,在推动医疗大数据价值发掘方面走在全球前列。它以立法形式确定了具体的运行机制;设立了专门的信息中心(TheHealthandSocialCareInformationCentre,HSCIC)进行统筹管理,作为医疗数据管理的专责机构;还通过《医疗和社会保健法案2012》(TheHealthandSocialCareAct2012),法案赋予了HSCIC从家庭医生处获取数据的权力。可是,因缺乏公众宣传、参与和透明度,过于依赖技术手段,及在法规的对接问题上存在矛盾,项目最终于2016年在公众反对和批评的声音中结束。由此案例可知,为充分发挥医疗大数据的策略性价值而进行的数据开放和共享,需要全面考虑不同持份者的态度和可能受到的影响。其中,获得大众的信任是重要的前提,而透明及有效的数据管理机制是建立信任的关键,为在这一过程中做好全流程的数据安全管理和私隐保护。
图表4:AI+医疗
数据源:一国两制研究中心整理2. 香港发展「AI+医疗」的建议
第一,整合多源医疗数据,引导私营范畴的医疗服务提供商参与,重组数据的互操作性(interoperability)。可以设立独立的医疗数据管理机构,由前文建议设立的数据治理委员会领导,负责医疗数据的管理、开放、保护,以及与第三方机构的数据合作等事宜。更新合作对象的要求和标准化数据使用协议,加速和简化数据共享的行政手续。对商业机构采取付费使用数据的安排,规定此数据使用费收入将回馈政府,重新受益用于公共医疗服务,或用于有关公众利益的事业中。
第二,实施对数据用户的问责制度,由数据用户对私隐保护和数据安全保护负主要责任。同时为患者保留其退出权,并让市民知晓和明白具有这一权利。建议参考和引入国际准则,如美国食品药品监督管理局(FDA)建立了一套迭代的准则,为医疗设备软件(SaMD)的快速开发进行预先认证。政府也可考虑寻找合作医院发展试点型的「智慧医院」,探索智慧化技术能够产生的实际效果,为「智能化」医疗的普及提供本地化参考依据,也为产业提供一个落地实景,有助为延长产业链作准备。
本文发表于《紫荆论坛》2021年1-2月号第51-60页