科学网—人工智能解决数学题:“大力未必出奇迹”
人工智能解决数学题:“大力未必出奇迹”
大模型可能是人工智能发展的一个突破口,但参数量并非是通向人工智能的唯一途径。图片来源:unsplash
■本报记者张双虎
日前,人工智能研究机构OpenAI的研究人员使用新方法,训练出一个会做数学题的系统——GPT-f。它能像真正的学生一样,解决90%的数学应用题。在提供的数据集中进行的小样本测试表明,9至12岁学生测试正确率为60%,该系统测试正确率为55%。
这个仅60亿参数的GPT-f,在解决数学应用题方面,效果直逼参数规模高达1750亿的GPT-3。在业界认为人工智能的大模型时代已经到来的背景下,这是否能引发大家的一些“冷思考”?
不俗的成绩
去年6月,OpenAI推出GPT-3。这个能完成对话、搜索、写作等多项任务的大模型一面世就引起轰动。尤其在文本生成方面,GPT-3的表现几乎可以与人类的作品媲美。
在训练GPT-f时,研究人员创建了高质量、高多样性、中等难度和自然语言的答题形式的数据集(GSM8K)进行反复训练。测试结果发现,这个仅60亿参数的GPT-f准确率翻倍,甚至优于拥有1750亿参数、采用微调方法的GPT-3模型。
“GPT-f能达到这个效果还是有些出乎意料。”清华大学人工智能研究院常务副院长孙茂松对《中国科学报》说,“但它并未提出非常深刻的问题,没那么让人惊喜,也不必做过度解读。”
孙茂松解释说,让人工智能解决数学应用题还是有难度的。当前的人工智能技术都是基于大数据的一种概率式推断模型,其内部并没有深刻的理解机制。比如,曾轰动一时的GPT-3本身是个语言模型,它看过大量人类创作的作品,包括互联网上发表的文章,所以它能在写文章、自然对话、语义搜索甚至自动编程等方面有着不俗的表现。然而,它很难完成需要精细理解的多步骤推理任务,比如解决小学阶段的数学应用题。
“做数学应用题首先要正确理解题意,才能把题做出来。”孙茂松说,“虽然实现这一任务对人类来说很简单,但对人工智能而言目前尚缺乏一个有效的理解机制,尽管类似GPT-f这样的模型可以推导出正确的答案,但难免也会产生严重的逻辑错误。”
让人工智能在复杂逻辑条件下,具备解决问题的能力,模型必须具有判别自身错误的能力,并谨慎地执行之后的过程。为此,OpenAI的研究者用一个训练“验证器”来判断模型完成的正确性。
OpenAI的GSM8K数据集由8.5K高质量小学数学应用题组成,每个问题需要2到8步解决,涉及加减乘除运算,难度近乎9至12岁小学生的数学题。在测试阶段,这个验证器会生成多个候选解决方案并选择排名最高的一个。
“我没想到GPT-f能得这么高分,即使它取得30多分我也觉得合理。”孙茂松说,“它能把这件事做得跟小学生及格分数差不太多的确很不容易。”
不公平的对比
时至今日,参数规模达1750亿的GPT-3仍被人们视为“大力出奇迹”的结果。而仅凭新的“验证”方法,只有60亿参数的GPT-f就在数学“考试”中胜出。大模型的算力和数据的“千斤”,真的不如算法“四两”么?
专家认为,用更小的参数规模达到和大模型差不多的效果的确不错,但仅拿数学“考分”来对比并不公平。
“从论文上看,两者方法上并没有本质的不同。”孙茂松说,“GPT-f是针对特定的任务做了调整,针对数学语料做过专门训练,用验证的方法反复‘折腾’数据,让它发挥较大的效益。”
与之相比,GPT-3是自然语言处理方面的模型,就像一个擅长写作的“文科生”,做数学题不是它的强项,它也没有专门针对这个问题的语料库进行训练。
“这(GPT-f)算是一个算法的创新吧。”中科院自动化研究所模式识别国家重点实验室研究员王金桥对《中国科学报》说,“GPT-3相当于一个通用模型,有比较开放的数据集,里面数据杂乱,什么都有。现在GPT-f虽然只用8.5K的数据集和60亿参数,但它的数据质量特别高,而且针对于小学数学题进行训练,相当于一个专有领域的模型。”
虽然用了更小的参数量,但GPT-f在算法和数据两个方面都做了改善。为解决逻辑关系,GPT-f加了一个验证模块,但同时也带来了新的问题。
“现在它仍然缺乏可解释性。”王金桥说,“即使我知道它验证的答案是正确的,但不知道验证的中间步骤对错,不知道它是怎么推理出来的。”
OpenAI在论文中所展现的10个数学实例也表明,使用验证方法比单纯扩大参数表现得更加智能,但缺点是并不稳定。
专家认为,任何一项技术的发展,都要经历兴起、成熟再到落地的过程。从发展规律来看,大模型刚刚兴起,大家正在围绕模型体量及模型体量带来的推动效应展开探索。从目前发展阶段来说,这种拥有巨量数据和更强算力的大模型表现“更突出,贡献还是会更大一些”。
“大模型可能是人工智能发展的一个突破口,但参数量并非是通向人工智能的唯一途径。”清华大学教授、智源研究院学术副院长唐杰告诉《中国科学报》,“OpenAI60亿参数的GPT-f表现出众,也说明算法、算力或数据任何一方面都有可能在未来发展中,在特定条件下取得优势。”
不可能精通所有领域
在人工智能技术解决数学问题方面,我国也有类似的研究,但国内多是用传统的小模型并针对具体问题进行研究。研究者要先知道问题是什么、其关键的逻辑关系是什么,然后针对这类题设计方法,“分而治之”。
这相当于一类题型用一种方法解决,而GPT-f的强大之处在于它能用一些中间标签进行验证推理,并根据中间结果总结出一套规律,应用于所有的数学题。
“从GPT-f的表现可以看出,高质量的数据资源非常重要。”王金桥说,“数据能让人工智能‘见多识广’。”就像人类想取得好成绩需要“刷题”一样,人工智能也需要见识各种“题型”(数据),然后从中总结规律和学习推理关系。
“对于提升人工智能效果来说,首先是数据规模要大、质量要高。”王金桥说,“其次,还要有大的参数规模,这样才能避免训练出一个‘死记硬背’的数学模型;第三,我们要利用计算中心的算力,发展专用和通用两类大模型。”
王金桥解释说,从利于实际应用的角度出发,目前应针对某一专门领域或场景来设计模型,每个模型解决一个或一类任务。
“即使像人类这样,有非常厉害的大脑,并最终拿到博士学位,也只能是某个小领域的专家,不可能精通所有领域。”王金桥说,“‘学得越好、领域越小’,大模型也是这样,因此要分两个层次发展,一是针对某一行业或领域的知识、数据形成的专用大模型;二是发展通用普适性的超级大模型。”
人类在掌握某项技能时,有个“1万小时”定律,即要成为某领域的专家,至少要学习和练习1万小时。同样,人工智能模型也需要针对某一领域的知识、数据进行专门训练,并结合大的算力取得优异的表现。
王金桥认为,现阶段发展人工智能时,还应充分利用国产化的算力,如中科院自动化所面向图像、文本和语音三模态的“紫东太初”、智源人工智能研究院的“智源悟道”、鹏城实验室的“盘古”等,并结合算法和数据方面的进步,推动通用人工智能的发展。
相关论文信息:
https://arxiv.org/pdf/2110.14168.pdf
https://github.com/openai/grade-school-math
《中国科学报》(2021-11-18第3版信息技术)人工智能:模型与算法
人工智能(ArtificialIntelligence,简称AI)是以机器为载体所展示出来的人类智能,因此人工智能也被称为机器智能(MachineIntelligence)。对人类智能的模拟可通过以符号主义为核心的逻辑推理、以问题求解为核心的探询搜索、以数据驱动为核心的机器学习、以行为主义为核心的强化学习和以博弈对抗为核心的决策智能等方法来实现。
本课程成体系介绍人工智能的基本概念和基础算法,可帮助学习者掌握人工智能脉络体系,体会具能、使能和赋能,从算法层面对人工智能技术“知其意,悟其理,守其则,践其行”。课程内容包括如下:人工智能概述、搜索求解、逻辑与推理、监督学习、无监督学习、深度学习、强化学习、博弈对抗。
来而不可失者,时也;蹈而不可失者,机也。人工智能不单纯是一门课程、一手技术、一项产品或一个应用,而是理论博大深厚、技术生机勃勃、产品落地牵引、应用赋能社会的综合生态体(AIecosystem)。为了加强实训,课程中安排了以搜索求解为核心的黑白棋AI算法、以线性回归为核心的图像恢复、以深度学习为核心的垃圾分类等实训题目。
注:
1)课程相关资料可访问“智海(www.aiplusx.com.cn)”和“智海-Mo平台(momodel.cn)”。
2)本课程对应ppt可以如下免费下载
链接:https://pan.baidu.com/s/1gIweAOKUDAnON5SZat03Kg
提取码:ai22
人工智能助力三维几何自动化建模
传统数字化建模软件的局限无论是工业、科研还是生活娱乐中,越来越多的场合都离不开数字化三维几何建模技术。
传统的数字化建模方法需要工程师熟练掌握并使用非常专业的建模软件,如:3DMAX,AutoCAD等。这些软件基于几何算法,便于建立形状规则或变形规律的几何模型;
但对于不规则的复杂几何形状(如:人体组织)等就显得相形见绌。但无论是工业中精密部件的受力分析,还是医疗上3D打印骨组织替代物都需要高精度和还原度的数字几何模型。工程师通常需花费总工作量1/3以上的时间去完善模型提高精度,费时耗力。
逆向工程技术的诞生随着逆向工程技术的深入发展,对于复杂不规则几何结构的快速化建模出现了一道曙光。复杂几何形状,如人体骨骼等均为几何先知结构。现有的光学、红外、超声和运动传感器都可实现非规则几何形状物体运动和边界的捕捉,并进行反向数字化建模。
例如:MIMICS软件就是利用识别算法对医学影像(CT等)中不规则的组织轮廓进行识别和提取,再进行几何重构和建模。
但是,现有的影像识别算法均是根据各像素间的明暗、灰度、色彩等信息差异对影像中不同性质的物体进行边界分割的。这种方法的优点在于计算量小和速度快;但缺点是其识别精度受影像的清晰度和复杂程度,以及被识别物体在影像中的区分度影响显著,抗干扰能力较差。因此,在应用中很少有软件可一次性精准识别目标影像的轮廓,大多需要后期人为加工和修正。
人工智能深度学习技术的应用随着计算机技术的不断发展和现代化人工智能深度学习框架的诞生,一场关于人工智能图形影像识别技术的革命悄然发生。
算力、算法和大数据是人工智能技术的三要素。其中,算力和大数据为外部可获取因素;算法则是其内部核心优势所在,对识别精度起决定性作用。而池化算法就是影响识别精度的最关键因素之一。近来,国内学者宋振华博士及团队成员就对如何利用池化算法的改进来提高人工智能深度学习的识别精度和实现复杂几何结构的自动化建模进行了深入研究。
该研究综合了传统的均值、最大值和随机池化算法的优点,提出了一种既可有效保留背景信息,又能突出前景信息并保持较高随机性的新型池化算法。该算法根据特征区域上激活值的稀疏性,利用特殊的可调节控制函数获得相应的特征代表值,再根据该区域内各个激活值与特征代表值在高斯分布上的分布关系进行权值分配。在得到每个激活值的权重后,对其按权重进行随机取值作为池化算法的输出值。最终利用稀疏性随机池化的卷积神经网络来对影像进行特征提取并联结分类器实现分类和识别。该算法不仅能优化特征提取阶段的特征信息,还可避免模型在训练阶段陷入局部最小值,从而增强了识别的泛化性与精度。通过标准数据库的比对发现,利用该算法的深度学习Caffe框架的影像识别精度明显优于传统算法。
在应用案例中,经过对应用该算法的深度学习Caffe框架的数据训练,其成功实现了从胸部CT影像中自动化识别和提取胸骨组织。同时,在对被识别和提取的骨组织影像进行排序和整理的此基础上,该研究优化了体绘制算法并利用OpenGL渲染技术实现了胸骨组织的几何自动化建模。
从而,算法和程序实现了从胸部CT影像的导入直到相关骨组织的识别、提取和几何重构建模的所有工作自动化完成。基于人工智能深度学习的高识别精度,上述所有识别和建模工作均可一次性精准地自动化完成,无需额外的人工修正。
相关研究成果已于2018年6月发表于国际知名神经网络学术期刊,并取得了相应的发明专利和软件著作权。
参考文献:
【1】ZhenhuaSong,YanLiu,RongSong,ZhenguangChen,JianyongYang,ChaoZhang,QingJiang.Asparsity-basedstochasticpoolingmechanismfordeepconvolutionalneuralnetworks.NeuralNetworks.2018,105:340-345.
编者还有观点没说完:
人工智能技术经过几年的爆炸式发展,如今诸多领域瓶颈已现。究其原因,主要是其算法还不够完善。
人脑思维分为“经验常识”和“逻辑推理”两种:
前者为统计学方法,类似现有的人工智能算法;后者为演绎法,是现有人工智能算法框架所不具备的。因此,人工智能尚处于起步阶段,离真正的“智能”还差之千里。目前“所谓的人工智能”既不“智能”也不“智障”,有待诸位有识之士一同完善。望众人切勿枉自菲薄,也不必危言耸听。
欢迎投稿,欢迎分享,转载请注明
声明:本文发表仅是出于传播信息需要,并不代表本平台观点