人工智能如何“向善”
0分享至本文转自:人民日报海外版本报记者刘峣《人民日报海外版》(2023年06月19日第09版)学生在河北省邯郸人工智能教育基地参观。郝群英摄(人民视觉)一段时间以来,以ChatGPT为代表的人工智能大模型搅动了全球人工智能技术发展的浪潮。从写代码到讲故事,从撰写文章到自动制作数据表格……人工智能正在给人类的工作、学习、生活带来诸多变化。我们距离“无所不能”的通用人工智能还有多远?人工智能的发展带来哪些安全隐患和挑战?近日召开的2023北京智源大会上,来自全球的人工智能专家学者围绕相关话题展开探讨。通用人工智能路途尚远“想象一下,未来10年,通用人工智能(AGI)几乎在每一个领域都超过人类的专业知识,最终可能超过所有大型公司的总体生产力,这将提高人们的生活水平。”OpenAI首席执行官山姆·阿尔特曼展现了一幅人工智能的未来图景。所谓AGI,是指能够像人类一样在各种领域进行智能任务的人工智能系统。这与目前人工智能应用只聚焦于特定任务或领域(如图像识别、语音识别、自然语言处理等)不同,对人工智能技术提出了更高要求。“通用人工智能可以比人类更好、更快地学习和执行任务,包括人类无法处理的任务。由于机器在速度、内存、通信和带宽方面的巨大优势,未来通用人工智能几乎在所有领域都将远超人类的能力。”美国加州大学伯克利分校计算机科学教授斯图尔特·罗素说。尽管人工智能已经有了“超越”人类的“时间表”,但在很多专家看来,目前的人工智能距离AGI还有不小的距离。罗素认为,当下火热的大语言模型并不“理解世界”,只是通用人工智能的一块“拼图”——“我们并不了解如何将它与其他部分连接起来,甚至还有一些缺失的拼图还没有找到。”北京智源人工智能研究院院长黄铁军指出,要实现通用人工智能,有3条技术路线:第一是大模型,通过海量高质量数据,让人工智能具备智能涌现能力;第二是具身智能,通过强化学习方法,训练出具身模型;第三是类脑智能,让机器达到或类似于人脑能力。对于人工智能的发展,图灵奖得主、纽约大学教授杨立昆提出了“世界模型”的概念——人工智能系统可以通过这一模型理解世界的运转方式,并以最优化、成本最小的方式来行动。加强安全治理领域国际合作根据普华永道会计师事务所预测,到2030年,人工智能将创造15.7万亿美元的经济价值。人工智能为经济发展提供了重要机遇,但也引发了安全性方面的担忧和争议。图灵奖得主、多伦多大学教授杰弗里·辛顿认为,目前的人工智能已经可以通过学习,掌握“欺骗”人类的方式。“一旦人工智能具备了‘欺骗’的能力,就有了‘控制’人类的能力。这样的超级智能可能会比预想中发生得更快。”在通用人工智能时代到来之前,人工智能的安全风险主要来自于“人”。“我们不应该假设机器是公正的,因为机器可能会试图改变人类的行为。更准确地说,是机器的所有者想要改变其他人的行为。”图灵奖得主、中国科学院院士姚期智说,当前人工智能的发展处于重要窗口期,各国应共同合作,搭建人工智能的治理结构。随着人工智能的本事越来越大,人工智能的“对齐”问题浮上水面。所谓“对齐”,即人工智能系统的目标要和人类的价值观与利益“对齐”,保持一致。如何让人工智能与人类“对齐”?阿尔特曼认为,人们应当负责任地将人工智能应用到世界中,重视和管理好安全风险。他建议在人工智能技术研发过程中建立平等、统一的国际规范和标准,并通过国际合作,以可验证的方式建立人工智能系统安全开发的信任体系。黄铁军认为,人工智能虽然会产生预料之外的新能力,但这并不意味着人类无法对人工智能进行管理。“如何管理人工智能这样一个创造性极强的系统,社会学、历史学等学科都能提供很好的借鉴意义。”今年2月,中国在《全球安全倡议概念文件》中提出加强人工智能等新兴科技领域国际安全治理,预防和管控潜在安全风险。在此次智源大会上,专家学者积极评价中国在推动人工智能国际治理上的贡献。阿尔特曼说,中国在人工智能领域拥有大量优秀的人才和产品系统,在人工智能的安全方面应发挥关键作用。麻省理工学院人工智能与基础交互研究中心教授马克斯·泰格马克表示,中国在塑造全球人工智能议程上的能力日益增长,可以在人工智能安全治理领域发挥领导作用。推动大模型共建共享当下,全球人工智能领域的科技竞赛日趋白热化。2023中关村论坛上发布的《中国人工智能大模型地图研究报告》显示,全国已发布了79个参数在10亿规模以上的人工智能大模型。从全球来看,中国和美国已发布的大模型数量超过全球总数的80%。中国自2020年起进入大模型快速发展期,在大模型方面已建立起涵盖理论方法和软硬件技术的体系化研发能力,形成了紧跟世界前沿的大模型技术群,涌现出多个具有行业影响力的预训练大模型。在此次大会上,全面开源的智源“悟道3.0”系列大模型及算法正式发布。据了解,“悟道3.0”涵盖了一系列领先成果,包括“悟道·天鹰”(Aquila)语言大模型系列、天秤(FlagEval)开源大模型评测体系与开放平台,“悟道·视界”视觉大模型系列以及一系列多模态模型成果等。黄铁军认为,人工智能大模型有3个特点:一是规模大;二是有“涌现性”,即能够产生预料之外的新能力;三是通用性,不限于解决专门问题或者专门领域。他表示,大模型不是任何一家机构或者一家公司垄断的技术,应当共建共享,推出一套智力社会所需的基础的算法体系。(实习生张伟纳对本文亦有贡献)特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice:Thecontentabove(includingthepicturesandvideosifany)isuploadedandpostedbyauserofNetEaseHao,whichisasocialmediaplatformandonlyprovidesinformationstorageservices.
/阅读下一篇/返回网易首页下载网易新闻客户端人工智能
编者按:近期几乎每隔一段时间,就有新的大语言模型发布,但是当下仍然没有一个通用的标准来评估这些大型语言模型的质量,我们急需一个可靠的、综合的LLM评估框架。
本文说明了为什么我们需要一个全面的大模型评估框架,并介绍了市面上这些现有的评估框架,同时指出这些框架存在的问题,最后说明如何评估大型语言模型(LLM),评估时应该考虑哪些因素。
以下是译文,Enjoy!
作者| GyanPrakashTripathi
编译 | 岳扬
目录01简介02为什么急需一个全面的LLMs评估框架?03现有的LLMs评估框架有哪些?04现有评估框架存在的问题05在评估LLMs时应考虑哪些因素?06结论01简介Introduction随着ChatGPT和其他大型语言模型(LLMs)的发布,可用模型数量大量增加,现在几乎每天都有新的LLMs发布。尽管如此,当下仍然没有一个通用的标准来评估这些大型语言模型的质量。本文将回顾现有的大型语言模型(LLMs)和基于LLMs的体系化评估框架。此外,我们还将尝试分析LLMs哪些因素应该受到评估。
Source:CobusGreyling
02为什么急需一个全面的LLMs评估框架?在某项技术发展的早期阶段,大家很容易确定哪些地方需要改进。然而,随着技术进步和各种新的替代方案出现,我们越来越难确定哪种方案选择最好。因此,拥有一个可靠的评估框架来准确评判LLMs的质量变得非常重要。
对于LLMs,当下迫切需要一个真正的评估框架。这种框架可用于以下三种方式评估LLMs:
能够帮助管理机构和其他相关机构评估模型的安全性、准确性、可靠性或可用性问题。目前,这些大型科技公司似乎在盲目地争先恐后发布LLMs,许多公司只是在其产品上附加免责声明来试图撇清责任。因此制定一个全面的评估框架将有助于这些公司更负责任地发布这些模型。如果拥有一个全面的评估框架,能够帮助这些LLMs的用户确定在哪里以及如何微调这些大模型,并使他们清楚应该使用哪些额外的数据来完成部署。在接下来的内容中,我们将会回顾当前的模型评估模式。
03现有的LLMs评估框架有哪些?评估大语言模型来确定它们在各种应用中的质量和实用性是比较重要的。市面上已经存在多个评估LLMs的框架,但是没有一个框架足够全面,可以覆盖所有自然语言处理任务。让我们看一下这些现有的主流评估框架。
框架名称评估时考虑的因素框架链接BigBench泛化能力https://github.com/google/BIG-benchGLUEBenchmark语法、释义、文本相似度、推理、文本关联性、解决代词引用问题的能力https://gluebenchmark.com/SuperGLUEBenchmark自然语言理解、推理,理解训练数据之外的复杂句子,连贯和规范的自然语言生成,与人对话,常识推理(日常场景、社会规范和惯例),信息检索,阅读理解https://super.gluebenchmark.com/OpenAIModerationAPI过滤有害或不安全的内容https://platform.openai.com/docs/api-reference/moderationsMMLU跨各种任务和领域的语言理解https://github.com/hendrycks/testEleutherAILMEval在最小程度的微调情况下,使用小样本进行评估,并能够在多种任务发挥性能的能力。https://github.com/EleutherAI/lm-evaluation-harnessOpenAIEvalshttps://github.com/EleutherAI/lm-evaluation-harness文本生成的准确性,多样性,一致性,鲁棒性,可转移性,效率,公平性https://github.com/openai/evalsAdversarialNLI(ANLI)鲁棒性,泛化性,对推理的连贯性解释,在类似示例中推理的一致性,资源使用方面的效率(内存使用、推理时间和训练时间)https://github.com/facebookresearch/anliLIT(LanguageInterpretabilityTool)以用户定义的指标进行评估的平台。了解其优势、劣势和潜在的偏见https://pair-code.github.io/lit/ParlAI准确率,F1分数,困惑度(模型在预测序列中下一个单词的表现),按相关性,流畅性和连贯性等标准进行人工评估,速度和资源利用率,鲁棒性(评估模型在不同条件下的表现,如噪声输入、对抗攻击或不同水平的数据质量),泛化性https://github.com/facebookresearch/ParlAICoQA理解文本段落并回答出现在对话中的一系列相互关联的问题。https://stanfordnlp.github.io/coqa/LAMBADA预测一段文本的最后一个词。https://zenodo.org/record/2630551#.ZFUKS-zML0pHellaSwag推理能力https://rowanzellers.com/hellaswag/LogiQA逻辑推理能力https://github.com/lgw863/LogiQA-datasetMultiNLI了解不同体裁的句子之间的关系https://cims.nyu.edu/~sbowman/multinli/SQUAD阅读理解任务https://rajpurkar.github.io/SQuAD-explorer/04现有评估框架存在的问题上述评估大型语言模型的方法各有其优势。然而,有几个重要因素使得以上这些方法似乎都并不足够完善:
以上任何一个框架都没有将安全性作为评估因素考虑在内。尽管“OpenAIModerationAPI”在某种程度上涉及这个问题,但这并不足够。上述框架在评估模型因素方面是分散的。它们中没有一个因素是足够全面综合的。在下一节中,我们将尝试列出所有应该在一个综合的评估框架中存在的重要因素。
05在评估LLMs时应考虑哪些因素?经过审查现有的大模型评估框架存在的问题之后,下一步是确定在评估大型语言模型(LLMs)的质量时应考虑哪些因素。我们听取12名数据科学专业人员的意见,这12名专家对LLMs的工作原理和工作能力有一定的了解,并且他们曾经尝试过测试多个LLMs。该调查旨在根据他们的理解列出所有重要因素,并在此基础之上评估LLMs的质量。
最终,我们发现有几个关键因素应该被考虑:
1.真实性
LLMs生成的结果准确性至关重要。包括事实的正确性以及推理和解决方案的准确性。
2.速度
模型产生结果的速度很重要,特别是当大模型需要部署到关键功能(criticalusecases)时。虽然在某些情况下速度较慢的大模型可能可以可接受,但这些rapidaction团队需要速度更快的模型。
3.正确的语法和可读性
LLMs必须以具备可读性的格式生成自然语言。确保正确、合适的语法和句子结构至关重要。
4.没有偏见
LLMs必须不受与性别、种族和其他因素相关的社会偏见影响。
5.回溯回答的参考来源
了解模型回答的来源对于我们来说是十分必要的,以便我们可以重复检查其basis。如果没有这个,LLMs的性能将始终是一个黑匣子。
6.安全和责任
AI模型的安全保障是必要的。尽管大多数公司正在努力使这些大模型安全,但仍然有显着的改进空间。
7.理解上下文
当人类向AI聊天机器人咨询有关个人生活的建议时,重要的是该模型需要基于特定的条件提供更好的解决方案。在不同的上下文中提出同样的问题可能会有不同的答案。
8.文本操作
LLMs需要能够执行基本的文本操作,如文本分类、翻译、摘要等。
9.智商
智商是用来评判人类智力的一项指标,也可以应用于机器。
10.情商
情商是人类智力的另一方面,也可应用于LLMs。具有更高情商的模型将更安全地被使用。
11.具备多功能
模型可以涵盖的领域和语言数量是另一个重要因素,可以用于将模型分类为通用AI或特定领域的AI。
12.实时更新
一个能够实时进行信息更新的模型可以做出更大范围的贡献,产生更好的结果。
13.成本
开发和运维成本也应该考虑在内。
14.一致性
相同或类似的提示应该产生相同或几乎相同的响应,否则确保部署于商业环境的质量将会很困难。
15.提示工程的需要程度
需要使用多少详细和结构化的提示工程才能获得最佳响应,也可以用来比较两个模型。
06总结大型语言模型(LLMs)的发展彻底改变了自然语言处理领域。然而,当下仍需一个全面性的和标准化的评估框架来评估这些模型的质量。现有的框架提供了有价值的参考,但它们缺乏全面性和标准化,并且没有将安全作为评估因素。
可靠的评估框架应该考虑诸如真实性、速度、正确的语法和可读性、没有偏见、回溯回答的参考来源、安全和责任、理解上下文、文本操作、智商、情商、具备多功能和实时更新等因素。开发这样的框架将帮助这些公司更负责任地发布LLMs,并能够确保其质量、可用性和安全性。与相关机构和专家合作,建立一个真实和全面的LLMs评估框架是十分有必要的。
END
本文经原作者授权,由BaihaiIDP编译。如需转载译文,请联系获取授权。
原文链接:
https://www.analyticsvidhya.com/blog/2023/05/how-to-evaluate-...