国内几款强大的语言模型
写在前面Hello大家好, 我是【麟-小白】,一位软件工程专业的学生,喜好计算机知识。希望大家能够一起学习进步呀!本人是一名在读大学生,专业水平有限,如发现错误或不足之处,请多多指正!谢谢大家!!!
如果小哥哥小姐姐们对我的文章感兴趣,请不要吝啬你们的小手,多多点赞加关注呀!❤❤❤爱你们!!!
人工智能(ArtificialIntelligence),英文缩写为AI 。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
推荐两个好用的人工智能:
无需魔法直接访问 响应和流式传输快设计精美无使用月限额
点我进入
点我进入
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。
人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,心理学和哲学。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。 [1] 2017年12月,人工智能入选“2017年度中国媒体十大流行语”。 2021年9月25日,为促进人工智能健康发展,《新一代人工智能伦理规范》发布。
人工智能的定义可以分为两部分,即“人工”和“智能”。“人工”比较好理解,争议性也不大。有时我们会要考虑什么是人力所能及制造的,或者人自身的智能程度有没有高到可以创造人工智能的地步,等等。但总的来说,“人工系统”就是通常意义下的人工系统。
关于什么是“智能”,就问题多多了。这涉及到其它诸如意识(CONSCIOUSNESS)、自我(SELF)、思维(MIND)(包括无意识的思维(UNCONSCIOUS_MIND))等等问题。人唯一了解的智能是人本身的智能,这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限,对构成人的智能的必要元素也了解有限,所以就很难定义什么是“人工”制造的“智能”了。因此人工智能的研究往往涉及对人的智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。
人工智能在计算机领域内,得到了愈加广泛的重视。并在机器人,经济政治决策,控制系统,仿真系统中得到应用。
尼尔逊教授对人工智能下了这样一个定义:“人工智能是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”而另一个美国麻省理工学院的温斯顿教授认为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律,构造具有一定智能的人工系统,研究如何让计算机去完成以往需要人的智力才能胜任的工作,也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。
人工智能是计算机学科的一个分支,二十世纪七十年代以来被称为世界三大尖端技术之一(空间技术、能源技术、人工智能)。也被认为是二十一世纪三大尖端技术(基因工程、纳米科学、人工智能)之一。这是因为近三十年来它获得了迅速的发展,在很多学科领域都获得了广泛应用,并取得了丰硕的成果,人工智能已逐步成为一个独立的分支,无论在理论和实践上都已自成一个系统。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。人工智能将涉及到计算机科学、心理学、哲学和语言学等学科。可以说几乎是自然科学和社会科学的所有学科,其范围已远远超出了计算机科学的范畴,人工智能与思维科学的关系是实践和理论的关系,人工智能是处于思维科学的技术应用层次,是它的一个应用分支。从思维观点看,人工智能不仅限于逻辑思维,要考虑形象思维、灵感思维才能促进人工智能的突破性的发展,数学常被认为是多种学科的基础科学,数学也进入语言、思维领域,人工智能学科也必须借用数学工具,数学不仅在标准逻辑、模糊数学等范围发挥作用,数学进入人工智能学科,它们将互相促进而更快地发展。
结语本人会持续更新文章的哦!希望大家一键三连,你们的鼓励就是作者不断更新的动力
“万模大战”冷思考:大型语言模型和人工智能的未来
1
大型语言模型成新宠
由于ChatGPT爆火的缘故,大型语言模型(LLM,LargeLanguageModel)集万千宠爱于一身。但它们是什么呢?
简单地说,LLMs是一种计算机系统,被设计用来学习文本语料库的统计属性,以生成模仿原始文本的风格和内容的新文本。换句话说,LLMs能够生成现实而较为准确的新文本,看起来像是由一个真实的人写的。
LLMs的核心基于一种强大的机器学习技术,即深度学习。深度学习是人工智能的一个子集,能够自动学习数据中的复杂模式。深度学习算法的灵感来自于大脑从经验中学习的能力,它们通常使用神经网络来实现——计算系统的结构与大脑非常相似。事实上,如果不使用先进的水印策略,就不可能准确区分由人类头脑所写的文本和由高度可并行的人工神经网络所产生的文本,后者的神经连接数要少得多。
传统机器学习算法和深度学习算法之间的一个关键区别是,深度学习算法可以扩展到更大的数据集,它们可以从非结构化或未标记的数据中学习。这使得它们非常适合于自然语言处理(NLP,naturallanguageprocessing)等任务,这也是LLMs的用途。它现在被认为是人工智能的前沿,因其有可能执行需要创造力、推理和理解自然语言的任务。
LLM于2017年在谷歌大脑(GoogleBrain)开始使用,研究人员推出了transformer(转换器)架构,它是自然语言处理中使用的一个基于深度学习模型的神经网络,训练可以实现并行化,这为训练真正的大模型首次提供了机会。
此后,大型语言和文本-图像模型在领先的技术公司中激增,包括谷歌(BERT、GLaM、LaMDA、Chinchilla、PaLM)、Facebook(OPT-175B、Galactica、BlenderBot、LLaMA)、英伟达和微软(Megatron-Turing),当然还有OpenAI,微软是主要的投资者(GPT-3/4用于文本,DALL-E2用于图像,Whisper用于语音)。在线社区,如Midjourney,以及HuggingFace等开源供应商,也创造了生成模型。
新的玩家还在不断进场。2023年3月,彭博社推出BloombergGPT,系根据专有来源的金融数据训练的LLM,“在金融任务上比现有的模型有明显的优势,而不影响一般LLM的基准性能”。彭博社计划将其整合到通过终端软件提供的功能中。4月,资助开发“稳定扩散”(StableDiffusion)等开源生成式人工智能模型的StabilityAI宣布推出其StableLM语言模型套件。在为多个领域(包括图像、音频、视频、3D和生物学)开发模型之后,这是该开发商首次跳入目前由技术大腕主导的语言模型游戏。
同在4月,亚马逊在AWS中推出Bedrock服务,在一个平台上提供多种生成式人工智能模型。例如,StabilityAI的StableDiffusion图像生成器,可以将文本变成图像;AI21实验室的Jurassic-2模型是一个多语言LLM,可以生成德语、西班牙语、法语、葡萄牙语、荷兰语和意大利语文本。Anthropic的Claude是一个ChatGPT的对手,可以自动化工作流程,回答问题,并与用户进行交流。与微软和Alphabet相比,亚马逊可能看起来姗姗来迟,但它的打法相当精明。通过Bedrock,亚马逊不只是提供对上述第三方平台的访问,也提供对其专有的大型语言模型Titan的访问,这可能使亚马逊变成那些希望使用LLMs并根据其需求构建应用程序的企业的首选平台。
时至今日,除了苹果之外,美国每家主要科技公司都宣布了自己的LLM。中国的科技公司当然亦不甘落后:2023年3月,百度推出文心一言并在官宣后为新浪财经、澎湃新闻、爱奇艺、美的集团、东风日产等一系列企业提供接入服务;2022年,阿里达摩院发布通义大模型,并在2023年4月正式推出通义千问;再加上2022年腾讯对外披露的混元大模型和2021年华为发布的盘古大模型等等,不一而足,人称“万模大战”。
LLMs对大型科技公司很重要,因为它们可以实现新的产品和服务,从而吸引更多的用户,产生更多的收入,并创造更多的价值。例如,LLMs可用于改进搜索引擎、社交网络、云计算、数字助理、电子商务、游戏、教育、医疗保健等。此外,科技公司可以用LLMs来改进企业的现有产品线,生成式模型的重要价值之一是它们与生产力应用程序的整合。例如,微软在企业Office套件市场中有明显的优势,正在将生成式模型整合到Word、Outlook和Teams等应用程序中。中国科技巨头阿里巴巴在生成式人工智能方面的最新努力,在某种程度上让人联想到微软,即通过让人们用自然语言来描述他们想要建立的东西,令使用各种应用程序变得更容易。阿里巴巴宣布,通义千问将被整合到公司的各项业务中,以改善用户体验,客户和开发人员可以通过利用该模型创建定制的人工智能功能。
2
人工智能为什么非得是大模型?
就这样,大型通用人工智能模型被业界宣传为“基础性的”,是该领域科学进步的主要转折点。这类叙述分散了“规模病症”的注意力,这些病症每天都变得更加根深蒂固:大规模的人工智能模型主要由大科技公司控制,因为它们需要巨大的计算和数据资源,并且还引发了围绕歧视、隐私和安全漏洞以及负面环境影响等多方面的担忧。
例如,GPT-3最初是在45TB的数据上训练的,并采用了1750亿个参数来进行预测;GPT-3的一次训练就花费了1200万美元。另据报道,ChatGPT每天给OpenAI带来70万美元的成本。大多数公司没有数据中心能力或云计算预算来从头开始训练这类模型,包括许多现成的、预训练的人工智能模型,作为云人工智能服务的一部分提供,而此市场本已集中在大科技公司手中,如AWS(亚马逊)、GCP(谷歌云平台)和Azure(微软)。这些云供应商每年总共花费超过1000亿美元的资本支出,确保拥有最全面、最可靠和最具成本竞争力的平台。特别是在生成式人工智能方面,它们也受益于供应限制,因为它们可以优先获得稀缺的硬件(如NvidiaA100和H100GPU)。
大科技公司可能会保持先发优势,因为它们有时间和市场经验来磨练基础语言模型,并发展宝贵的内部专业知识。因此,较小的企业或初创公司可能难以成功进入这一领域,从而使得LLM的巨大处理能力集中在少数几家大科技公司手中。
2021年,埃米莉·本德(EmilyM.Bender)博士、蒂姆尼特·盖布鲁(TimnitGebru)博士、安吉丽娜·麦克米兰-梅杰(AngelinaMcMillan-Major)和玛格丽特·米切尔(MargaretMitchell)博士在一篇题为《论随机鹦鹉的危险》的论文中对LLM的潜在成本和危害提出警告,这篇论文导致谷歌将盖布鲁和米切尔从人工智能伦理团队的共同领导位置上赶走。
该论文在确定困扰LLM的规模病症方面有先见之明。当公众讨论被围绕着ChatGPT和其他LLMs的令人窒息的炒作所吞噬,这项研究提出了清醒的警告:我们需要讨论社会是否应该建立这类技术,而不是如何建立,更不是不加批判地将其作为进步的同义词而加以全盘接受。本德等人问道:“越来越大的语言模型是不可避免的还是必须的?这一研究方向有什么成本,我们在追求它之前应该考虑什么?”
择其要者,大型语言模型可见的成本就有:
●环境和财务成本。
LLMs的训练需要大量的能源,并产生大量的二氧化碳排放。环境问题与种族问题的交汇,意味着被边缘化的人和来自多数世界/全球南方的人更有可能体验到能源消耗和二氧化碳排放增加所带来的伤害,尽管他们也是最不可能体验到这种模型的好处的一群。此外,进入和训练这些模型的成本很高,这意味着只有一小部分全球精英能够发展并受益于LLMs。所以,环境和财务成本应该成为自然语言处理研究中的首要考虑因素。
●不负责任的训练数据。
使用大量未经整理的训练数据集有可能创造出巩固主导性、霸权性观点的语言模型。这些训练数据集的庞大规模并不能保证多样性,因为它们往往是从网站上刮来的,而这些网站由于互联网接入不足、代表性不足、过滤或骚扰等问题而排除了边缘化人群的声音。这些数据集有“价值锁定”的风险,或将有害的偏见编码到难以彻底审计的语言模型中。
如果模型是在过滤有限的大量互联网数据上训练出来的,它们就会吸收事实和错误信息,有偏见的内容和公平的内容,有害的材料和无害的材料。如果没有办法在回答提示之前评估这些标准,LLMs就有可能陷入复制、放大和传播有问题的内容和错误信息的危险。
●随机鹦鹉的诞生。
本德等人进一步警告说,对语言模型的追求可能是一个误导性的研究方向。她们观察到,语言模型就好比“随机鹦鹉”(stochasticparrot),“根据关于如何组合的概率信息,胡乱地将它在庞大的训练数据中观察到的语言形式序列[缝合]在一起,但没有任何对意义的参考”。
最终,我们需要问自己,为什么要把人工智能的未来全部押注在大型语言模型一条路上?纽约大学教授兼Meta首席AI科学家杨乐昆(YannLeCun)就认为LLM是“一个下坡路”,远离了通往更强大的AI的道路。“大型语言模型能有多聪明,能有多准确,都是有限度的,因为它们没有现实世界的经验,而这确实是语言的基本现实。”他指出,人类所学的大部分内容都与语言无关。“我们学习如何投掷篮球,让它穿过篮圈”,深度学习的另一位先驱者杰弗里·辛顿(GeoffreyHinton)说。“我们根本不使用语言来学习。我们从试验和错误中学习。”
就算语言是发展人工智能的重要途径,事情也很明显:无论LLMs及其训练数据集变得多么庞大,它们也永远无法像我们一样学习和理解我们的语言。吊诡的是,语言模型的限制导致了一种研究趋势,即专注于研究这类模型的知识和行为。换言之,人类正在学习LLMs的语言,并寻找更好地与它们沟通的方法。
这是因为,语言模型是神经网络,根据从网络收集的数据进行训练。经过训练后,模型可以接收提示并预测其后的单词。神经网络越大,模型的学习能力就越强。数据集越大,模型接触不同单词序列的机会就越大,生成文本时就越准确。
可问题是,人类语言不仅仅是文本。事实上,语言是一种将信息从一个大脑传输到另一个大脑的压缩方式。我们的谈话经常忽略共享知识,例如视觉和听觉信息、世界的物理体验、过去的谈话、我们对人和物体行为的理解、社会结构和规范等等。
正如杨乐昆和纽约大学计算机科学系博士后雅各布·布朗宁(JacobBrowning) 在最近的一篇文章中所写到的,“仅靠语言训练的系统永远不会接近人类智力,即使从现在开始训练直到宇宙热寂”。但两位科学家也指出,如果我们停留在表面上,语言模型“无疑会接近[人类智能]。而且,在许多情况下,表面就足够了”。
3
大型语言模型的三大发展方向
像LLMs这样的大规模人工智能模型,在过去一段时间里中受到了最多的炒作,也带来了最大的恐惧。围绕这些系统的兴奋和焦虑都有助于强化如下概念,即这些模型是“基础性的”,尽管它们无法对人类提示作出有意义的回应的例子数不胜数。值得注意的是,这些模型之所以作为“基础性”的技术而引入,意在将它们等同于无可置疑的科学进步,成为“通用人工智能”(这是另一个模糊的术语,让人联想起科幻小说中关于取代或超越人类智能的概念)道路上的踏脚石,从而使其广泛采用成为必然。
在最近的一次采访中,OpenAI首席执行官山姆·阿尔特曼(SamAltman)说:“我认为我们正处于时代的尽头,那里将会是这些巨大的模型,我们将以其他方式让它们变得更好。”这些“其他方式”是什么?一个可能的途径是在更多的高质量数据上对模型进行微调,创造更好的训练技术。人工管策的数据集可能是非常有价值的,但创建成本高,速度慢。
正因如此,我来斗胆预测一下大型语言模型的三大发展方向:
第一,我们需要致力于教会语言模型表达不确定性。
在大多数情况下,人类知道他们知识的局限性(即使他们不直接承认)。他们可以表达不确定和怀疑,并让他们的对话者知道他们对自己所传授的知识有多自信。另一方面,语言模型总是对任何提示都给出现成的答案,即使它们的输出是毫无意义的。神经网络通常提供某个预测正确概率的数值。然而就语言模型而言,这些概率分数并不代表模型对提示响应的可靠性的信心。
OpenAI和牛津大学的研究人员最近发表的一篇论文表明,可以通过教LLMs“用语言表达它们的不确定性”来弥补这一缺点。可以对LLMs进行微调,以使用自然语言表达认知上的不确定性,研究者将其描述为“语言化概率”(verbalizedprobability),即用语言表达出来的概率。这是一个重要的发展方向,尤其是在用户希望将语言模型的输出转化为某个动作的应用程序中。研究人员建议,表达不确定性可以令语言模型诚实。“如果一个诚实的模型出现一个误导或恶意的内部状态,那么它可以将这种状态传达给可以采取相应行动的人类。”
第二,与其致力于模型之大,不如专攻特定模型。
鉴于LLMs不理解它们所处理的语言,也不理解所收到的提示和自己的回应,所以补救办法一是靠规模的力量,即训练数据和模型参数的巨大规模,二是靠专业的力量,即在为特定行业或领域(如医疗保健和医学)定制开发更专门的模型的情况下,有针对性地管策训练数据,这将有助于解决LLMs在涉及特定问题时的某些局限性。
想象一下,像ChatGPT这样的LLM已经在最好的医学文献上接受了训练,但训练数据当中也有讨论健康问题的Reddit线程。人工智能有时可以通过检索和参考高质量的信息来回应,但其他时候它通过使用完全不可靠的Reddit信息来回应。事实上,假如医学文献中没有这些信息(例如一种非常罕见的疾病),它更有可能编造这些信息(此即人工智能行业常说的幻觉)。
所以我们需要通过使用较小和较高质量的数据集为特定的知识领域进行训练。例如,拥有数十亿参数的大型临床语言模型可以利用电子健康记录中的非结构化文本帮助提取医学概念和回答医学问题,预测疾病或再入院风险,并总结临床文本。而一个专门为法律行业设计的模型可以接受法律术语和行话的训练,使其更好地处理法律文件。
第三,高质量的数据将成为LLM称霸的新战场。
限制LLM持续改进的最重要限制是可用的训练数据量。《经济学人》报道说,2022年10月发表的一篇论文得出的结论是,“高质量语言数据的存量将很快耗尽,可能在2026年之前”。肯定有更多可用的文本,但它们被一小块一小块地锁定在公司数据库或个人设备上,无法以CommonCrawl允许的规模和低成本加以访问。这种数据稀缺对LLM的进一步发展提出了挑战。
2023年4月18日,Reddit宣布,它将开始对其API的访问收费。这一决定是在Twitter对其API实施类似限制之后作出的。近年来,Reddit的系列聊天成为谷歌、OpenAI和微软等公司的免费教具。这些公司使用Reddit的对话来帮助开发巨型人工智能系统。然而现在Reddit联合创始人兼首席执行官史蒂夫·赫夫曼(SteveHuffman)称:“我们不需要把所有这些价值免费提供给世界上最大的一些公司。”
随即,StackOverflow也宣布将开始对其API收费。首席执行官普拉桑斯·钱德拉塞卡尔(PrashanthChandrasekar)表示:“我们非常支持Reddit的做法。”“为LLM提供动力的社区平台绝对应该因其贡献而得到补偿,这样像我们这样的公司就可以重新注资到社区,让其继续蓬勃发展。”
Reddit和StackOverflow等平台为微调LLM提供了快速访问具体主题和问题的宝贵数据。而这些平台的所有者正意识到它们所掌握的数据的价值。数据市场日益激烈的竞争可能推动行业走向更少的共享和更多的货币化。
不幸的是,激进的货币化将进一步增强能够负担API成本的大型科技公司的能力。 另一方面,小型实验室和资金紧张的初创公司将不得不处理手头可用的低质量数据。