关于 ChatGPT 必看的 10 篇论文
目录1Transformer2GPT-33InstructGPT4Sparrow5RLHF6TAMER7PPO8In-ContextLearning8.1WhyCanGPTLearnIn-Context8.2Whatlearningalgorithmisin-contextlearning9Prompt参考团队博客:CSDNAI小组
相关阅读
ChatGPT简介从ELMo到ChatGPT:历数NLP近5年必看大模型ChatGPT中的人类反馈强化学习(RLHF)实战2022年11月,OpenAI推出人工智能聊天原型ChatGPT,再次赚足眼球,为AI界引发了类似AIGC让艺术家失业的大讨论。
ChatGPT是一种专注于对话生成的语言模型。它能够根据用户的文本输入,产生相应的智能回答。这个回答可以是简短的词语,也可以是长篇大论。其中GPT是GenerativePre-trainedTransformer(生成型预训练变换模型)的缩写。
下面列出了学习ChatGPT必看的10篇论文。
1TransformerChatGPT使用的预训练模型GPT,是在Transformer中的decoder基础上进行改造的。
Title:AttentionIsAllYouNeedAbstract:Thedominantsequencetransductionmodelsarebasedoncomplexrecurrentorconvolutionalneuralnetworksthatincludeanencoderandadecoder.Thebestperformingmodelsalsoconnecttheencoderanddecoderthroughanattentionmechanism.Weproposeanewsimplenetworkarchitecture,theTransformer,basedsolelyonattentionmechanisms,dispensingwithrecurrenceandconvolutionsentirely.Experimentsontwomachinetranslationtasksshowthesemodelstobesuperiorinqualitywhilebeingmoreparallelizableandrequiringsignificantlylesstimetotrain.Ourmodelachieves28.4BLEUontheWMT2014Englishto-Germantranslationtask,improvingovertheexistingbestresults,includingensembles,byover2BLEU.OntheWMT2014English-to-Frenchtranslationtask,ourmodelestablishesanewsingle-modelstate-of-the-artBLEUscoreof41.0aftertrainingfor3.5daysoneightGPUs,asmallfractionofthetrainingcostsofthebestmodelsfromtheliterature.摘要:占主导地位的序列转导模型是基于复杂的递归或卷积神经网络,包括一个编码器和一个解码器。性能最好的模型还通过注意机制将编码器和解码器连接起来。我们提出了一个新的简单的网络结构–Transformer,它只基于注意力机制,完全不需要递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更胜一筹,同时也更容易并行化,需要的训练时间也大大减少。我们的模型在WMT2014英德翻译任务中达到了28.4BLEU,比现有的最佳结果(包括合集)提高了2BLEU以上。在WMT2014英法翻译任务中,我们的模型在8个GPU上训练了3.5天后,建立了新的单模型最先进的BLEU得分,即41.0分,这只是文献中最佳模型的训练成本的一小部分。2GPT-3GPT家族与BERT模型都是知名的NLP预训练模型,都基于Transformer技术。GPT-1只有12个Transformer层,而到了GPT-3,则增加到96层。
Title:LanguageModelsareFew-ShotLearnersAbstract:RecentworkhasdemonstratedsubstantialgainsonmanyNLPtasksandbenchmarksbypre-trainingonalargecorpusoftextfollowedbyfine-tuningonaspecifictask.Whiletypicallytask-agnosticinarchitecture,thismethodstillrequirestask-specificfine-tuningdatasetsofthousandsortensofthousandsofexamples.Bycontrast,humanscangenerallyperformanewlanguagetaskfromonlyafewexamplesorfromsimpleinstructions-somethingwhichcurrentNLPsystemsstilllargelystruggletodo.Hereweshowthatscalinguplanguagemodelsgreatlyimprovestask-agnostic,few-shotperformance,sometimesevenreachingcompetitivenesswithpriorstate-of-the-artfine-tuningapproaches.Specifically,wetrainGPT-3,anautoregressivelanguagemodelwith175billionparameters,10xmorethananypreviousnon-sparselanguagemodel,andtestitsperformanceinthefew-shotsetting.Foralltasks,GPT-3isappliedwithoutanygradientupdatesorfine-tuning,withtasksandfew-shotdemonstrationsspecifiedpurelyviatextinteractionwiththemodel.GPT-3achievesstrongperformanceonmanyNLPdatasets,includingtranslation,question-answering,andclozetasks,aswellasseveraltasksthatrequireon-the-flyreasoningordomainadaptation,suchasunscramblingwords,usinganovelwordinasentence,orperforming3-digitarithmetic.Atthesametime,wealsoidentifysomedatasetswhereGPT-3’sfew-shotlearningstillstruggles,aswellassomedatasetswhereGPT-3facesmethodologicalissuesrelatedtotrainingonlargewebcorpora.Finally,wefindthatGPT-3cangeneratesamplesofnewsarticleswhichhumanevaluatorshavedifficultydistinguishingfromarticleswrittenbyhumans.WediscussbroadersocietalimpactsofthisfindingandofGPT-3ingeneral.摘要:最近的工作表明,在许多NLP任务和基准上,通过对大型文本语料库进行预训练,然后对特定的任务进行微调,可以获得巨大的收益。虽然在结构上通常是任务无关的,但这种方法仍然需要特定任务的微调数据集,包括几千或几万个例子。相比之下,人类通常只需通过几个例子或简单的指令就能完成一项新的语言任务–而目前的NLP系统在很大程度上仍难以做到这一点。在这里,我们展示了扩大语言模型的规模,大大改善了与任务无关的、少量的性能,有时甚至达到了与之前最先进的微调方法的竞争力。具体来说,我们训练了GPT-3,一个具有1750亿个参数的自回归语言模型,比以前的任何非稀疏语言模型多10倍,并测试了它在少数情况下的性能。对于所有的任务,GPT-3的应用没有任何梯度更新或微调,纯粹通过与模型的文本互动来指定任务和少量演示。GPT-3在许多NLP数据集上取得了强大的性能,包括翻译、回答问题和cloze任务,以及一些需要即时推理或领域适应的任务,如解读单词、在句子中使用一个新词或进行3位数的算术。同时,我们也发现了一些数据集,在这些数据集中,GPT-3的几率学习仍然很困难,还有一些数据集,GPT-3面临着与大型网络语料库训练有关的方法学问题。最后,我们发现,GPT-3可以生成人类评价者难以区分的新闻文章样本。我们讨论了这一发现和GPT-3总体上的更广泛的社会影响。3InstructGPTChatGPT的训练流程,主要参考自instructGPT,ChatGPT是改进的instructGPT。
Title:TraininglanguagemodelstofollowinstructionswithhumanfeedbackAbstract:Makinglanguagemodelsbiggerdoesnotinherentlymakethembetteratfollowingauser’sintent.Forexample,largelanguagemodelscangenerateoutputsthatareuntruthful,toxic,orsimplynothelpfultotheuser.Inotherwords,thesemodelsarenotalignedwiththeirusers.Inthispaper,weshowanavenueforaligninglanguagemodelswithuserintentonawiderangeoftasksbyfine-tuningwithhumanfeedback.Startingwithasetoflabeler-writtenpromptsandpromptssubmittedthroughtheOpenAIAPI,wecollectadatasetoflabelerdemonstrationsofthedesiredmodelbehavior,whichweusetofine-tuneGPT-3usingsupervisedlearning.Wethencollectadatasetofrankingsofmodeloutputs,whichweusetofurtherfine-tunethissupervisedmodelusingreinforcementlearningfromhumanfeedback.WecalltheresultingmodelsInstructGPT.Inhumanevaluationsonourpromptdistribution,outputsfromthe1.3BparameterInstructGPTmodelarepreferredtooutputsfromthe175BGPT-3,despitehaving100xfewerparameters.Moreover,InstructGPTmodelsshowimprovementsintruthfulnessandreductionsintoxicoutputgenerationwhilehavingminimalperformanceregressionsonpublicNLPdatasets.EventhoughInstructGPTstillmakessimplemistakes,ourresultsshowthatfine-tuningwithhumanfeedbackisapromisingdirectionforaligninglanguagemodelswithhumanintent.摘要:让语言模型变得更大并不意味着它们能更好地遵循用户的意图。例如,大型语言模型可以产生不真实的、有毒的或根本对用户没有帮助的输出。换句话说,这些模型没有与用户保持一致。在本文中,我们展示了一个途径,通过人类反馈的微调,在广泛的任务中使语言模型与用户的意图保持一致。从一组标签员写的提示语和通过OpenAIAPI提交的提示语开始,我们收集了一组标签员演示的所需模型行为的数据集,我们利用监督学习对GPT-3进行微调。然后,我们收集模型输出的排名数据集,我们利用人类反馈的强化学习来进一步微调这个监督模型。我们把产生的模型称为InstructGPT。在人类对我们的提示分布的评估中,尽管参数少了100倍,但1.3B参数的InstructGPT模型的输出比175B的GPT-3的输出更受欢迎。此外,InstructGPT模型显示了真实性的改善和有毒输出生成的减少,同时在公共NLP数据集上的性能回归最小。尽管InstructGPT仍然会犯一些简单的错误,但我们的结果表明,利用人类反馈进行微调是使语言模型与人类意图相一致的一个有希望的方向。4SparrowDeepMind的Sparrow,这个工作发表时间稍晚于instructGPT,其大致的技术思路和框架与instructGPT的三阶段基本类似,不过明显Sparrow在人工标注方面的质量和工作量是不如instructGPT的。反过来,Sparrow中把奖励模型分为两个不同RM的思路,理论上是优于instructGPT的。
Title:ImprovingalignmentofdialogueagentsviatargetedhumanjudgementsAbstract:WepresentSparrow,aninformation-seekingdialogueagenttrainedtobemorehelpful,correct,andharmlesscomparedtopromptedlanguagemodelbaselines.Weusereinforcementlearningfromhumanfeedbacktotrainourmodelswithtwonewadditionstohelphumanratersjudgeagentbehaviour.First,tomakeouragentmorehelpfulandharmless,webreakdowntherequirementsforgooddialogueintonaturallanguagerulestheagentshouldfollow,andaskratersabouteachruleseparately.Wedemonstratethatthisbreakdownenablesustocollectmoretargetedhumanjudgementsofagentbehaviourandallowsformoreefficientrule-conditionalrewardmodels.Second,ouragentprovidesevidencefromsourcessupportingfactualclaimswhencollectingpreferencejudgementsovermodelstatements.Forfactualquestions,evidenceprovidedbySparrowsupportsthesampledresponse78%ofthetime.Sparrowispreferredmoreoftenthanbaselineswhilebeingmoreresilienttoadversarialprobingbyhumans,violatingourrulesonly8%ofthetimewhenprobed.Finally,weconductextensiveanalysesshowingthatthoughourmodellearnstofollowourrulesitcanexhibitdistributionalbiases.摘要:我们提出了Sparrow,一个寻求信息的对话代理,与提示的语言模型基线相比,它被训练得更有帮助,更正确,更无害。我们使用来自人类反馈的强化学习来训练我们的模型,并增加了两个新的内容来帮助人类评分者判断代理行为。首先,为了使我们的代理更有帮助和无害,我们将良好对话的要求分解为代理应该遵循的自然语言规则,并分别询问评分者每条规则。我们证明,这种分解使我们能够收集更有针对性的人类对代理行为的判断,并允许更有效的规则条件的奖励模型。第二,我们的代理在收集对模型声明的偏好判断时,提供支持事实性要求的来源的证据。对于事实问题,麻雀提供的证据在78%的情况下支持采样的反应。Sparrow比基线更经常受到青睐,同时对人类的对抗性探测更有弹性,在被探测时只有8%的时间违反了我们的规则。最后,我们进行了广泛的分析,表明尽管我们的模型学会了遵循我们的规则,但它会表现出分布性的偏差。5RLHFInstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入了被称为RLHF(ReinforcementLearningfromHumanFeedback,人类反馈强化学习)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。
Title:AugmentingReinforcementLearningwithHumanFeedbackAbstract:Ascomputationalagentsareincreasinglyusedbeyondresearchlabs,theirsuccesswilldependontheirabilitytolearnnewskillsandadapttotheirdynamic,complexenvironments.Ifhumanusers—withoutprogrammingskills—cantransfertheirtaskknowledgetoagents,learningcanacceleratedramatically,reducingcostlytrials.TheTAMERframeworkguidesthedesignofagentswhosebehaviorcanbeshapedthroughsignalsofapprovalanddisapproval,anaturalformofhumanfeedback.Morerecently,TAMER+RLwasintroducedtoenablehumanfeedbacktoaugmentatraditionalreinforcementlearning(RL)agentthatlearnsfromaMarkovdecisionprocess’s(MDP)rewardsignal.UsingareimplementationofTAMERandTAMER+RL,weaddresslimitationsofpriorwork,contributingintwocriticaldirections.First,thefoursuccessfultechniquesforcombiningahumanreinforcementwithRLfrompriorTAMER+RLworkaretestedonasecondtask,andthesetechniques’sensitivitiestoparameterchangesareanalyzed.Together,theseexaminationsyieldmoregeneralandprescriptiveconclusionstoguideotherswhowishtoincorporatehumanknowledgeintoanRLalgorithm.Second,TAMER+RLhasthusfarbeenlimitedtoasequentialsetting,inwhichtrainingoccursbeforelearningfromMDPreward.Wemodifythesequentialalgorithmstolearnsimultaneouslyfrombothsources,enablingthehumanfeedbacktocomeatanytimeduringthereinforcementlearningprocess.Toenablesimultaneouslearning,weintroduceanewtechniquethatappropriatelydeterminesthemagnitudeofthehumanmodel’sinfluenceontheRLalgorithmthroughouttimeandstate-actionspace.摘要:随着计算代理越来越多地被用于研究实验室之外,它们的成功将取决于它们学习新技能和适应其动态、复杂环境的能力。如果人类用户–没有编程技能–能够将他们的任务知识转移给代理,那么学习就会大大加快,减少昂贵的试验。TAMER框架指导代理人的设计,其行为可以通过批准和不批准的信号来塑造,这是人类反馈的一种自然形式。最近,TAMER+RL被引入,使人类反馈能够增强传统的强化学习(RL)代理,该代理从马尔科夫决策过程(MDP)的奖励信号中学习。通过对TAMER和TAMER+RL的重新实现,我们解决了先前工作的局限性,在两个关键方向上做出了贡献。首先,我们在第二个任务上测试了先前TAMER+RL工作中结合人类强化和RL的四种成功技术,并分析了这些技术对参数变化的敏感性。这些检查共同产生了更多的一般性和规范性的结论,以指导那些希望将人类知识纳入RL算法的其他人。第二,TAMER+RL到目前为止仅限于顺序设置,即在从MDP奖励中学习之前发生训练。我们对顺序算法进行了修改,使其能够同时从两个来源进行学习,从而使人类的反馈能够在强化学习过程中的任何时候出现。为了实现同步学习,我们引入了一种新的技术,适当地确定人类模型在整个时间和状态动作空间对RL算法的影响程度。6TAMERChatGPT中的TAMER(TraininganAgentManuallyviaEvaluativeReinforcement,评估式强化人工训练代理)框架,将人类标记者引入到Agents的学习循环中,可以通过人类向Agents提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。
Title:InteractivelyShapingAgentsviaHumanReinforcementAbstract:Ascomputationallearningagentsmoveintodomainsthatincurrealcosts(e.g.,autonomousdrivingorfinancialinvestment),itwillbenecessarytolearngoodpolicieswithoutnumeroushigh-costlearningtrials.Onepromisingapproachtoreducingsamplecomplexityoflearningataskisknowledgetransferfromhumanstoagents.Ideally,methodsoftransfershouldbeaccessibletoanyonewithtaskknowledge,regardlessofthatperson’sexpertiseinprogrammingandAI.Thispaperfocusesonallowingahumantrainertointeractivelyshapeanagent’spolicyviareinforcementsignals.Specifically,thepaperintroduces“TraininganAgentManuallyviaEvaluativeReinforcement,”ortamer,aframeworkthatenablessuchshaping.Differingfrompreviousapproachestointeractiveshaping,atameragentmodelsthehuman’sreinforcementandexploitsitsmodelbychoosingactionsexpectedtobemosthighlyreinforced.Resultsfromtwodomainsdemonstratethatlayuserscantraintameragentswithoutdefininganenvironmentalrewardfunction(asinanMDP)andindicatethathumantrainingwithinthetamerframeworkcanreducesamplecomplexityoverautonomouslearningalgorithms.摘要:随着计算学习代理进入产生实际成本的领域(例如,自动驾驶或金融投资),有必要在没有大量高成本学习试验的情况下学习好的政策。减少学习任务的样本复杂性的一个有希望的方法是将知识从人类转移到代理人。理想情况下,转移的方法应该是任何拥有任务知识的人都可以使用的,不管这个人在编程和人工智能方面的专业知识如何。本文的重点是允许人类培训师通过强化信号互动地塑造一个代理的政策。具体来说,本文介绍了“通过评估性强化训练代理”,即tamer,一个能够实现这种塑造的框架。与以前的交互式塑造方法不同,tamer代理对人类的强化进行建模,并通过选择预期会得到最多强化的行动来利用其模型。来自两个领域的结果表明,非专业人员可以在不定义环境奖励函数(如MDP)的情况下训练驯兽师代理,并表明在驯兽师框架内的人类训练可以比自主学习算法降低样本的复杂性。7PPOPPO(ProximalPolicyOptimization,近端策略优化)强化学习模型,是ChatGPT训练的第三阶段。
Title:ProximalPolicyOptimizationAlgorithmsAbstract:Weproposeanewfamilyofpolicygradientmethodsforreinforcementlearning,whichalternatebetweensamplingdatathroughinteractionwiththeenvironment,andoptimizinga“surrogate”objectivefunctionusingstochasticgradientascent.Whereasstandardpolicygradientmethodsperformonegradientupdateperdatasample,weproposeanovelobjectivefunctionthatenablesmultipleepochsofminibatchupdates.Thenewmethods,whichwecallproximalpolicyoptimization(PPO),havesomeofthebenefitsoftrustregionpolicyoptimization(TRPO),buttheyaremuchsimplertoimplement,moregeneral,andhavebettersamplecomplexity(empirically).OurexperimentstestPPOonacollectionofbenchmarktasks,includingsimulatedroboticlocomotionandAtarigameplaying,andweshowthatPPOoutperformsotheronlinepolicygradientmethods,andoverallstrikesafavorablebalancebetweensamplecomplexity,simplicity,andwall-time.摘要:我们为强化学习提出了一个新的策略梯度方法系列,它通过与环境的交互作用在数据采样和使用随机梯度上升优化一个"代理"目标函数之间交替进行。标准的策略梯度方法对每个数据样本进行一次梯度更新,而我们提出了一个新的目标函数,可以进行多次的小批量更新。我们称之为近似策略优化(PPO)的新方法具有信任区域策略优化(TRPO)的一些优点,但它们的实现要简单得多,更通用,并且具有更好的样本复杂性(经验上)。我们的实验在一系列基准任务上测试了PPO,包括模拟机器人运动和Atari游戏,我们表明PPO优于其他在线策略梯度方法,并且总体上在样本复杂性、简单性和壁垒时间之间取得了有利的平衡。8In-ContextLearningChatGPT的认知能力不全是从语料的统计中习得的,他还有临场学习的能力,这种能力称作In-ContextLearning,学术界本身对这种能力也还没有充分理解。
8.1WhyCanGPTLearnIn-ContextTitle:WhyCanGPTLearnIn-Context?LanguageModelsSecretlyPerformGradientDescentasMeta-OptimizersAbstract:LargepretrainedlanguagemodelshaveshownsurprisingIn-ContextLearning(ICL)ability.Withafewdemonstrationinput-labelpairs,theycanpredictthelabelforanunseeninputwithoutadditionalparameterupdates.Despitethegreatsuccessinperformance,theworkingmechanismofICLstillremainsanopenproblem.InordertobetterunderstandhowICLworks,thispaperexplainslanguagemodelsasmeta-optimizersandunderstandsICLasakindofimplicitfinetuning.Theoretically,wefigureoutthattheTransformerattentionhasadualformofgradientdescentbasedoptimization.Ontopofit,weunderstandICLasfollows:GPTfirstproducesmeta-gradientsaccordingtothedemonstrationexamples,andthenthesemeta-gradientsareappliedtotheoriginalGPTtobuildanICLmodel.Experimentally,wecomprehensivelycomparethebehaviorofICLandexplicitfinetuningbasedonrealtaskstoprovideempiricalevidencethatsupportsourunderstanding.TheresultsprovethatICLbehavessimilarlytoexplicitfinetuningatthepredictionlevel,therepresentationlevel,andtheattentionbehaviorlevel.Further,inspiredbyourunderstandingofmeta-optimization,wedesignamomentum-basedattentionbyanalogywiththemomentum-basedgradientdescentalgorithm.Itsconsistentlybetterperformanceovervanillaattentionsupportsourunderstandingagainfromanotheraspect,andmoreimportantly,itshowsthepotentialtoutilizeourunderstandingforfuturemodeldesigning.摘要:大型预训练的语言模型显示了令人惊讶的语境学习(In-ContextLearning,ICL)能力。通过一些示范性的输入-标签对,它们可以预测未见过的输入的标签,而无需额外的参数更新。尽管在性能上取得了巨大的成功,但ICL的工作机制仍然是一个开放的问题。为了更好地理解ICL的工作原理,本文将语言模型解释为元优化器,并将ICL理解为一种隐性的微调。从理论上讲,我们弄清楚了Transformer注意力有一个基于梯度下降的优化的双重形式。在此基础上,我们对ICL的理解如下。GPT首先根据示范实例产生元梯度,然后将这些元梯度应用于原始的GPT,建立ICL模型。在实验中,我们综合比较了ICL和基于真实任务的显式微调的行为,以提供支持我们理解的经验证据。结果证明,ICL在预测层面、表征层面和注意行为层面的表现与显式微调类似。此外,受我们对元优化的理解启发,我们通过与基于动量的梯度下降算法的类比,设计了基于动量的注意力。它比香草式注意力持续更好的表现从另一个方面再次支持了我们的理解,更重要的是,它显示了利用我们的理解进行未来模型设计的潜力。8.2Whatlearningalgorithmisin-contextlearningTitle:Whatlearningalgorithmisin-contextlearning?InvestigationswithlinearmodelsAbstract:Neuralsequencemodels,especiallytransformers,exhibitaremarkablecapacityforin-contextlearning.Theycanconstructnewpredictorsfromsequencesoflabeledexamples(x,f(x))presentedintheinputwithoutfurtherparameterupdates.Weinvestigatethehypothesisthattransformer-basedin-contextlearnersimplementstandardlearningalgorithmsimplicitly,byencodingsmallermodelsintheiractivations,andupdatingtheseimplicitmodelsasnewexamplesappearinthecontext.Usinglinearregressionasaprototypicalproblem,weofferthreesourcesofevidenceforthishypothesis.First,weprovebyconstructionthattransformerscanimplementlearningalgorithmsforlinearmodelsbasedongradientdescentandclosed-formridgeregression.Second,weshowthattrainedin-contextlearnerscloselymatchthepredictorscomputedbygradientdescent,ridgeregression,andexactleast-squaresregression,transitioningbetweendifferentpredictorsastransformerdepthanddatasetnoisevary,andconvergingtoBayesianestimatorsforlargewidthsanddepths.Third,wepresentpreliminaryevidencethatin-contextlearnerssharealgorithmicfeatureswiththesepredictors:learners’latelayersnon-linearlyencodeweightvectorsandmomentmatrices.Theseresultssuggestthatin-contextlearningisunderstandableinalgorithmicterms,andthat(atleastinthelinearcase)learnersmayrediscoverstandardestimationalgorithms.摘要:神经序列模型,特别是转化器,表现出显著的语境中学习的能力。它们可以从输入的标记例子序列(x,f(x))中构建新的预测器,而无需进一步更新参数。我们研究了这样一个假设:基于转化器的语境中学习者通过在其激活中编码较小的模型,并在语境中出现新的例子时更新这些隐性模型,从而隐性地实施标准的学习算法。使用线性回归作为一个原型问题,我们为这个假设提供了三个证据。首先,我们通过构造证明,转化器可以实现基于梯度下降和闭式脊回归的线性模型的学习算法。第二,我们表明,经过训练的语境中的学习者与梯度下降、山脊回归和精确最小二乘回归计算的预测者密切匹配,随着转化器深度和数据集噪声的变化,在不同的预测者之间过渡,并在大宽度和大深度下收敛到贝叶斯估计者。第三,我们提出了初步证据,证明in-context学习者与这些预测者共享算法特征:学习者的后期层非线性地编码权重向量和矩矩阵。这些结果表明,上下文学习在算法方面是可以理解的,而且(至少在线性情况下)学习者可以重新发现标准的估计算法。9PromptChatGPT训练时的输入使用的是Prompt,Prompt是研究者们为了下游任务设计出来的一种输入形式或模板,它能够帮助预训练模型“回忆”起自己在预训练时“学习”到的东西。
Title:Pre-train,Prompt,andPredict:ASystematicSurveyofPromptingMethodsinNaturalLanguageProcessingAbstract:Thispapersurveysandorganizesresearchworksinanewparadigminnaturallanguageprocessing,whichwedub“prompt-basedlearning”.Unliketraditionalsupervisedlearning,whichtrainsamodeltotakeinaninputxandpredictanoutputyasP(y|x),prompt-basedlearningisbasedonlanguagemodelsthatmodeltheprobabilityoftextdirectly.Tousethesemodelstoperformpredictiontasks,theoriginalinputxismodifiedusingatemplateintoatextualstringpromptx’thathassomeunfilledslots,andthenthelanguagemodelisusedtoprobabilisticallyfilltheunfilledinformationtoobtainafinalstringx,fromwhichthefinaloutputycanbederived.Thisframeworkispowerfulandattractiveforanumberofreasons:itallowsthelanguagemodeltobepre-trainedonmassiveamountsofrawtext,andbydefininganewpromptingfunctionthemodelisabletoperformfew-shotorevenzero-shotlearning,adaptingtonewscenarioswithfewornolabeleddata.Inthispaperweintroducethebasicsofthispromisingparadigm,describeaunifiedsetofmathematicalnotationsthatcancoverawidevarietyofexistingwork,andorganizeexistingworkalongseveraldimensions,e.g.thechoiceofpre-trainedmodels,prompts,andtuningstrategies.Tomakethefieldmoreaccessibletointerestedbeginners,wenotonlymakeasystematicreviewofexistingworksandahighlystructuredtypologyofprompt-basedconcepts,butalsoreleaseotherresources,e.g.,awebsitethishttpURLincludingconstantly-updatedsurvey,andpaperlist.摘要:本文调查并组织了自然语言处理中的一个新范式的研究工作,我们称之为“基于prompt的学习”。与传统的监督学习不同的是,传统的监督学习是训练一个模型来接受一个输入x并预测一个输出y作为P(y|x),而基于提示的学习是基于语言模型,直接对文本的概率进行建模。为了使用这些模型来执行预测任务,原始输入x被使用模板修改成一个文本字符串promptx’,其中有一些未填充的槽,然后语言模型被用来概率性地填充未填充的信息,得到最终的字符串x,从中可以得出最终的输出y。由于一些原因,这个框架是强大和有吸引力的:它允许语言模型在大量的原始文本上进行预训练,并且通过定义一个新的prompting函数,模型能够进行少次甚至零次的学习,适应只有很少或没有标记数据的新场景。在本文中,我们介绍了这种有前途的范式的基本原理,描述了一套统一的数学符号,可以涵盖各种现有的工作,并沿着几个维度组织现有的工作,例如选择预训练的模型、prompts和调整策略。为了让感兴趣的初学者更容易了解这个领域,我们不仅对现有的工作进行了系统的回顾,并对基于prompt的概念进行了高度结构化的分类,而且还发布了其他资源,例如,一个包括不断更新的调查的网站httpURL,以及论文清单。参考[1]ChatGPT发展历程、原理、技术架构详解和产业未来(收录于先进AI技术深度解读)[2]ChatGPT会取代搜索引擎吗[3]解释一些关于大语言模型的常见误解
人工智能的利与弊作文800字高中范文
【#高中作文#导语】人工智能从诞生以来,其利与弊一直备受关注,下面®无忧考网为大家带来的是人工智能的利与弊作文800字高中范文,欢迎大家参考阅读~
【篇一】人工智能利弊共存
据报道,对于机器人的崛起,专家们曾发出警告,“机器取代人类劳动力可能致使人口冗余”,他们担心“这种超能技术的发展已经超越了人类的驾驭能力,”如今,一些人表示担忧,如果人工智能继续进化,我们会失去赖以为生的工作、丧失存在感,甚至会被“终结者”们赶尽杀绝。但事实上,这些恐惧与两个世纪以前人们对机械化和蒸汽机发展的讨论如出一辙,那时,人们针对机器威胁展开一场名为“机器问题”的讨论。而现在,一场关于人工智能利弊的辩论正在悄然兴起。
诞生初期,人工智能技术(AI)也经历过大起大落,但在过去几年的发展黄金期,AI技术突飞猛进,这都得益于“深度学习”技术开启的新篇章。深度学习旨在模拟人脑结构建立大规模(或者“深度”)神经网络,在充沛的数据支持下,神经网络可以通过训练来处理各种各样的事情。
其实所谓深度学习技术已经默默为我们服务多年了,谷歌搜索、Facebook的自动图片标记功能、苹果的siri语音助手、亚马逊推送的购物清单,甚至特斯拉的自动驾驶汽车都是深度学习的产物。但是这种快速的发展也引发了人们对于安全和失业问题的担忧。霍金、马斯克等科技大佬都公开发声,担心人工智能会失去控制,上演科幻小说中人机大战的情节,其他人则害怕认知工作的自动化会将会导致大面积的失业。两个世纪以后的今天,曾经的“机器问题”卷土重来,我们需要找出可行的解决方案。
“机器问题”和解决方案
启示人们最为担忧的是人工智能技术会破开牢笼,变得邪-恶而不可控。早在工业革命浪潮席卷全球时,人机矛盾已经出现,现在的矛盾不过是披上了人工智能的新外衣,人类的焦虑依旧,《科学怪人》及此后类似的文学作品都是这种担忧的映射。然而,尽管人工智能技术已成为一门显学,但是它们只能完成特定的任务。想在智商上战胜人类,AI还差得远呢。此外,AI是否真能超越人类还未可知。名为安德鲁的AI研究人员表示,对人工智能的恐惧无异于在火星殖民还未实现时就担心人口膨胀的问题。在“机器问题”上,人们更加关注人工智能对人类就业和生活方式的影响。
失业恐惧由来已久。“科技性失业”的恐慌在20世纪60年代(公司开始安装计算机和使用机器人)和80年代(个人电脑开始上市)都曾弥漫开来,似乎大规模的自动化办公马上就要到来,让人类下岗。
但事实上,每一次恐慌之后,科技进步为社会创造的就业岗位远多于它杀死的过时职位,我们需要更多人从事全新的工作。举例来说,ATM机替代了一些银行柜员,为银行设立分行节约了成本,让雇员进入了机器不能做的销售和客服领域。同样地,电子商务的出现增加了零售商的生存空间。而在办公中引进电脑则不是为了取代员工的位置,员工习得新技能后,会成为电脑的辅助。尽管此前曾有报道称,未来10年或20年间,美国47%的岗位将面临自动化,但是我们的研究显示,这一数值恐怕连10%都不到。
尽管短期内一些工作消失的弊端会被全新职位出现的长期影响完全抵消且带来更大的好处,但是19世纪工业革命的经验表明,转变的过程极其痛苦。从停滞不前的生活水平上反映出经济的增长需要几百年,而从显著的收入变化上来看只需几十年。人口从乡村大量涌入城市工厂,在当时的欧洲引发动荡。各国政府花费了整整一百年的时间构建新的教育和福利体系适应这种转变。
这一次的转变似乎更为迅速,当前科技传播的速度可比200多年前快多了。得益于技术的辅助,高技术工作者的薪资会更高,因此收入不平等的现象正在不断加深。这给用人公司和政府带来了两大挑战:如何帮助工作者学习掌握新技能;如何让后代做好准备,在满世界都是人工智能的社会求得工作机会。
聪明的回应
技术的发展使得岗位的需求产生变化,工作者必须适应这种转变。这意味着要调整教育和训练模式,使其足够灵活,从而快速、高效地教授全新的技能。终生学习和在职培训的重要性更加凸显,在线学习和电子游戏式的仿真模拟会更加普遍。而人工智能可以帮助制定个性化计算机学习计划,依照工作者技能差距提供新技术培训机会。
此外,社会交往技能也会变得更加重要。由于工作岗位的更迭变快,技术革新的脚步也逐渐加快,人类的工作年限越来越长,社交技能成了社会的基石。它能在人工智能主导的社会保持人类的优势,帮助人类完成基于情感和人际往来的工作,这是机器无法拥有的优越性。
对人工智能和自动化的担忧也催生了人们对“安”的渴望,有了它普通人就能免受劳动力市场动-乱影响。一些人认为应该革新福利系统,让每个人都享有保障生存的“基本收入”。但是在没有充足证据表明技术革命会导致劳动力需求锐减的形势下,这种做法并不可龋反之,各国应该学习丹麦的“灵活安全系统”制度,让企业裁员更加容易,但是在被裁员的职工接受再培训和再求职期间提供保障。这种制度下,福利、养老金、医保等应该跟随个体本身,而不是与职员身份挂钩。
尽管技术快速进步,工业时代的教育和福利系统并没有完全实现现代化,相关制度也不够灵活。革新势在必行,决策者必须行动起来,否则当前福利系统会面临更大的压力。19世纪40年代,约翰•穆勒(JohnStuartMill,英国经济学家)写道,“没有什么比立法者对这类人的照顾更为正当了”,他们的生活被技术的发展所累。在蒸汽时代,这是真理,在人工智能的时代,同样也是。
【篇二】
围棋博弈的人机大战,以机器的获胜而落下帷幕,而人工智能的利弊,再度引发了争议。但我想的更多的是,科技背后的那份渐行渐远的人文情怀。
围棋对弈,被列为琴棋书画四大雅事之一。而今,当人类与一个冰冷的机器,只争技术的优劣,只论智商的高下时,那份弈棋时的淡泊宁静的心境,那份“闲敲棋子落灯花”的情怀,又该置于何地?
科技的发达,让通讯变得便捷,于是,当下的我们很少再能写出“多情自古伤离别”的优美诗句,很少能体会“家书抵万金”的情谊万钧。
科技的进步,让农耕变得机械化,于是,当下的我们很少能吟诵出“带月荷锄归”的悠闲辞章,很少能感受“汗滴禾下土”的辛劳苦楚。
科技的演变,让社交变得多元,于是,当下的我们很少再能唱出“对影成三人”的独处情怀,很少能理解“执子之手,与子偕老”的至情专一。
正如木心先生所说:“从前的日色变得慢,车、马、邮件都慢,一生只够爱一个人。”科技带给我们便利、快捷的同时,也将我们原本质朴、美好的那份生活味道、人文的情怀稀释很多!
因此,让科技拥有人文的情怀,回归如璞玉般的美好生活,才是正途。
我国古代,那些璨如星辰的科技巨擘,无一不是既有科技头脑又有人文情怀。
东汉“科圣”张衡,“通五经,贯六艺,拟作《二京赋》,精思傅会,”文采斐然。但同时,他又“善机巧,尤致思于天文阴阳历算”,发明浑天和地动两仪器,且著有多部科学著作。
张衡的科技发明,就是插上了人文情怀的翅膀,才飞的更高更远!
众所周知,伟大的物理学家爱因斯坦,不仅拥有超人的科学头脑,还同时有极高的音乐修养,他擅长钢琴和小提琴演奏。他曾坦言,是音乐这位欢乐女神为他驱散了忧郁和喧嚣,驱走了混乱和邪-恶。是音乐让科学更美丽与和-谐。
无独有偶,我国科学家钱学森也曾说过:“在我对一件工作遇到困难而百思不得其解的时候,往往是蒋英的歌声使我豁然开朗,得到启示......我钱学森要强调的一点,就是文艺与科技的相互作用。”
可以窥见,古往今来,科学和人文,从来都是人类发展中相辅相成,不可或缺的两大重要力量。如果人类是飞翔的鸟儿,那么科技和人文就是一对,彼此依托的翅膀,缺了谁,都会产生不可预料的后果!
唯有科技的理性,人类会变得坚硬、冷漠、可憎;唯有人文的欢乐,人类会变得软弱、迷乱、醉生梦死。
让科技拥有人文情怀,人类才会走得更远、更久、更好!
放下手机,拿起书籍,在翰墨馨香、书册函影中,与智慧交流;
关掉空调,走出户外,在春花秋月、夏雨冬雪中,与自然对话;
停驻汽车,迈出脚步,在山川河流、花草树木中,与大地亲近;
【篇三】
人工智能的曙光
强大的电脑科技将重新规划人类的未来,但如何才能确保其带来的好处会多于危险呢?
“世上真的有上帝吗?”科学家用颤抖的声音问道。
“现在有了。”世界上最聪明的人工智能电脑回答。话毕,一道电光闪过它的电源插头――人们再也关不掉它了。
这是斯蒂芬・霍金在出席脱口秀时阐述的一则“恐怖故事”,而在前不久的伦敦“谷歌时代精神”大会上,霍金平静地描述了人类的命运:“在未来100年内,结合人工智能的计算机将会变得比人类更聪明。”
斯蒂芬・霍金警示道:“人工智能的全面发展可能为让人类征途画上句号。”特斯拉汽车公司与美国太空探索技术公司CEO伊隆・马斯克则担心人工智能可能会成为人类生存所要面临的威胁。持有同样看法的还有微软创始人比尔・盖茨。今年年初,他们都在在一封提倡控制人工智能发展的公开信上签下自己的名字。
人们害怕自己所创造出来的人工智能会反客为主成为自己的主宰,或是刽子手――虽然这种观点还很新,但已然成为一种不可忽视的新趋势。毕竟,这是由的宇宙论者,硅谷企业家以及微软的创始人,可能还是卢德派分子(强烈反对提高机械化和自动化者)提出的,而这一观点也被用来反对诸如谷歌、微软等大公司对于人工智能开发的巨大投资。随着超级电脑的日益普及,机器人在各个战场的无往不胜,只把人工智能和机器人定义在科学领域就显得太自欺欺人了,现在的问题是,我们究竟该担心什么?
你教我语言以及……
首先我们需要了解一下电脑现在能做什么,以及它们未来可能能做什么。得益于加工工艺的发展以及越来越丰富的数码数据,人工智能的能力得到了爆炸性增长。通过模仿人类大脑的神经元以及摄入大量的数据,如今的“深度学习”系统可以教会他们自己完成诸多任务。从图形识别到翻译,人工智能几乎可以和人类做的一样好。结局就是,那些需要动脑完成的游戏,如“青蛙过河”,现在已经可以通过电脑程序解决。2014年由Facebook公司推出的DeepFace演算系统,就可以从图片中识别出人脸,识别率高达97%。
尤为关键的是,这项能力是有特定用途的。如今的人工智能是通过简单粗暴的数值计算来伪装成“智能”,而不是像人类的思想一样是在自主地思考,或是出于对某物的兴趣和渴望进行思考。现在的电脑智能尚无法像人类那样拥有灵活的推测判断的能力。
不过,人工智能已有足够的力量给人类的生活带来翻天覆地的影响。它可以与人类互补,从而增强人类的能力。就拿国际象棋来说,电脑现在已经玩得比任何人都好,虽然世界顶尖的国际象棋大师并不是机器,但被世界棋王卡斯帕洛夫称为“半人马”的就是混合着人类与演算程序的队伍。这样一种集成形态会逐渐成为人机追逐赛的常态:有了人工智能的帮助,医生可以更方便地标记癌症;智能手机中的语音识别系统可以将互联网带给数百万发展中国家的文盲人群;数字助理会对学术研究提出有用的假说;图像分类系统让可穿戴电脑将真实世界的有用信息直观呈现在人们的眼前。
从短期来看,不是所有的情况都是乐观的。比如,人工智能又唤醒了机械设备对于国家安全的作用。无论是*国家还是民主国家,这种可以监视上亿个场景,并且可以通过人脸或声音从人群中识别出每一个市民的能力,都会对民众自由构成重大的威胁。
即使整个社会都能从人工智能那儿得到巨大的好处,仍会有许多个人遭受损失。曾经,做着如今电脑们做的活儿的是苦工们,而且大多是女性:她们为自己的上司们做着无尽的计算工作。而就像现在电脑替代了她们一样,人工智能可能会让整个白领阶层都丢了工作。当然,更多的教育和训练会有所帮助,而借助人工智能产生的财富也会被用于创造新的工作,不过工人们注定会失去位置。
监视手段和混乱并不是霍金、马斯克和盖茨所担心的,也不是好莱坞近期密集推出未来人工智能电影的原因。他们所担心的是更长远、更具启示的问题:这些具有超人的智慧与能力的机器人们会最终与人类作对。
不过,离这样的人工智能出现还有很长一段路要走,而实际上它们可能根本不会被创造出来。即使对大脑进行了长达一个世纪之久的研究,心理学家、神经学家、社会学家以及哲学家们仍旧无法理解大脑是由什么构成的,或者它是什么。
我知道如何诅咒
不过即使霍金认为人工智能很有希望将实现,对于科学家们而言这仍是仍重而道远,必须小心谨慎地进行规划。其实这一过程比看上去要容易,尤其是人类已经创造出了有着超人能力和没有共同利益的自治实体,并且使用了很长一段时间。政府官僚、市场以及军队都可以完成独立的、无组织的人类所不能完成的任务。而这些团体都如人工智能一样,可以自主运作,承担自己的生活,以及如果没有法律法规的管辖,它们都会对社会造成危害。
这些相似点应该能够安抚人们对于未来人工智能的恐惧,而这同时也为科学家如何安全地开发人工智能提出了实质性的建议。就如同军队需要平民的监督,市场需要被调节,以及政府需要公开化和透明化一样,人工智能系统也需要公开检验。而由于在设计系统时不可能预见到所有的情况及应对方法,所以该系统也一定要有一个关闭按钮。这些措施也能在不妨碍人工智能系统开发的同时有效地约束它。从核武器到交通规则,人类有能力用巧妙的技术和合法的约束控制这些强大的科技革新。
“人类最终会创造出一种自主的非人类的智能”这一观点就像幽灵一样一直萦绕在人们心头。这实在是太特别了,让人们不断地为其争论。是的,这里危机重重,不过这也不能掩盖,人工智能的曙光所带来的巨大利益。
相关文档推荐高中关于人工智能的作文【五篇】高中有关人工智能的议论文高中人工智能的利与弊作文1000字高中关于人工智能的作文三篇高中关于人工智能的作文高中关于人工智能的议论文600字查看无忧考网高中作文全部文档资源>>