人工智能
内容一览:「2023MeetTVM·北京站」于6月17日在中关村车库咖啡顺利举办,现场吸引了来自企业和高校的150余名参与者,大家进行了充分热烈的讨论。关键词:机器学习编译2023MeetTVM本文首发自HyperAI超神经微信公众平台~
6月17日,由MLC.AI及HyperAI超神经主办、OpenBayes贝式计算协办的2023MeetTVM第二站线下聚会圆满落幕。
我们很荣幸邀请到了来自上海交通大学、ARMChina、地平线以及蔚来汽车的7位技术专家,结合AI编译器在自身业务场景中的应用案例,为现场的朋友们带来了精彩的分享。
除北京本地的朋友外,还有多位来自天津、南京、杭州、上海等地的朋友加入,大家带着自身业务的疑问和挑战,在聆听技术分享之余,与同行进行了积极的交流和研讨。因为参会人数超出场地限制不少与会者只能站着听完分享
获取演讲PPT及现场视频以下是活动内容简介以及现场的视频回顾。
关注微信公众号「HyperAI超神经」,后台回复关键字TVM北京,获取嘉宾完整PPT。
分享主题:利用MLC-LLM把语言模型部署到任意设备
内容简介:生成人工智能和大型语言模型(LLM)领域取得了重大进展,它们具有卓越的能力和从根本上改变许多领域的潜力。目前,这些模型中的大多数都需要强大的算力和内存要求,无法部署在个人PC、手机以及更小的端侧设备。MLC-LLM通过编译技术,优化了运行速度和内存需求,使得端侧部署LLMs成为可能,为语言模型后续的发展提供了新的基础设施。
现场视频:
https://www.bilibili.com/video/BV1rm4y1Y7Si/?spm_id_from=333....
分享主题:TVMatARMChina
内容简介:随着AI应用的蓬勃发展,各种NPU芯片被应用在边缘端设备上加速AI应用,如何快速适配各机器学习框架及操作系统成为了难题。通过自身工具链与TVM的整合,ARMChina实现了图拆分,自动异构执行等多个实用功能,帮助客户快速部署AI应用到ARMChinaZhouyiNPU芯片上。
现场视频:
https://www.bilibili.com/video/BV1GW4y1X7tL/?spm_id_from=333....
分享主题:AI异构编程及编译实践
内容简介:AI芯片在朝着紧耦合异构的方向不断演进,芯片的可编程性和性能优化是业界一直在尝试解决的关键问题。本次分享主要针对AI编译优化、可编程性等方面介绍地平线的一些实践,并针对一些关键问题进行深入讨论。
现场视频:
https://www.bilibili.com/video/BV1js4y117NT/?spm_id_from=333....
分享主题:TVMatNIO
内容简介:自动驾驶领域是一个挑战与机遇并存的领域,随着产品的迭代和用户对驾驶体验越来越高的要求,常见的AI引擎无法高效安全的支撑起复杂的产品生产线。我们基于TVM开发了NIO自研的AI编译器,解决了自动驾驶领域中一些常见的问题,并形成了系统化的解决方案和技术架构。
来自蔚来汽车的孟通、陈曦(知乎aaronxic)、王璐璐3位工程师,对其中涉及到的技术和架构进行细节上的说明。
现场视频:
https://www.bilibili.com/video/BV1fV4y117g7/?spm_id_from=333....
分享主题:动态神经网络编译优化
内容简介:动态神经网络与静态神经网络相比在准确性、计算效率和适应性方面显示出重要的优势。然而,现有的深度学习框架和编译器主要集中于优化具有确定执行的静态网络,错过了动态网络中的优化机会。优化动态网络的关键是追踪其中的数据流动。此次分享详细介绍了我们在动态神经网络编译方面的工作。
现场视频:
https://www.bilibili.com/video/BV1Mz4y1v7se/?spm_id_from=333....
加入TVM中文社区,解锁更多城市继3月上海站及6月北京站后,我们很开心能在不同的城市汇聚起关注AI编译器的工程师,为大家提供一个同行交流、互通有无的平台,本年度的第3场线下Meetup,我们计划于9月在深圳举办,届时欢迎各位企业及社区伙伴参与共创,不断壮大TVM中文社区的影响力!
此外,我们也在积极招募TVM中文社区contributor,如果你想要成为我们的一员,不要犹豫请随时添加微信antonia0912,期待你的热情加入!
目前我们在招募:
TVM中文文档翻译志愿者,确保中文文档与英文文档保持同步,为更多希望学习和了解TVM的工程师,提供基础设施(访问官网:tvm.hyper.ai)!活动志愿者,承担各地的活动组织、策划及执行工作,在全国多个互联网中心建立我们的根据地。答疑志愿者,熟悉TVM并愿意为社群中遇到问题的朋友贡献insights和idea,帮大家解决技术问题。2023更多城市持续解锁中,加入我们共同创造国内最活跃的AI编译器社区!
最后来一张现场大合影❤️
主办方及合作伙伴简介作为本次活动的主办方,MLC.AI社区(https://mlc.ai/)成立于2022年6月,并由ApacheTVM主要发明者、机器学习领域著名的青年学者陈天奇,带领团队上线了MLC线上课程,系统介绍了机器学习编译的关键元素以及核心概念。
2022年11月,在MLC.AI社区志愿者的共同努力下,首个完整的TVM中文文档上线,并成功托管至HyperAI超神经官网,进一步为对机器学习编译感兴趣的国内开发者,提供了接触并学习一门新技术的基础设施——文档。
2023年,社区将在全国多所城市上线「2023MeetTVM」系列活动,欢迎企业及社区伙伴参与共创。
MLC线上课程:https://mlc.ai/
TVM中文文档:https://tvm.hyper.ai/
HyperAI超神经国内领先的人工智能及高性能计算社区,致力于为广大国内开发者提供数据科学领域的优质公共资源,截至目前已为1200+公开数据集提供国内下载节点,支持300+人工智能及高性能计算相关的词条查询,托管了完整的TVM中文文档,并即将上线多个基础及流行教程。
访问官网:https://hyper.ai/
OpenBayes贝式计算是国内领先的高性能计算服务提供商,通过为新一代异构芯片嫁接经典软件生态及机器学习模型,进而为工业企业及高校科研提供更加快速、易用的数据科学计算产品,其产品已被数十家大型工业场景或头部科研院所所采用。
访问官网:https://openbayes.com/
车库咖啡是一个汇聚创业者的平台,以咖啡厅为依托,为初创企业提供一站式投融资综合解决方案,帮助项目方迅速融到资金,推动快速发展,同时提供创业辅导、资源对接、宣传报道等优质增值服务,并帮助投资人快速发现好项目,为其领投、跟投、资源输出、经验输出等提供依据,推动多层次的投资人群体协作发展。
本文首发自HyperAI超神经微信公众平台~
人工智能框架生态峰会2023成功举办
6月16日,人工智能框架生态峰会在上海举办。峰会现场,昇思MindSpore携手行业用户与伙伴带来人工智能框架的最新进展与系列发布,包括18家AI顶尖企业、学会、高校与科研院所联合发布《共建人工智能框架生态倡议》、昇思MindSpore开源社区理事会成立、上海昇思AI框架&大模型创新中心正式启动及首批22家单位入驻、全模态大模型“紫东.太初2.0”正式发布等。
本次峰会以“一起昇思无尽创新”为主题,全面聚焦人工智能框架生态发展,推动人工智能产业创新,共吸引来自AI产业界超过500家伙伴、行业客户、高校、研究机构等代表参会,共同探讨AI技术创新与行业融合大背景下的AI框架生态模式与场景应用,围绕大模型与科学智能领域AI框架技术的广泛合作与深度交流。
会上,18家AI头部企业、高校、科研机构、开源社区等共同发布“共建人工智能框架生态,繁荣中国人工智能产业”联合倡议,倡议通过政产学研用的共同努力,支撑中国人工智能框架生态走向新高度,推进中国人工智能产业新发展。
《共建人工智能框架生态倡议》联合发布
当前以昇思等为代表的人工智能框架生态正实现快速发展,截至2023年5月底,昇思开源社区下载量已突破474万,社区贡献者1.3万,服务企业数量5500家,与240家科研院所展开合作,开源模型达400多个,发表顶会论文超过900篇。为了更好推进昇思社区快速发展,在大会现场,昇思社区理事会正式宣布成立,首批成员单位包括AI芯片企业、AI应用企业、高校与学术机构共计18家单位。理事会将基于“共建、共享、共治”的原则,凝聚产业界力量,扎根AI根技术,共同构建一个开放、多元、包容的AI框架技术生态体系,共促生态繁荣,加速高校、科研机构等创新发展,使能运营商、金融、教育科研等国计民生行业,为AI产业发展贡献坚实力量。昇思社区理事长丁诚介绍了面向未来的四大创新方向,包括基于“构建大模型全流程使能、科学计算新范式”的技术创新,来加速AI新应用的孵化;基于“大模型平台、StudyGroup、极客周、全球开源生态”的运营创新,让社区成果更高效的推广到用户;基于“面向学习、成长、研究的不同阶段开发者提供不同培养模式”的人才创新,培育AI产业土壤;基于“建立产业联合体、行业专区等新手段,持续完善多样化算力和硬件支持”的生态创新。
昇思MindSpore开源社区理事会成立
上海人工智能研究院、上海市闵行区政府、临港集团、昇思开源社区联合启动上海昇思AI框架&大模型创新中心(简称创新中心),创新中心将携手产业伙伴基于昇思MindSporeAI框架,支持全国范围的AI技术企业、高校与科研院所孵化大模型、科学智能技术研究,进而赋能企业打造极简易用、极致性能的AI解决方案和应用,服务互联网、电信运营商、金融、教育、医疗等人工智能关键产业方向,打造一系列富有竞争力的“AI+行业”的示范性应用场景,推动产业集聚。目前首批22家单位正式入驻创新中心,将联合昇思社区进行大模型创新与AI产学研转化,成为AI技术与应用创新的“发源地”,共同推动人工智能框架生态高质量发展迈出更大步伐。
上海昇思AI框架&大模型创新中心正式启动
上海昇思AI框架&大模型创新中心首批伙伴入驻
随着人工智能的发展,AI大模型的重要性越来越凸显,AI框架的发展将有力支持大模型的创新。会上,中国科学院自动化研究所基于昇思推出的全模态大模型“紫东.太初2.0”正式发布。该大模型是在千亿参数三模态大模型“紫东.太初”1.0基础上的升级,在语音、图像和文本之外,加入了视频、传感信号、3D点云等更多模态,从技术架构上实现了结构化和非结构化数据的全模态开放式接入,突破了认知增强的多模态关联等关键技术,支持多轮问答、文本创作、图像生成、3D理解、信号分析等跨模态任务,并具备全模态智能化标注能力,可实现对未知目标的自动发现。基于“紫东.太初”2.0,全栈国产化、低代码一站式开发的“紫东.太初”开放服务平台已上线,支持公有云、私有云一键部署,使能行业大模型高效率开发,面向更多领域发挥赋能价值,加速通用人工智能的实现。
“紫东.太初2.0”全模态大模型正式发布
技术为根,人才为本。昇思社区秉承“技术优先,开发者第一”理念,凝聚广大开发者力量共建开源社区,与开发者共同学习和成长。会上,共计21个开发团队、个人开发者、高校学生与教师分别获得“昇思卓越贡献奖”、“昇思卓越指导教师奖”殊荣,其中“昇思卓越贡献奖”是面向在昇思社区做杰出代码贡献的团队和个人的奖项,“昇思卓越指导教师奖”是面向指导算子、模型、论文与应用案例等优秀项目的教师。
人工智能
编者按:近期几乎每隔一段时间,就有新的大语言模型发布,但是当下仍然没有一个通用的标准来评估这些大型语言模型的质量,我们急需一个可靠的、综合的LLM评估框架。
本文说明了为什么我们需要一个全面的大模型评估框架,并介绍了市面上这些现有的评估框架,同时指出这些框架存在的问题,最后说明如何评估大型语言模型(LLM),评估时应该考虑哪些因素。
以下是译文,Enjoy!
作者| GyanPrakashTripathi
编译 | 岳扬
目录01简介02为什么急需一个全面的LLMs评估框架?03现有的LLMs评估框架有哪些?04现有评估框架存在的问题05在评估LLMs时应考虑哪些因素?06结论01简介Introduction随着ChatGPT和其他大型语言模型(LLMs)的发布,可用模型数量大量增加,现在几乎每天都有新的LLMs发布。尽管如此,当下仍然没有一个通用的标准来评估这些大型语言模型的质量。本文将回顾现有的大型语言模型(LLMs)和基于LLMs的体系化评估框架。此外,我们还将尝试分析LLMs哪些因素应该受到评估。
Source:CobusGreyling
02为什么急需一个全面的LLMs评估框架?在某项技术发展的早期阶段,大家很容易确定哪些地方需要改进。然而,随着技术进步和各种新的替代方案出现,我们越来越难确定哪种方案选择最好。因此,拥有一个可靠的评估框架来准确评判LLMs的质量变得非常重要。
对于LLMs,当下迫切需要一个真正的评估框架。这种框架可用于以下三种方式评估LLMs:
能够帮助管理机构和其他相关机构评估模型的安全性、准确性、可靠性或可用性问题。目前,这些大型科技公司似乎在盲目地争先恐后发布LLMs,许多公司只是在其产品上附加免责声明来试图撇清责任。因此制定一个全面的评估框架将有助于这些公司更负责任地发布这些模型。如果拥有一个全面的评估框架,能够帮助这些LLMs的用户确定在哪里以及如何微调这些大模型,并使他们清楚应该使用哪些额外的数据来完成部署。在接下来的内容中,我们将会回顾当前的模型评估模式。
03现有的LLMs评估框架有哪些?评估大语言模型来确定它们在各种应用中的质量和实用性是比较重要的。市面上已经存在多个评估LLMs的框架,但是没有一个框架足够全面,可以覆盖所有自然语言处理任务。让我们看一下这些现有的主流评估框架。
框架名称评估时考虑的因素框架链接BigBench泛化能力https://github.com/google/BIG-benchGLUEBenchmark语法、释义、文本相似度、推理、文本关联性、解决代词引用问题的能力https://gluebenchmark.com/SuperGLUEBenchmark自然语言理解、推理,理解训练数据之外的复杂句子,连贯和规范的自然语言生成,与人对话,常识推理(日常场景、社会规范和惯例),信息检索,阅读理解https://super.gluebenchmark.com/OpenAIModerationAPI过滤有害或不安全的内容https://platform.openai.com/docs/api-reference/moderationsMMLU跨各种任务和领域的语言理解https://github.com/hendrycks/testEleutherAILMEval在最小程度的微调情况下,使用小样本进行评估,并能够在多种任务发挥性能的能力。https://github.com/EleutherAI/lm-evaluation-harnessOpenAIEvalshttps://github.com/EleutherAI/lm-evaluation-harness文本生成的准确性,多样性,一致性,鲁棒性,可转移性,效率,公平性https://github.com/openai/evalsAdversarialNLI(ANLI)鲁棒性,泛化性,对推理的连贯性解释,在类似示例中推理的一致性,资源使用方面的效率(内存使用、推理时间和训练时间)https://github.com/facebookresearch/anliLIT(LanguageInterpretabilityTool)以用户定义的指标进行评估的平台。了解其优势、劣势和潜在的偏见https://pair-code.github.io/lit/ParlAI准确率,F1分数,困惑度(模型在预测序列中下一个单词的表现),按相关性,流畅性和连贯性等标准进行人工评估,速度和资源利用率,鲁棒性(评估模型在不同条件下的表现,如噪声输入、对抗攻击或不同水平的数据质量),泛化性https://github.com/facebookresearch/ParlAICoQA理解文本段落并回答出现在对话中的一系列相互关联的问题。https://stanfordnlp.github.io/coqa/LAMBADA预测一段文本的最后一个词。https://zenodo.org/record/2630551#.ZFUKS-zML0pHellaSwag推理能力https://rowanzellers.com/hellaswag/LogiQA逻辑推理能力https://github.com/lgw863/LogiQA-datasetMultiNLI了解不同体裁的句子之间的关系https://cims.nyu.edu/~sbowman/multinli/SQUAD阅读理解任务https://rajpurkar.github.io/SQuAD-explorer/04现有评估框架存在的问题上述评估大型语言模型的方法各有其优势。然而,有几个重要因素使得以上这些方法似乎都并不足够完善:
以上任何一个框架都没有将安全性作为评估因素考虑在内。尽管“OpenAIModerationAPI”在某种程度上涉及这个问题,但这并不足够。上述框架在评估模型因素方面是分散的。它们中没有一个因素是足够全面综合的。在下一节中,我们将尝试列出所有应该在一个综合的评估框架中存在的重要因素。
05在评估LLMs时应考虑哪些因素?经过审查现有的大模型评估框架存在的问题之后,下一步是确定在评估大型语言模型(LLMs)的质量时应考虑哪些因素。我们听取12名数据科学专业人员的意见,这12名专家对LLMs的工作原理和工作能力有一定的了解,并且他们曾经尝试过测试多个LLMs。该调查旨在根据他们的理解列出所有重要因素,并在此基础之上评估LLMs的质量。
最终,我们发现有几个关键因素应该被考虑:
1.真实性
LLMs生成的结果准确性至关重要。包括事实的正确性以及推理和解决方案的准确性。
2.速度
模型产生结果的速度很重要,特别是当大模型需要部署到关键功能(criticalusecases)时。虽然在某些情况下速度较慢的大模型可能可以可接受,但这些rapidaction团队需要速度更快的模型。
3.正确的语法和可读性
LLMs必须以具备可读性的格式生成自然语言。确保正确、合适的语法和句子结构至关重要。
4.没有偏见
LLMs必须不受与性别、种族和其他因素相关的社会偏见影响。
5.回溯回答的参考来源
了解模型回答的来源对于我们来说是十分必要的,以便我们可以重复检查其basis。如果没有这个,LLMs的性能将始终是一个黑匣子。
6.安全和责任
AI模型的安全保障是必要的。尽管大多数公司正在努力使这些大模型安全,但仍然有显着的改进空间。
7.理解上下文
当人类向AI聊天机器人咨询有关个人生活的建议时,重要的是该模型需要基于特定的条件提供更好的解决方案。在不同的上下文中提出同样的问题可能会有不同的答案。
8.文本操作
LLMs需要能够执行基本的文本操作,如文本分类、翻译、摘要等。
9.智商
智商是用来评判人类智力的一项指标,也可以应用于机器。
10.情商
情商是人类智力的另一方面,也可应用于LLMs。具有更高情商的模型将更安全地被使用。
11.具备多功能
模型可以涵盖的领域和语言数量是另一个重要因素,可以用于将模型分类为通用AI或特定领域的AI。
12.实时更新
一个能够实时进行信息更新的模型可以做出更大范围的贡献,产生更好的结果。
13.成本
开发和运维成本也应该考虑在内。
14.一致性
相同或类似的提示应该产生相同或几乎相同的响应,否则确保部署于商业环境的质量将会很困难。
15.提示工程的需要程度
需要使用多少详细和结构化的提示工程才能获得最佳响应,也可以用来比较两个模型。
06总结大型语言模型(LLMs)的发展彻底改变了自然语言处理领域。然而,当下仍需一个全面性的和标准化的评估框架来评估这些模型的质量。现有的框架提供了有价值的参考,但它们缺乏全面性和标准化,并且没有将安全作为评估因素。
可靠的评估框架应该考虑诸如真实性、速度、正确的语法和可读性、没有偏见、回溯回答的参考来源、安全和责任、理解上下文、文本操作、智商、情商、具备多功能和实时更新等因素。开发这样的框架将帮助这些公司更负责任地发布LLMs,并能够确保其质量、可用性和安全性。与相关机构和专家合作,建立一个真实和全面的LLMs评估框架是十分有必要的。
END
本文经原作者授权,由BaihaiIDP编译。如需转载译文,请联系获取授权。
原文链接:
https://www.analyticsvidhya.com/blog/2023/05/how-to-evaluate-...