博舍

国内大模型争霸赛,这是你心目中的大模型排名吗 国内人工智能大模型排名

国内大模型争霸赛,这是你心目中的大模型排名吗

OpenAIVsGoogle

目前大模型top2应该就是OpenAI的GPT-4,以及谷歌的PALM-2。这两家公司早已布局,而且技术实力雄厚。国内大模型和GPT-4相比,还是有比较大的差距。

但是国内的势头目前不错,百家齐鸣,还没有一家有绝对的优势。

让人头晕的排名

之前有媒体给出了目前国内Top-5的大模型公司,分别是:百度的文心一言、阿里的通义千问、腾讯的混元、华为的盘古以及360的智脑。

而最近,中文通用大模型基准(SuperCLUE)评测公布了最新结果,GPT-4遥遥领先,而国内成绩最好的是科大讯飞的星火认知大模型。这里面文心一言居然排在了最后一名,甚至比ChatGLM-6B的得分还低,实在难以置信。

但是我又仔细看了一下这个评测。妈呀,评测集是SuperCLUE,而非SuperGLUE。

众所周知,在国际NLP领域,有大名鼎鼎的数据集GLUE和SuperGLUE,非常权威,OpenAI、谷歌等的大模型都在上面评测,极大推动了NLP领域的发展。

这次这份SuperCLUE评测的发起方为ChineseGLUE组织(简称CLUE),CLUE是仿照GLUE由国内民间组织的评测,权威度和影响力与GLUE相比差很远,其微信账号主体属性为个人。但这也迷惑了不少圈内人,GLUE和CLUE分不清楚,堪称李逵和李鬼。

还有一点存疑,评测榜单发布当天5月9日,其官网显示信息,中文基准测评成员顾问中排名第一的是崔一鸣,身份为学术顾问委员会主任,哈工大讯飞联合实验室(HFL)资深级研究员。而5月10日,官网已删除此条顾问的信息。

而001号创始会员徐亮,是会长,相当于这个榜单的实际负责人。昵称brightmart,中文任务基准测评发起人。多个预训练模型中文版、文本分类和数据集开源项目作者。

徐亮还有另一个身份,在5月9日官网中显示,他是杭州实在智能算法专家,也就是元语智能的创始人,曾在2月份发布自称“国内首个功能对话大模型ChatYuan”,不仅无法测试,发布几天即被监管叫停。4月,又被报道套壳推出开源组件。有分析人士认为,不排除创业公司有融资压力,蹭热度吸引投资人关注。

该SpuerClue榜单发起方,001号顾问是讯飞身份背景、001号基准发起人是创业公司创始人。在榜单发布后,担心行业质疑其公平、公正,相关信息还被删除。这就有点不言而喻了。

仅用100道评测题目就出来了一份“权威报告”

最后来说下这个榜单本身,业内人士一眼就可以看出来,评测的很不合理,首先,没有公布评估数据,以及具体的评估方式。同时从它的公开表述,可推断总共题目就100道题目。这个题目量少到难以置信。专业人士可能有参与过,像国际权威SuperGlue榜单,题目一般都得有2万多道,离权威可是差了几万倍。况且,它的评测得分榜首都是人类,那这个评分的基准到底是什么?是否有很多主观性因素在里面?是否某些大模型提前在这个数据集上已经训练过?

任务设计太武断,所谓“通用”基准,是用以测试通用的人工认知能力的,那么我们自然希望,评测任务是参考了模型想要模拟的认知能力及相关理论,系统化地选择出来的。而实际上,我们观察到的则是,基准的作者们在选择任务的时候,更像是图方便、省事。以往,CLUE中存在着部分数据集,一味考虑任务的复杂性,却在最起码的分布边界划分上(如NER各个类别的边界,如场所、景点类,组织机构及其子类),模糊不清,且数据的一致性无法保证。

要么别比,要比就来点正规的比赛。自己出题自己考,说不准还抢跑,自己还是评委,那这是欺不负了解真相的吃瓜群众。投机取巧,终皆散去。苦练内功,才是王道。

国内大模型排名(仅供参考)

抛开这些,从模型规模、模型效果、市场占有率等多个角度,百度的文心一言、华为的盘古、阿里的通义千问、腾讯的混元排在前四,应该是比较合理的,至于后面的排名,就不大能保证了。不过下面的排名也可以参考一下:

下面是一份完整的名单:

按发布时间排序:

百度:文心一言

作为国内最早发布的大模型,百度的文心一言在今年3月16号就发布了,随后经过了多个版本的迭代。目前已经有上千家企业接入。文心一言支持图片、语音等多模态。

3月16日,百度在全球大厂中率先发布对标ChatGPT的大模型产品文心一言。据了解,文心一言内测一个多月,就完成了4次大的技术升级,大模型推理性能提升近10倍。

李彦宏在5月4日百度内部活动中表示,百度之所以能够在Google、Meta、Amazon等大厂之前率先发布生成式大模型产品,是因为百度在芯片、框架、模型、应用等四个层面做到全栈布局、层层领先。

360:360智脑

百度是国内搜索市场排名第一公司,而排名第二就是360。

大模型依靠的算力、数据、算法、场景,这两家公司都具备,这也是搜索公司的优势,有业务和数据支撑大模型研发和落地。

5月16日,360集团和智谱AI宣布达成战略合作,双方共同研发的千亿级大模型“360GLM”已具备新一代认知智能通用模型水准。

而在世界智能大会上,周鸿祎展示了“360智脑”的多轮对话和“360鸿图”的AI生图两个能力。

就像谷歌和微软,一个拥有谷歌搜索,一个拥有必应。国内的百度和360,一个拥有百度搜索,一个拥有360搜索。

2023全球数字经济大会人工智能高峰论坛: 探讨北京大模型的发展之路

2023全球数字经济大会人工智能高峰论坛于7月2日在北京中关村国家自主创新示范区会议中心举行。本次论坛以“智能涌现,重塑未来”为主题,旨在探讨通用人工智能大模型发展等热点议题,助力通用人工智能产业创新发展。中国电信北京公司代表中国电信,作为唯一运营商承办单位为论坛的顺利举办提供了全面的支持和协助,同时充分展示了中国电信在通用人工智能领域的实力和贡献。

北京市经信局局长姜广智为大会进行致辞。姜广智表示,北京市一贯重视人工智能产业发展,是当前国内大模型创新基础最好,人才团队最为集中,研发能力最强,产品迭代最活跃的地区。针对北京市加快建设国家新一代人工智能创新发展试验区和国家人工智能创新应用先导区,打造具有全球影响力的人工智能创新策源地,提出三点要求:一是加强政策创新和标准引领;二是加大场景开放力度;三是推动伙伴计划走深走实。

中国电信集团数字智能科技分公司副总经理张鑫在本次论坛上发表了《中国电信TeleChat大模型的实践和探索》的主题演讲,分享了中国电信在通用AI及大模型领域的研究成果和应用实践。在算法方面,已完成自研算法5000+的目标,包含通用和行业长尾算法均已落地投产;在算力方面,已初步搭建起覆盖全国的四级算力,并基于此打造星河AI赋能平台,针对北京市实施了“1+1+X”算力建设策略,全力推动算力资源的统筹与共享;在大模型方面,中国电信同步发力,正在自主研发通用大模型TeleChat,未来将依托该能力底座,携手合作伙伴,共同打造面向全行业提供高智能、超便捷的AI服务。

在成果发布环节,北京电信顺利入选了北京市通用人工智能产业创新伙伴计划第二批成员名单。同时,《中国电信北京分公司与集智未来共建面向通用大模型的专业算力服务》作为优秀合作案例参与了北京市通用人工智能产业创新伙伴计划合作项目的签约仪式。集智未来作为北京市唯一的人工智能产业创新基地,将与北京电信携手探索人工智能领域的创新合作模式:北京电信作为基础运营商,将建立满足人工智能企业需求的智算中心,在供给侧提供高质量的产品和服务;集智未来开展市场调研,在需求侧协助北京电信对接企业,为北京电信与其他产业行业伙伴之间的合作提供更多机会,助力北京加快建设全球数字经济标杆城市。

响应北京市发展人工智能产业号召,北京电信将加快海淀智算中心项目的建设进程,规划在海淀翠湖园区建设智算平台作为“1+1+X”中的北京节点,计划一期2023年底投产,二期2024年3月投产,为通用大模型和行业大模型训练提供有力保障。北京电信将利用自身算力和网络资源调度优势,为北京市的人工智能大模型提供强有力的支持,同时秉持新发展理念,聚集行业资源,与各产业合作伙伴共同努力,为千行百业的数字化发展提供强大的能力支撑。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。

上一篇

下一篇