我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
本文转自:解放日报
20款国产大模型角逐“最强王者”
查睿
本报记者 查睿
近日,上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena,首度集齐国内主流大模型全阵容,阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战,角逐中国大模型“最强王者”。
当下,“百模大战”厮杀正酣,各类榜单也层出不穷,其中国际开放研究组织LMSYS Org(Large Model Systems Organization)推出的大模型竞技场Chatbot Arena,已成为海外最具公信力的大模型竞技场之一,遗憾的是该竞技场中文化程度相对不足。为此,Compass Arena的推出将有效填补这一领域的空白。
相比考题固定的传统测评,中国大语言模型评测竞技场Compass Arena采用盲测、开放的测评模式,可以更全面地检验模型实力。Compass Arena设置了随机、匿名对战,大模型选手们成为“蒙面唱将”,模型信息隐去后,由系统随机匹配进行PK,用户可以天马行空自由出题,并作为评委主观评判和投票。如果大模型不小心“自报家门”,则对话被过滤,不计入成绩。通过成千上万轮PK挑战和用户投票,系统将对大模型进行自动排名。
Compass Arena由上海人工智能实验室OpenCompass司南评测体系与魔搭社区联合建设,前者负责组织评测,后者负责开源模型引入及社区打造。与Chatbot Arena相比,Compass Arena更聚焦中文大模型,主流国产大模型全覆盖,同时评测用户大多使用中文,可以充分评估国产大模型的性能。
目前,Compass Arena已汇聚超20款商业及社区模型,包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4等国内头部厂商的旗舰款大模型,并引入了Llama3、Mixtral等海外标杆模型进行参照。更多模型及厂商还在不断加入中。
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2024-06-02 11:45:08
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: