20款国产大模型角逐“最强王者”

上海要闻来源: 解放日报 2024-06-02 00:00:00 阅读 (72)

记者查睿近日，上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena，首度集齐国内主流大模型全阵容，阿里通义千问、百度文...

记者查睿
近日，上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场Compass Arena，首度集齐国内主流大模型全阵容，阿里通义千问、百度文心一言、腾讯混元、字节跳动豆包、书生·浦语等20款国产大模型出战，角逐中国大模型“最强王者”。
当下，“百模大战”厮杀正酣，各类榜单也层出不穷，其中国际开放研究组织LMSYS Org（Large Model Systems Organization）推出的大模型竞技场Chatbot Arena，已成为海外最具公信力的大模型竞技场之一，遗憾的是该竞技场中文化程度相对不足。为此，Compass Arena的推出将有效填补这一领域的空白。
相比考题固定的传统测评，中国大语言模型评测竞技场Compass Arena采用盲测、开放的测评模式，可以更全面地检验模型实力。Compass Arena设置了随机、匿名对战，大模型选手们成为“蒙面唱将”，模型信息隐去后，由系统随机匹配进行PK，用户可以天马行空自由出题，并作为评委主观评判和投票。如果大模型不小心“自报家门”，则对话被过滤，不计入成绩。通过成千上万轮PK挑战和用户投票，系统将对大模型进行自动排名。
Compass Arena由上海人工智能实验室OpenCompass司南评测体系与魔搭社区联合建设，前者负责组织评测，后者负责开源模型引入及社区打造。与Chatbot Arena相比，Compass Arena更聚焦中文大模型，主流国产大模型全覆盖，同时评测用户大多使用中文，可以充分评估国产大模型的性能。
目前，Compass Arena已汇聚超20款商业及社区模型，包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4等国内头部厂商的旗舰款大模型，并引入了Llama3、Mixtral等海外标杆模型进行参照。更多模型及厂商还在不断加入中。

上一篇 59种图书入围“上海好童书”

下一篇今年“六一”期间，孩子们畅游博物馆体验温暖和力量埋下星辰大海的种子

标签:

免责声明：文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺，仅供读者参考；文章版权归原作者所有！本站作为信息内容发布平台，页面展示内容的目的在于传播更多信息；本站不提供任何商业咨询服务，阁下应知本站所提供的内容不能做为操作依据。如本文内容影响到您的合法权益（含文章中内容、图片等），请及时联系本站，我们会及时删除处理。

扫一扫打开手机网站

微信扫一扫关注我们

20款国产大模型角逐“最强王者”

给这篇文章的作者打赏

为您推荐

36.7℃ 上海入夏 150年来5月最高温

人工智能大模型地图研究报告发布 中国大模型数量居全球第二

让中小学生零距离了解大国重器种下科创的种子 50余个科创教育基地将开放研学

人工智能大模型地图研究报告发布中国大模型数量居全球第二