大模型对战平台「SuperCLUE 琅琊榜」排名首发，国内大模型首超 GPT 3.5

最近，来自中文语言理解测评基准开源社区 CLUE 的成员发起了中文大模型匿名对战平台 SuperCLUE - 琅琊榜，目前已经获得有效投票 5.8K。

以下是截至 2023 年 5 月 29 日 18 点 22 分的 SuperCLUE 琅琊榜初始排名。网站 https://www.superclueai.com/

SuperCLUE - 琅琊榜官方唯一地址：www.SuperCLUEAI.com https://www.superclueai.com/

SuperCLUE 是中文通用大模型综合性测评基准。
它主要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：
这些模型不同任务的效果情况
相较于国际上的代表性模型做到了什么程度
这些模型与人类的效果对比如何？
它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE 是中文语言理解测评基准 (CLUE) 在通用人工智能时代的进一步发展。

在初始排名中，由 Anthropic 公司开发的 Claude 模型以 1215 分暂居第一。在国内模型中，MiniMax 模型以 1188 的高分力压众多国产大模型登顶 SuperCLUE 琅琊榜，暂居国服第一，也是国内大模型首次在公开测评中超过 GPT3.5。

其中，GPT 3.5 以 1171 分排名第三。由清华大学和智谱 AI 开发的 ChatGLM-130B 则以 8 分微弱差距排名第四，ChatGLM-6B 以仅 60 亿参数量的模型跻身前五，表现不俗。香港中文大学和复旦大学同样表现优异，分列 6、7 名，IDEA 研究院的姜子牙大模型同样也超过了 1000 分，排名第 9。

相比之下在英文上表现强劲的 vicuna-13b 模型，仅仅排名第 10，在中文能力上明显弱于国内中文大模型。

值得提及的是，在英文对战排名中表现优异的 RWKV，在中文对战表现上稍显不足。RWKV 团队表示正在训练中文基底模型，后续会以中文身份加入对战。

CLUE 团队表示，之后会定期更新 SuperCLUE 琅琊榜排名，同时加入更多具有代表性的大模型。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

大模型对战平台「SuperCLUE 琅琊榜」排名首发，国内大模型首超 GPT 3.5

最新文章

关于 eSIM，看这一篇就够啦

RTX3080显卡本机部署通义万相教程，文本生成视频实战

金刚经全文注音版PDF下载_金刚经白话文译文讲解_金刚经mp3读诵善音居士版

总结一下苹果iPhone17系列发布会的概要信息,全系列的配置和价格,优缺点性价比购买建议

my.frantech.ca（buyvm）的Promotion/优惠码是什么？enter promo code if you have one【promo code 促销码哪里找？】

logseq 超链接

随便看看

美国大带宽服务器：raksmart洛杉矶10G\20G\40Gbps带宽不限流量，$399/月起

raksmart美国洛杉矶1Gbps带宽不限流量服务器低至$89/月且有多种线路可选！

my.frantech.ca（buyvm）的Promotion/优惠码是什么？enter promo code if you have one【promo code 促销码哪里找？】

#BuyVM教程# buyvm主机如何购买BLOCK STORAGE SLABS? 如何使用“Block Storage”云存储盘/块挂载教程全命令行（1美元256GB空间!）

速度入手抢位 #BuyVM优惠码卢森堡机房已升级:VPS给10Gbps带宽,免费升级不限流量，AMD Ryzen 9 5950X

大模型对战平台「SuperCLUE 琅琊榜」排名首发，国内大模型首超 GPT 3.5

相关文章

最新文章

随便看看

标签