豆包大模型排名国产第一客观评测智源降级大模型排行榜

萌子哥

2024-11-14 20:42:14发布
关注私信

145 132 646

6月中旬，智源钻研院旗下的 FlagEval 大模型评测平台颁布最新榜单：在有规范答案的“客观评测”中，GPT-4 以76.11分在闭源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同时也是得分最高的国产大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在放开问答等“客观评测”中，Doubao-Pro 雷同排名第二，得分超越 GPT-4o 和 GPT-4。

豆包大模型在 FlagEval 客观评测中获综合评分第二（2024年6月）

FlagEval 大模型评测平台由智源钻研院与多个高校团队共建，以人类认知才干的开展阶梯为基准，对齐大模型所能到达的认知水平。FlagEval 构建了少量原创的非地下评测集，确保评测品质和公正性。自2023年6月上线以来，FlagEval 已实现了1000屡次笼罩世界大模型的评测。

Doubao-Pro 是由字节跳动自主研发的大言语模型，于5月15日正式颁布。本期 FlagEval 大模型排行榜，是豆包大模型在地下评测中的初次亮相。

测试效果显示，豆包大模型的数学才干、常识运用、义务处置等多项才干在客观评测和客观评测中都有着杰出体现。其中，常识运用和数学才干得分排名客观评测第一、客观评测前三，义务处置测试得分在主客观评测中均排名前三。

数学才干是评价大模型能否“痴呆”的一个关键维度。此前，复旦大学人造言语处置试验室就2024 年高考数学题对13家干流大模型产品启动评测，豆包的数学高考新课标 II 卷答题取得最高分，客观题正确率到达 74.66%，效果优于GPT-4o及国际多款大模型产品。

据悉，豆包大模型是国际经常使用量最大、运行场景最丰盛的大模型之一，日均处置 token 到达千亿级。其同名AI对话助手“豆包”，在苹果APP Store和各大安卓运行市场的AIGC类运行中下载量排名第一。目前，豆包大模型正在经过字节跳动旗下的火山引擎向企业市场放开服务，曾经与OPPO、荣耀、小米、三星、华硕等默认终端厂商建设协作。

版权声明 1、本网站名称：莆田市城厢区萌爵百货商行
2、本站永久网址：http://www.relax48.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#FlagEval #豆包大模型

豆包大模型 排名国产第一 客观评测 智源降级大模型排行榜

豆包大模型排名国产第一客观评测智源降级大模型排行榜