6月中旬,智源钻研院旗下的 FlagEval 大模型评测平台颁布最新榜单:在有规范答案的“客观评测”中,GPT-4 以76.11分在闭源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同时也是得分最高的国产大模型;其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在放开问答等“客观评测”中,Doubao-Pro 雷同排名第二,得分超越 GPT-4o 和 GPT-4。
豆包大模型在 FlagEval 客观评测中获综合评分第二(2024年6月)
FlagEval 大模型评测平台由智源钻研院与多个高校团队共建,以人类认知才干的开展阶梯为基准,对齐大模型所能到达的认知水平。FlagEval 构建了少量原创的非地下评测集,确保评测品质和公正性。自2023年6月上线以来,FlagEval 已实现了1000屡次笼罩世界大模型的评测。
Doubao-Pro 是由字节跳动自主研发的大言语模型,于5月15日正式颁布。本期 FlagEval 大模型排行榜,是豆包大模型在地下评测中的初次亮相。
测试效果显示,豆包大模型的数学才干、常识运用、义务处置等多项才干在客观评测和客观评测中都有着杰出体现。其中,常识运用和数学才干得分排名客观评测第一、客观评测前三,义务处置测试得分在主客观评测中均排名前三。
数学才干是评价大模型能否“痴呆”的一个关键维度。此前,复旦大学人造言语处置试验室就2024 年高考数学题对13家干流大模型产品启动评测,豆包的数学高考新课标 II 卷答题取得最高分,客观题正确率到达 74.66%,效果优于GPT-4o及国际多款大模型产品。
据悉,豆包大模型是国际经常使用量最大、运行场景最丰盛的大模型之一,日均处置 token 到达千亿级。其同名AI对话助手“豆包”,在苹果APP Store和各大安卓运行市场的AIGC类运行中下载量排名第一。目前,豆包大模型正在经过字节跳动旗下的火山引擎向企业市场放开服务,曾经与OPPO、荣耀、小米、三星、华硕等默认终端厂商建设协作。