当天清晨,阿里巴巴官宣了史上最大规模的开源颁布,推出了基础模型Qwen2.5、公用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。
这三大类模型一共有10多个版本,包含0.5B、1.5B、3B、7B、14B、32B和72B,实用于团体、企业以及移动端、PC等不同人群不同业务场景的模型。
假设不想启动繁琐的部署,阿里还开明了旗舰模型Qwen-Plus 和 Qwen-Turbo的API,协助你极速开发或集成生成式AI配置。
开源地址:
Github:
在线demo:
API地址:
上方「AIGC开明社区」具体为大家引见这些模型的性能特点以及测试结果。
Qwen2.5系列性能测试
本次阿里开源的最大版本指令微调模型Qwen2.5-72B在MMLU-Pro
MMLU-redux、GPQA、MATH、GSM8K、HumanEval、MBPP等世界出名基准测试平台的测试结果显示。
只管Qwen2.5只要720亿参数,但在多个基准测试中击败了Meta领有4050亿参数的最新开源Llama-3.1指令微调模型 ;片面超越了Mistral最新开源的Large-V2指令微调模型,成为目前最弱小参数的开源模型之一。
即使是没有启动指令微调的基础模型,其性能雷同超越Llama-3-405B。
阿里开明API的旗舰模型Qwen-Plus,其性能可以媲美闭源模型GPT4-o 和Claude-3.5-Sonnet。
此外,Qwen2.5系列初次引入了140 亿和320亿两种新参数模型,Qwen2.5-14B 和 Qwen2.5-32B。
指令微调模型的性能则超越了谷歌的Gemma2-27B、微软的Phi-3.5-MoE-Instruct, 与闭源模型GPT-4o mini相比,只要三项测试略低其余基准测试所有超越 。
自阿里颁布CodeQwen1.5 以来,吸引了少量用户经过该模型成功各种编程义务,包含调试、回答编程关系的疑问以及提供代码倡导。
本次颁布的Qwen2.5-Coder-7B指令微调版本,在泛滥测试基准中,击败了那些出名且有较大参数的模型。
前不久阿里初次颁布了数学模型Qwen2-Math,本次颁布的Qwen2.5-Math 在更大规模的高品质数学数据上启动了预训练,包含由 Qwen2-Math 生成的分解数据。同时参与了对中文的允许,并经过CoT、PoT和 TIR的才干来增强其推理才干。
其中,Qwen2.5-Math-72B的全体性能逾越了Qwen2-Math-72B指令微和谐驰名闭源模型GPT4-o。
其实从上方这些测试数据不美观出,即使是参数很小的模型,在品质数据和架构的协助下,雷同可以击败高参数模型,这在能耗和环境部署方面领有相当大的长处。而阿里本次颁布的Qwen2.5系列将小参数模型的性能施展到了极致。
Qwen2.5系列便捷引见
Qwen2.5系列允许中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等超越29种支谣言语。与 Qwen2相似,Qwen2.5言语模型允许高达 128K tokens,并能生成最多 8K tokens的内容。
与Qwen-2相比, Qwen2.5系列的预训练数据大幅度增长到达了惊人的18万亿tokens,超越了Meta最新开源Llama-3.1的15万亿 ,成为目前训练数据最多的开源模型。
常识才干清楚增强,Qwen2.5在 MMLU 基准测试中,与 Qwen2-7/72B 相比从70.3提高到74.2,从84.2提高到86.1 。Qwen2.5 在 GPQA/MMLU-Pro/MMLU-redux/ARC-c 基准测试上也有显着改良。
Qwen2.5能够生成更合乎人类偏好的照应,与Qwen2-72B-Instruct相比,Qwen2.5-72B-Instruct的Arena-Hard分数从48.1显着提高到81.2 ,MT-Bench分数从9.12提高到9.35 。
数学才干取得增强,在融合了Qwen2-math的技术后,Qwen2.5的数学才干也获取了极速优化。在MATH基准上,Qwen2.5-7B/72B-Instruct的得分从Qwen2-7B/72B-Instruct的52.9/69.0提高到75.5/83.1。
此外,Qwen2.5在指令跟踪、生生长文本(从1k参与到超越8K标志)、了解结构化数据(例如表格)以及生成结构化输入(尤其是JSON)方面成功了显着改良。同时对系统揭示的多样性更具弹性,增强了聊天机器人的角色表演实施和条件设置。
原文链接: