通义千问720亿参数模型宣布开源,部分性能超越闭源gpt-九游会国际

 

通义千问720亿参数模型宣布开源,部分性能超越闭源gpt-4

 邮箱网  0条评论  593次浏览  2023年12月01日 星期五 16:34

分享到:
新浪科技讯 12月1日午间消息,阿里云通义千问720亿参数模型qwen-72b今日宣布开源。该模型基于3t tokens高质量数据训练,在10个权威基准测评中夺得开源模型最优成绩,在部分测评中超越闭源gpt-3.5和gpt-4。

在英语任务上,qwen-72b在mmlu基准测试取得开源模型最高分;中文任务上,qwen-72b在c-eval、cmmlu、gaokaobench等基准得分超越gpt-4;数学推理方面,qwen-72b在gsm8k、math测评中断层式领先其他开源模型;代码理解方面,qwen-72b在humaneval、mbpp等测评中的表现大幅提升,代码能力有了质的飞跃。

据介绍,qwen-72b可以处理最多32k的长文本输入,在长文本理解测试集leval上取得了超越chatgpt-3.5-16k的效果。研发团队优化了qwen-72b的指令遵循、工具使用等技能,使之能更好地被下游应用集成。比如,qwen-72b搭载了强大的系统指令(system prompt)能力,用户只用一句提示词就可定制ai助手,要求大模型扮演某个角色或者执行特定的回复任务。

随着qwen-72b的开源,通义千问还开源了18亿参数模型qwen-1.8b和音频大模型qwen-audio。至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型。(文猛)

标签:通义千问大模型

我的评论:

请  后发表评论。
网站地图