• 我的订阅
  • 科技

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

类别:科技 发布时间:2024-06-07 09:32:00 来源:IT之家

IT之家 6 月 7 日消息,通义千问(Qwen)今天宣布经过数月的努力,Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级,并已在 Hugging Face 和 ModelScope 上同步开源。

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

IT之家附上 Qwen 2.0 主要内容如下:

5 个尺寸的预训练和指令微调模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B

在中文英语的基础上,训练数据中增加了 27 种语言相关的高质量数据;

多个评测基准上的领先表现;

代码和数学能力显著提升;

增大了上下文长度支持,最高达到 128K tokens(Qwen2-72B-Instruct)。

模型基础信息

Qwen2 系列包含 5 个尺寸的预训练和指令微调模型,其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。

模型 Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B 参数量 0.49B1.54B7.07B57.41B72.71B 非 Embedding 参数量 0.35B1.31B5.98B56.32B70.21BGQATrueTrueTrueTrueTrueTie EmbeddingTrueTrueFalseFalseFalse 上下文长度 32K32K128K64K128K

在 Qwen1.5 系列中,只有 32B 和 110B 的模型使用了 GQA。这一次,所有尺寸的模型都使用了 GQA,以便让大家体验到 GQA 带来的推理加速和显存占用降低的优势。

模型评测

相比 Qwen1.5,Qwen2 在大规模模型实现了非常大幅度的效果提升。我们对 Qwen2-72B 进行了全方位的评测。

在针对预训练语言模型的评估中,对比当前最优的开源模型,Qwen2-72B 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-07 12:45:27

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阿里云通义千问开源!70亿参数模型上线魔搭社区
...等多种语言的基座模型,在超过2万亿token数据集上训练,上下文窗口长度达到8k。Qwen-7B-Chat是基于基座模型的中英文对话模型
2023-08-03 17:00:00
Kimi爆火背后:访问量仅次于文心一言和阿里通义,国内外大模型都在卷上下文
...款面向C端的大模型产品。早前,该公司宣布在大模型长上下文窗口技术上取得新的突破,Kimi已支持200万字超长无损上下文,并开启产品内测,该能力在不到半年内提升9倍。市场的火爆
2024-03-23 14:00:00
阿里通义开源模型Qwen2.5力压Claude3.5、GPT-4o等顶级闭源模型
...Qwen2.5能够提供更为自然流畅的交互体验,这得益于其对上下文理解的深度把握以及对人类情感和意图的准确捕捉。可以说,在实现人机交互更加人性化方面,Qwen2.5迈出了坚实的
2024-10-31 09:47:00
AI“大姨”现场刁难智能客服!直击一群AI打PK赛,真能落地的那种
...个满足现在用户需求的智能客服。能理解用户问题、结合上下文给出解决办法,并且有情商、说人话、能面对各种复杂情景。而且上手门槛很低。 比如参赛选手云蝠智能,他们的主打业务是电话
2024-09-23 09:53:00
本文转自:新华网12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练
2023-12-01 13:33:00
始于安全,不止安全丨迪普科技AI基座解决方案发布
...编排引擎实现零代码工作流配置,集成动态知识图谱实现上下文智能增强,并采用模块化插件架构支持外部工具的无缝接入,形成从业务逻辑抽象到系统落地的自动化闭环的智能体基座。同时创新性
2025-03-13 10:45:00
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
时隔一个月,通义千问又放大招了!在一个月前的阿里云栖大会上,阿里正式发布通义千问2.0版本,在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上,都有较大提升。并且,阿
2023-12-01 21:07:00
阿里万相视频生成大模型重磅开源!消费级显卡也能运行
...频生成方面,万相2.1通过自研高效VAE和DiT架构增强了时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现了中文文字视频生成功能。随着万相的开源,阿里云两大
2025-02-26 00:34:00
阿里云百炼上线Qwen2.5-Turbo模型,可支持100万超长上下文
...的Qwen2.5-Turbo已在阿里云百炼上线,该模型支持100万超长上下文,相当于100万个英文单词或150万个汉字
2024-11-21 09:48:00
更多关于科技的资讯: