• 我的订阅
  • 科技

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

类别:科技 发布时间:2024-06-07 09:32:00 来源:IT之家

IT之家 6 月 7 日消息,通义千问(Qwen)今天宣布经过数月的努力,Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级,并已在 Hugging Face 和 ModelScope 上同步开源。

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

IT之家附上 Qwen 2.0 主要内容如下:

5 个尺寸的预训练和指令微调模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B

在中文英语的基础上,训练数据中增加了 27 种语言相关的高质量数据;

多个评测基准上的领先表现;

代码和数学能力显著提升;

增大了上下文长度支持,最高达到 128K tokens(Qwen2-72B-Instruct)。

模型基础信息

Qwen2 系列包含 5 个尺寸的预训练和指令微调模型,其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。

模型 Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B 参数量 0.49B1.54B7.07B57.41B72.71B 非 Embedding 参数量 0.35B1.31B5.98B56.32B70.21BGQATrueTrueTrueTrueTrueTie EmbeddingTrueTrueFalseFalseFalse 上下文长度 32K32K128K64K128K

在 Qwen1.5 系列中,只有 32B 和 110B 的模型使用了 GQA。这一次,所有尺寸的模型都使用了 GQA,以便让大家体验到 GQA 带来的推理加速和显存占用降低的优势。

模型评测

相比 Qwen1.5,Qwen2 在大规模模型实现了非常大幅度的效果提升。我们对 Qwen2-72B 进行了全方位的评测。

在针对预训练语言模型的评估中,对比当前最优的开源模型,Qwen2-72B 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-07 12:45:27

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阿里云通义千问开源!70亿参数模型上线魔搭社区
...等多种语言的基座模型,在超过2万亿token数据集上训练,上下文窗口长度达到8k。Qwen-7B-Chat是基于基座模型的中英文对话模型
2023-08-03 17:00:00
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...,实现模型计算效率的重大突破。Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计
2025-09-24 13:30:00
Kimi爆火背后:访问量仅次于文心一言和阿里通义,国内外大模型都在卷上下文
...款面向C端的大模型产品。早前,该公司宣布在大模型长上下文窗口技术上取得新的突破,Kimi已支持200万字超长无损上下文,并开启产品内测,该能力在不到半年内提升9倍。市场的火爆
2024-03-23 14:00:00
中国AI云市场报告:阿里云占比35.8%,高于2到4名的总和
...增长率(CAGR)为26.8%,未来AI云的增长将由多Agents合作、上下文工程、AI安全、大规模API调用等驱动
2025-09-09 11:45:00
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
...代码开发复杂度。此外,模型还支持最近火热的MCP(模型上下文协议),用户可以调用内置工具或自行集成其他工具。 此前,阿里云已推出MCP服务,并提出要做Agent Store
2025-04-29 16:17:00
阿里通义开源模型Qwen2.5力压Claude3.5、GPT-4o等顶级闭源模型
...Qwen2.5能够提供更为自然流畅的交互体验,这得益于其对上下文理解的深度把握以及对人类情感和意图的准确捕捉。可以说,在实现人机交互更加人性化方面,Qwen2.5迈出了坚实的
2024-10-31 09:47:00
Agent调用能力取得重大突破!阿里开源最强编程模型Qwen3-Coder
...码模型,总参数达480B,激活35B参数,原生支持256K token的上下文并可扩展至1M长度。Qwen3-Coder在代码占比70%的7
2025-07-23 14:05:00
AI“大姨”现场刁难智能客服!直击一群AI打PK赛,真能落地的那种
...个满足现在用户需求的智能客服。能理解用户问题、结合上下文给出解决办法,并且有情商、说人话、能面对各种复杂情景。而且上手门槛很低。 比如参赛选手云蝠智能,他们的主打业务是电话
2024-09-23 09:53:00
本文转自:新华网12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练
2023-12-01 13:33:00
更多关于科技的资讯:
皖企长鑫科技向上交所递交IPO招股书
大皖新闻讯 2025年12月30日,总部位于合肥的长鑫科技集团股份有限公司(以下简称“长鑫科技”)正式向上海证券交易所递交招股书
2025-12-31 21:33:00
大河网讯 这一年,我们没有走遍世界,但世界,走进了《Global Talk》。2025年,《Global Talk》结识了来自全球近30个国家和地区的朋友——他们带着各自的故事
2025-12-31 22:33:00
近日,上药控股山东总部携手浪潮智慧建筑,构建涵盖16大智能化系统的智慧园区体系,以智慧云平台为中枢推进全要素数字化升级
2025-12-31 22:59:00
石家庄二中新添“AI学伴”,有道AI答疑笔以“引导式答疑”助力启发式教学
河北新闻网讯 为推动教育资源均衡发展,让智能科技惠及更多青少年,12月18日,石家庄市“希望工程”事业发展中心、石家庄市青少年发展基金会联合网易有道
2025-12-31 17:18:00
中国消费者报福州讯(记者张文章)12月31日,福建省消费者权益保护委员会聚焦“科技+消费”核心场景发布消费提示,提醒广大消费者警惕伪智能陷阱
2025-12-31 17:33:00
中国消费者报海口讯(记者黄劼)2025年12月30日,三亚海旅免税城迎来开业五周年。海旅免税以“High Five 5•五周年狂欢庆典”为主题
2025-12-31 17:33:00
麦当劳中国第4400家LEED认证绿色餐厅落户福州
福州新华都大厦餐厅盛大开业,“开心书屋”全国首发麦当劳中国第4400家LEED认证绿色餐厅落户福州辞旧迎新之际,麦当劳中国第4400家LEED认证绿色餐厅“福州新华都大厦(五四路)餐厅”盛大开业
2025-12-31 17:49:00
“艾白”来了!12月31日,福州日报社首位机器人员工正式上岗!
2025-12-31 17:49:00
嘀嗒出行发布《2025职场顺风车用户画像及体验洞察报告》
河北新闻网讯(记者 李春炜)12月31日,嘀嗒出行发布《2025职场顺风车用户画像及体验洞察报告》,基于嘀嗒顺风车大数据和近万名嘀嗒顺风车用户调研
2025-12-31 18:04:00
中新经纬12月31日电 “市说新语”微信号31日消息,2026年1月1日起,婴幼儿及儿童家具安全、光伏组件报废、汽车维护检测和诊断
2025-12-31 18:57:00
河北天翼农担业务系统实现关键技术突破
图为国和公司办公大楼。河北新闻网讯(吴建春)近日,河北天翼科贸发展有限公司(简称“河北天翼”)为某农担公司量身打造的担保业务系统业务提报模块
2025-12-31 19:36:00
冬虫夏草产业进入供给侧重构期,东阳光鲜虫草以成熟生态繁育技术,形成产业化优势
在大健康消费持续增长的大背景下,滋补品类正在经历结构性调整,其中冬虫夏草行业尤为突出。长期依赖野生采挖的供给模式,使行业在产量
2025-12-31 14:26:00
猿编程亮相2025新华网教育论坛,创始人李翊:以“4C体系”重塑未来AI教育
2025年12月11日,以“凝聚时代智慧 引领教育创新”为主题的第十六届新华网教育论坛在京举办。教育部相关司局负责人、全国知名高校及中小学代表
2025-12-31 14:26:00
新年礼赠 “去包装化”,驼奶粉成营养市场现象级单品
岁末年初的礼赠市场,正悄然发生一场“价值回归”。曾经风靡的贵价包装礼品逐渐遇冷,而“长期实用、精准营养”的实用型礼品成为新主流
2025-12-31 14:28:00