• 我的订阅
  • 科技

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

类别:科技 发布时间:2024-06-07 09:32:00 来源:IT之家

IT之家 6 月 7 日消息,通义千问(Qwen)今天宣布经过数月的努力,Qwen 系列模型从 Qwen1.5 到 Qwen2 的重大升级,并已在 Hugging Face 和 ModelScope 上同步开源。

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

IT之家附上 Qwen 2.0 主要内容如下:

5 个尺寸的预训练和指令微调模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 以及 Qwen2-72B

在中文英语的基础上,训练数据中增加了 27 种语言相关的高质量数据;

多个评测基准上的领先表现;

代码和数学能力显著提升;

增大了上下文长度支持,最高达到 128K tokens(Qwen2-72B-Instruct)。

模型基础信息

Qwen2 系列包含 5 个尺寸的预训练和指令微调模型,其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。

模型 Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B 参数量 0.49B1.54B7.07B57.41B72.71B 非 Embedding 参数量 0.35B1.31B5.98B56.32B70.21BGQATrueTrueTrueTrueTrueTie EmbeddingTrueTrueFalseFalseFalse 上下文长度 32K32K128K64K128K

在 Qwen1.5 系列中,只有 32B 和 110B 的模型使用了 GQA。这一次,所有尺寸的模型都使用了 GQA,以便让大家体验到 GQA 带来的推理加速和显存占用降低的优势。

模型评测

相比 Qwen1.5,Qwen2 在大规模模型实现了非常大幅度的效果提升。我们对 Qwen2-72B 进行了全方位的评测。

在针对预训练语言模型的评估中,对比当前最优的开源模型,Qwen2-72B 在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型,如 Llama-3-70B 以及 Qwen1.5 最大的模型 Qwen1.5-110B。

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

通义千问系列AI开源模型升至Qwen2:5个尺寸,最高 128K tokens

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-07 12:45:27

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阿里云通义千问开源!70亿参数模型上线魔搭社区
...等多种语言的基座模型,在超过2万亿token数据集上训练,上下文窗口长度达到8k。Qwen-7B-Chat是基于基座模型的中英文对话模型
2023-08-03 17:00:00
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...,实现模型计算效率的重大突破。Qwen3-Next针对大模型在上下文长度和总参数两方面不断扩展(Scaling)的未来趋势而设计
2025-09-24 13:30:00
Kimi爆火背后:访问量仅次于文心一言和阿里通义,国内外大模型都在卷上下文
...款面向C端的大模型产品。早前,该公司宣布在大模型长上下文窗口技术上取得新的突破,Kimi已支持200万字超长无损上下文,并开启产品内测,该能力在不到半年内提升9倍。市场的火爆
2024-03-23 14:00:00
中国AI云市场报告:阿里云占比35.8%,高于2到4名的总和
...增长率(CAGR)为26.8%,未来AI云的增长将由多Agents合作、上下文工程、AI安全、大规模API调用等驱动
2025-09-09 11:45:00
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
...代码开发复杂度。此外,模型还支持最近火热的MCP(模型上下文协议),用户可以调用内置工具或自行集成其他工具。 此前,阿里云已推出MCP服务,并提出要做Agent Store
2025-04-29 16:17:00
阿里通义开源模型Qwen2.5力压Claude3.5、GPT-4o等顶级闭源模型
...Qwen2.5能够提供更为自然流畅的交互体验,这得益于其对上下文理解的深度把握以及对人类情感和意图的准确捕捉。可以说,在实现人机交互更加人性化方面,Qwen2.5迈出了坚实的
2024-10-31 09:47:00
Agent调用能力取得重大突破!阿里开源最强编程模型Qwen3-Coder
...码模型,总参数达480B,激活35B参数,原生支持256K token的上下文并可扩展至1M长度。Qwen3-Coder在代码占比70%的7
2025-07-23 14:05:00
AI“大姨”现场刁难智能客服!直击一群AI打PK赛,真能落地的那种
...个满足现在用户需求的智能客服。能理解用户问题、结合上下文给出解决办法,并且有情商、说人话、能面对各种复杂情景。而且上手门槛很低。 比如参赛选手云蝠智能,他们的主打业务是电话
2024-09-23 09:53:00
本文转自:新华网12月1日,阿里云通义千问720亿参数模型Qwen-72B宣布开源。该模型基于3T tokens高质量数据训练
2023-12-01 13:33:00
更多关于科技的资讯:
用AI技术为青少年心理“把脉”!这一项目成功入围2026年度河南省科技攻关项目
大河网讯 近日,河南省科学技术厅公示 2026年度河南省科技攻关拟立项项目,由科创联达(河南)科技有限公司与中原工学院联合申报的“多模态融合与大语言模型驱动的青少年心理健康智能监测研究”项目入选
2026-01-20 22:45:00
张宣科技:科技驱动打造绿色低碳新能源标杆
图为张宣科技技术骨干正在对水系统设备进行全面巡视检查。于飞摄河北新闻网讯(王杨、马薇)打造全球领先的绿氢绿能耦合冶金示范
2026-01-20 17:17:00
聚焦临沂两会」临沂市政协委员许金龙:以科技创新引领标志性产业链高质量发展
鲁网1月20日讯“抢抓人工智能战略风口,以科技创新为核心引擎赋能产业升级,推动我市标志性产业链向高端化、智能化、绿色化方向提质进阶
2026-01-20 17:23:00
中国消费者报北京讯(记者裴莹)1月19日,荣耀与泡泡玛特合作推出的“荣耀500 Pro MOLLY 20周年限定版”手机正式发布
2026-01-20 17:30:00
中国消费者报北京讯(记者孙蔚)近日,转转集团发布《2025二手消费年度洞察》(以下简称报告)。报告显示,05后成为二手消费新生力量
2026-01-20 17:30:00
中国消费者报北京讯(记者桑雪骐)1月19日,海信召开2026 RGB-Mini LED影游旗舰E8S新品发布会,正式推出影游旗舰E8S系列电视
2026-01-20 17:30:00
春节将至 在中国空间站怎么吃年夜饭?
中国消费者报报道(记者桑雪骐)航天员的手指轻轻按下一个特制设备的启动键,28分钟后,伴随着设备上的按键灯闪烁,取出的不是常见的复热食品袋
2026-01-20 18:00:00
大皖新闻讯 1月20日,记者从阜阳市商业局获悉,为全力推动“超级皖”美食争霸赛半决赛活动氛围,该市将发放60万元消费券
2026-01-20 18:14:00
宜兴市徐舍镇:厚植沃土育“小巨人”
近年来,徐舍镇持续优化营商环境,强化政策引导与服务保障,积极构建富有活力的产业生态,通过搭建产学研对接桥梁,推动技术、人才
2026-01-20 18:52:00
空降社渚!KFC&必胜客“双子星”来了,常州首家
社渚喜讯!常州首对餐饮“双子星”——肯德基与必胜客,即将同步落户社渚!二月初,开业倒计时正式启动,快乐进入双倍时代。从此小镇生活添了新滋味
2026-01-20 18:54:00
中新经纬1月20日电 19日,小红书正式上线《社区公约2.0》,在延续“真诚分享,友好互动”社区价值观的基础上,明确提出“反对制造对立”的倡导
2026-01-20 19:14:00
打造复合生活空间,应对多元业态挑战!石家庄本土超市加速向体验化、社区化转型
1月16日上午9时,刚刚开业的石家庄北国超市青园店客流如织。经历了永辉闭店、北国接手后,经过30天左右的装修筹备,该店如今以全新面貌亮相
2026-01-20 19:39:00
从技术突破到产业落地:见证国器传感的量子征程
在工业4.0浪潮席卷全球的今天,传感器作为智能制造的核心元件,其技术突破与产业升级已成为衡量国家工业竞争力的重要标尺。这场没有硝烟的科技博弈中
2026-01-20 19:53:00
第17期监制:杨春红制作:王金顺记者:牛思家
2026-01-20 16:59:00