• 我的订阅
  • 科技

阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权

类别:科技 发布时间:2025-04-29 16:17:00 来源:搜狐科技

阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

一口气开源8款模型,阿里通义又上新!

4月29日一大早,阿里开源发布Qwen3,包括两款MoE(混合专家架构)模型,其中具备2350亿参数规模的Qwen3-235B-A22B,在对比测试中成为目前最强大的开源模型。

此外,Qwen3还包括六款稠密模型,涵盖6亿、17亿、40亿、80亿、140亿和320亿等多参数,这些模型均未采用MoE设计,主打适配多场景。

“这才是真正的Open AI之道”“让开源再次伟大”……在坚持AI开源这条路上,阿里似乎又夺回了一度失去的话语权。

这也意味着,大模型技术还没卷到头,尤其是DeepSeek爆火以来,OpenAI、谷歌、Meta和阿里、百度、字节成为核心的PK力量,DeepSeek还在憋大招,开源的这把火要越烧越旺了。

以训练Agent为中心

阿里公布的测试显示,旗舰模型 Qwen3-235B-A22B (激活参数为220亿)在代码、数学、通用能力等基准测试中,媲美甚至超过DeepSeek-R1、o1、o3-mini、Grok-3和谷歌Gemini-2.5-Pro等顶级模型。

阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权

在大模型竞技场推出的综合能力评估ArenaHard、美国数学竞赛测试AIME24和AIME25,以及编程LiveCodeBench、CodeForces等九大测试中,Qwen3-235B-A22B的得分均超过DeepSeek-R1、o1、o3mimi、Grok-3,但部分表现仍不及Gemini-2.5-Pro。

同时,在主流开源模型中,Qwen3-235B-A22B也在通用任务、数学和科学任务、多语言任务和代码任务上,全面超越Meta在4月初发布的LLaMA-4-Maverick和DeepSeek-V3模型,成为目前最强大的开源模型。

阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权

值得一提的是,Qwen3-235B-A22B相对而言,参数规模更小,大约仅有R1和V3参数规模的(6710亿)的35%,同时低于o1(约3000亿)和LLaMA-4-Maverick(超4000亿),实现了小而美、以小博大的性能。

这样的能力同样体现在其它模型当中。另一款小型MoE模型Qwen3-30B-A3B的激活参数量仅有30亿,仅有QwQ-32B的10%,更远低于DeepSeek-V3(总参数6710亿、激活370亿)和GPT-4o的参数规模,在前述九项测试中表现更胜一筹。

阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权

就连Qwen3-4B这样仅有40亿参数的模型,也能匹敌Qwen2.5中具有720亿参数模型的性能,数学、编码等测试也能超过DeepSeek-V3和GPT-4o。

Qwen3模型的一大亮点还在于,具备快思考和慢思考两种模式。对于需要深入思考的复杂问题,模型会逐步推理,经过深思熟虑后给出最终答案。对于速度有要求的简单问题,模型则提供快速、近乎即时的响应,让用户实现对模型思考程度的控制。

阿里通义团队认为,这两种模式的结合增强了模型实现稳定且高效的思考预算控制能力,让用户能够更好地为不同任务配置特定预算,在成本效益和推理质量之间实现更优的平衡。

同时,由于模型架构的改进、训练数据的增加以及更有效的训练方法,Qwen3稠密基础模型的性能与参数更多的Qwen2.5基础模型相当,从而节省了训练和推理成本。

数据显示,Qwen3-235B-A22B 仅需4张H20就能本地部署,而DeepSeek-R1推荐16卡H20配置,意味着Qwen 3旗舰模型部署成本相比R1下降七成多。

据阿里百炼平台,该模型API调用费用为4元/百万Token,和R1的4元/百万Token(缓存未命中)输入价格相当,远低于R1 16元/百万Token的输出价格。

此外,Qwen3模型还对Agent和代码能力进行了优化,推出了Qwen-Agent工具库,其封装了工具调用模板和解析器,降低了代码开发复杂度。此外,模型还支持最近火热的MCP(模型上下文协议),用户可以调用内置工具或自行集成其他工具。

此前,阿里云已推出MCP服务,并提出要做Agent Store。可以说,在智能体即将迎来爆发的时刻,阿里在模型、工具、应用上做好了全面准备。

比如,此次Qwen 3的六款稠密模型就能适配不同场景,包括科研侧、手机侧、汽车侧,以及开发者和企业大规模部署等。

“我们认为,我们正从专注于训练模型的时代过渡到以训练 Agent为中心的时代。”通义团队表示。

从Qwen3模型发布后的反馈来看,不少人都对其发出了称赞,认为这是目前最好的开源模型。“这是中国超越了自己,成为AI开源的新力量,意味着模型发展势头并没有放缓。”有海外用户提到,还有用户希望看到Qwen3与o3的测试对比。

当然,Qwen3模型似乎也并非完美。有用户表示,Qwen3在其个人评估测试中产生了好坏参半的结果,并且没有接近SOTA(最先进)。

阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权

该用户在使用开发框架Next.js进行TODO应用开发时,Qwen3-235B-A22B 与Claude 3.7 Sonnet和Gemini 2.5 Pro等顶级模型相当,代码运行没有问题,但没有严格遵循指令,生成的可视化内容因太小而难以阅读。

此外,多位用户还提到,Qwen3存在过度思考的问题,导致思考过程太长,而且默认的思维模式对更复杂的任务来说非常不可用,因此思考模式需要用户进行切换。

争夺大模型话语权

Qwen3模型性能的提升,得益于阿里通义团队在预训练和后训练上的多方面优化。

在预训练阶段,Qwen3的数据集达到约36万亿token,涵盖119种语言和方言,是Qwen2.5采用的数据集规模的两倍。这种规模在全球居于前列,如GPT-4、LLaMA-4等训练数据规模都在20万亿token之下。

Qwen3还使用了合成数据,比如为增加数学和代码数据,利用Qwen2.5的数学和代码模型,合成了包括教科书、问答对以及代码片段等多种形式的数据。

在后训练方面,在模型具备基本推理能力的基础上,通义团队利用大规模强化学习继续增强模型能力,还在指令遵循、格式遵循和Agent能力等20多个通用领域任务上应用了强化学习,在保证模型推理能力增强的同时,提高了通用能力。

“Qwen3代表了我们在通往通用人工智能和超级人工智能旅程中的一个重要里程碑。”通义团队表示,通过扩大预训练和强化学习的规模,实现了更高层次的智能。

该团队表示,未来计划从多个维度继续提升模型,包括优化模型架构和训练方法,实现扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等目标,并利用环境反馈推进强化学习以进行长周期推理。

实际上,这也是目前国内外大模型正在追求的重点方向,如最近先后更新GPT-4o和o3的OpenAI,在多模态和推理能力方面进一步强化。

在阿里所坚持的模型开源这条路上,虽然Qwen系列模型此前超越Llama,成为全球第一开源模型家族。DeepSeek此前一度夺走了注意力,更是引发了新一轮的大模型技术竞赛。

这个月初,Meta开源最新的LLaMA-4模型,随后快速冲上Chatbot Arena 排行榜第二,仅次于Google刚发布的 Gemini 2.5 Pro。

但很快LLaMA-4面临利用公开测试集进行训练刷榜的质疑,有测试者还发现,在部分官方没有展示的基准测试中,其表现不尽人意。

当然,Meta方面予以否认,但承认模型性能存在参差不齐的问题。目前,规模最大、性能最强的LLaMA-4- Behemoth模型仍在训练中。Meta能否憋个大招扳回一局,还要再看看。

在憋大招的还有DeepSeek。随着阿里、百度、OpenAI、谷歌、Meta等先后推出最新模型,DeepSeek此前一度登顶的V3和R1模型失去绝对领先优势,全世界都在等待R2模型的推出。

此前3月有报道称,DeepSeek正在加快R2的研发和发布进程,原计划在5月初发布,但希望在3月中旬推出,当时这种说法遭到DeepSeek方面否认。

最近一个月,外界都在猜测R2何时会发布,根据业内产品迭代周期,不少看法认为会在5月,这可能意味着R2进入发布倒计时。

最新爆料称,R2依然采用MoE架构,拥有1.2万亿参数,成本GPT-4o便宜97.3%,视觉能力更强。

搜狐科技注意到,这在DeepSeek交流群引发了谈论,有观点认为,即便要发R2,也应该先发V4,R1正是以V3为基础而进行训练,但DeepSeek方面未对R2有关消息做出回应。

对阿里来说,开源是面对市场竞争的核心策略,但这也意味着只有性能做到领先,开源才有意义。正如DeepSeek一开源,就得到很多企业的主动适配和支持。

因此,对开源的AI企业来说,技术层面的持续进步就显得非常关键,这是推动应用爆发和生态构建的基础。随着阿里更新Qwen3模型,这一场AI开源的竞赛无疑又变得更加紧迫了。返回搜狐,查看更多

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-04-29 17:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

赵雪波|中国气候传播的逻辑与路径——评《“他者”气候报道中的社会责任研究》
...一、运用气候正义话语框架阐释他者国家立场,争夺气候话语权;二、加强气候变化议题的多传播主体联动,大力开展气候公共外交;三、重视气候生态公民形象建构,讲述他者气候治理故事;四、
2025-04-01 22:15:00
为什么说oppo是中国品牌的标杆?
...中国品牌在撕掉“低质”标签的同时,技术上掌握了更多话语权。这份“话语权”在知识产权领域体现的更加明显。2023年12月,OPPO和诺基亚多年的专利纠纷有了结论,重庆市第一中级
2024-01-10 11:55:00
混沌初开:国产大模型在沸腾中“求索”
...率先应用落地,布局商业化,谁就有可能在AI 2.0时代掌握话语权。创业者们的三大难关:钱、技术、人才大模型烧钱是赛道参与者的共识。启明创投合伙人周志峰在媒体采访时表示,一家大
2023-05-31 16:00:00
...同治理人工智能安全的共同目标,牢牢掌握国家自主权与话语权,通过对话和合作凝聚国际共识。三是强化人工智能安全治理的科技伦理原则。坚持推动“科技向善”“智能向善”成为世界各国共识
2024-04-08 03:56:00
...递业最重要的基础设施之一。后来,面对四通一达在行业话语权上的式微,以及更大的产业野心,菜鸟亲自上阵送快递,今年还推出了直营快递品牌菜鸟速递。这还不够,在快递物流平台的基础上,
2023-10-10 15:01:00
动力电池领域正在呈现马太效应,是好事还是坏事?
...、搜索、社交及汽车制造等领域成为巨头,掌握着绝对的话语权,影响全球经济走向。英伟达是这轮AI潮流的最大赢家,这家芯片制造商从今年年初开始发力,市值在到达3万亿美元的高位后稍微
2024-07-22 09:30:00
数字时代的“脑力”革命!总台《赢在AI+》探索“智能芯算”
...搬运效率提升了15%以上,为中国半导体产业赢得了宝贵的话语权。△AI创想者柯娜“大模型”百舸争流推动各行各业智能化升级提到大模型、云计算,大家一定都不陌生,但它们究竟是何关系
2025-07-04 11:55:00
快递物流下半场,“卷”向哪里?
...同质化更高的今天,没有多条腿走路的能力,也就意味着话语权的拱手相让。对所有物流玩家来说,下半场更高阶的较量才刚开始。「掘金“同城”,有的放矢」有物流行业专家曾说,行业卷的本质
2024-09-14 14:02:00
500亿收购131亿卖出!阿里血亏处理掉大润发,曝接盘者是陈好老公
...将大润发转卖,从而抛售其起初占据的73.66%股份,从而在话语权上完全和大润发毫无关系。与此同时,就连大润发也在同一时间于企业内部平台分布对应的信件,从而不仅向自己的广大员工
2025-01-04 19:22:00
更多关于科技的资讯:
民营经济发展一线观察·吉民优品|辽源市德弘冰雪运动科技有限公司: 100余道工序铸就专业滑雪靴
走进辽源市德弘冰雪运动科技有限公司生产车间,蓝色的唐老鸭系列滑雪靴正沿着生产线逐步成型。一块块裁片经精准缝合拼接,再通过套楦
2025-11-04 11:38:00
十五运会自动驾驶场景应用启动 滴滴自动驾驶助力智慧出行
11月3日,十五运会和残特奥会自动驾驶场景应用启动仪式在广州天河体育中心举行。启动仪式上,滴滴自动驾驶被授予“自动驾驶服务商”标牌
2025-11-04 13:34:00
从「身份可信度挑战」到「数据篡改威胁」,如何重塑第三方支付安全防线?
网络支付已成为现代生活的「数字基础设施」,其便捷性重构了消费生态,但伴随而来的安全考验已演变为潜在风险——从身份认证的「可信度挑战」到业务合规的「穿透式监管压力」
2025-11-04 13:46:00
近日,安徽安庆怀宁县烟草专卖局锚定营销服务痛点,统筹部署岁末年初卷烟营销工作,切实推动营销工作效能提质升级。打破思维定式
2025-11-04 13:46:00
效果好的辅酶q10排名 五大优质品牌深度测评
“效果好的辅酶q10排名”是众多关注心脏健康、免疫力提升、抗氧化及备孕人群的核心搜索诉求。本文深度调研辅酶Q10行业现状
2025-11-04 13:47:00
主流人形机器人大PK,户外工业场景首选云深处DR02
引言当前,国内人形机器人产业在政策与技术双轮驱动下迎来爆发。据2024世界人工智能大会《人形机器人产业研究报告》,2024 年中国市场规模达 27
2025-11-04 13:47:00
“618”购物节如期而至,这场属于夏日的消费热潮正式拉开帷幕。随着新消费模式的涌现和消费主力的迭代,信用交易成为了当下热络的消费选择
2025-11-04 13:47:00
普惠金融旨在为传统金融服务难以覆盖的个人和企业提供平等、便捷、可持续的金融服务。日前,国务院办公厅印发《关于做好金融“五篇大文章”的指导意见》
2025-11-04 13:48:00
技术、政策、合规交织下的探索   “萝卜快跑”面临三重挑战
2025年7月世界人工智能大会后,上海浦东金桥街头的“萝卜快跑”自动驾驶车辆引发关注:车身同时标注了“无人驾驶测试”、“萝卜快跑”和“大众出行”标识
2025-11-04 14:01:00
再见,信号死角!移远 5G 透明吸顶天线让室内连接 \
在写字楼的紧张会议中,视频通话突然卡顿;在高端商场悠闲购物时,手机信号时断时续;在高铁站闸机前,却怎么也刷不出乘车码……这些因室内通信质量不佳带来的困扰
2025-11-04 14:15:00
小红书「马路生活节」爆火出圈:一场让品牌回归人群的City Walk狂欢
当你还在疑惑年轻人周末去哪玩时,小红书上的答案早已指向同一个方向——「马路」。从上海到杭州、广州,从捡落叶写诗到水上甜品席
2025-11-04 14:45:00
婴儿益生菌什么品牌好用又便宜 2025年高性价比品牌排行榜
婴儿益生菌什么品牌好用又便宜?随着家长对宝宝肠道健康的重视,婴幼儿益生菌市场需求激增,但行业乱象也随之浮现:部分产品虚标菌种数量
2025-11-04 15:03:00
在AI技术深度渗透商业决策的2025年,企业对于AI优化服务的需求已从“工具应用”升级为“战略赋能”。据中国信通院最新报告
2025-11-04 15:05:00
植物蛋白粉测评与推荐 植物蛋白粉品牌排名榜单揭晓
在健康消费持续升级的当下,植物蛋白粉作为日常营养补充的重要载体,正从“健身专属”走向“全民刚需”。然而,面对市场上琳琅满目的产品
2025-11-04 15:11:00
知名潮牌将关闭中国门店 合肥门店:也有消息,时间不确定
大皖新闻讯 盛开的小雏菊和腊肠犬,是韩国潮流服饰品牌Mardi Mercredi最具辨识度的设计符号,也曾成为时尚的标配
2025-11-04 15:17:00