• 我的订阅
  • 科技

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

类别:科技 发布时间:2024-08-21 09:42:00 来源:量子位

现在,最强数学大模型,人人都可上手玩了!

一觉醒来,阿里千问大模型团队发布了Qwen2-Math的Demo,抱抱脸在线可玩。

惊喜的是,如果嫌输入数学公式比较麻烦,可以把想问的题截图or扫描,上传即可解题。

整得挺方便。

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

试玩界面上明确写着,“这个试玩界面的OCR功能,由阿里千问大模型团队Qwen2-VL提供支持;数学推理能力,由Qwen2-Math支持。”

阿里高级算法专家林俊旸也在推特评论区进一步解释:

目前,Qwen2-VL和Qwen2-Math还是各自负责一部分。但不久的将来,我们会把多模态能力和数学推理能力结合到一个模型上哟。

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

不少网友对这种交互模式挺买账:

歪瑞古德!用图像来上传,然后等大模型解决问题,喜欢!

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

那么,最强数学大模型Qwen2-Math,上手效果怎么样?

效果怎么样?这就玩一把

是时候让Qwen2-Math过五关斩六将了!

先来几道比较简单的计算题开开胃。

提前说明,两位体验过程中,Qwen2-Math不是一边算一边显示的,而是计算完毕后直接显示过程和结果。

(而且应该是越来越多人开始玩了,结果生成时间逐渐拉长)

第一题:“计算AxA+A=240”中,A的值。

Qwen2-Math给出了正确答案,A=14或A=-16。

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

第二题:给定a的值,计算等式的结果。

Qwen2-Math计算出,答案是0,也是对的。

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

第三题:(A+3)(A+4)(A+5)=120,求A的值。

Bingo!答案是1。

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

OK,热身结束,给Qwen2-Math点难度看看。

那就来一道已经是(数学)大模型测评的标配:

9.9和9.11哪个更大?

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

Qwen2-Math自信回答:

9.9比9.11更大!

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

那就再上点难度!

扔给它一道截至目前,只有GPT-4o答对过的题:

一个外星人来到地球后等可能选择以下四件事中的一件完成:1、自我毁灭;2、分裂成两个外星人;3、分裂成三个外星人;4、什么都不做。此后每天,每个外星人均会做一次选择,且彼此之间相互独立。求地球上最终没有外星人的概率。

这道题,Qwen2-Math花费了约30秒左右的时间,给出答案:1。

很遗憾,答案是错误的,正确答案是√2减1。

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

我们在各大平台的评论区逛了一下,除了计算错误以外,还有另一种可能导致答案不正确——

那就是Qwen2-VL在识别题目的时候,本身就出错了。

错在第一步,这样的话大模型得出的肯定就不是正确答案。

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

同时,林俊旸还在网友的评论区表示:

咱们Qwen2-Math目前还不能做几何题。

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

用中文提问也可以

这次的主角Qwen2-Math,基于通义千问开源大语言模型Qwen2研发,由阿里千问大模型团队在十天前发布。

它专用于数学解题,并且能够解决竞赛级试题。

Qwen2-Math总共有三个参数量的版本:

72B,7B和1.5B。

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

在Qwen2-Math-72B的基础之上,千问团队还微调出了Instruct版本。

这也是Qwen2-Math的旗舰模型,它是一个数学专用的奖励模型,将奖励信号与正误判断信号结合作为学习标签,再通过拒绝采样构建监督微调(SFT)数据,最后在SFT模型基础上使用GRPO方法优化。

Qwen2-Math-72B-Instruct以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题。

并且一经发布就在数学大模型中“登基”,在MATH数据集上比GPT-4o多得了7分,按比例算高出了9.6%。

直接超越开源Llama 3.1-405B以及闭源的GPT-4o、Claude 3.5等。

哪里不会扫哪里!全球最强数学大模型在线玩,阿里多模态模型加持

截至发稿,抱抱脸上Qwen2-Math-72B-Instruct的下载量超过了13.2k。

而且有个最新发现:

虽然团队声称Qwen2-Math目前还是主要针对英文场景,但如果拿中文题目去问它,Qwen2-Math还是能进行解答的。

只不过是用英文回答你罢了。

据了解,Qwen2-Math的中英双语版本将会在之后推出。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-21 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
...力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。多模态大模型能够处理和理
2024-09-20 13:35:00
全球顶尖人工智能科学家加盟 阿里AI To C业务布局再提速
...集团副总裁,向吴嘉汇报,负责AI To C业务的多模态基础模型及Agents相关基础研究与应用解决方案。近期,阿里AI To C业务大动作频频
2025-02-08 18:48:00
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型,阿里通义又上新!4月29日一大早,阿里开源发布Qwen3
2025-04-29 16:17:00
李开复AI公司首发大模型,阿里云领投 | 36氪独家
...复成立的AI公司“零一万物”发布了首款开源中英双语大模型“Yi”。与此同时,36氪获悉,零一万物已完成新一轮融资,由阿里云领投
2023-11-06 12:13:00
2024阿里巴巴全球数学竞赛开考 563支AI队伍与人类挑战同一份考卷
...院所与企业的563支队伍使用AI作答。他们各显神通,使用模型调优、AI Agent、提示词工程等多种方式,推动AI构建更强大的数学能力
2024-04-15 14:08:00
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...包括编程、AI阅读、音视频转录、AI角色生成等八大产品模型。当时,阿里云就已经预告,接下来还要再发更大规模的开源模型
2023-12-01 21:07:00
霸榜全球开源模型前三杭州日报讯 4月2日,全球AI开源圈炸锅了——杭州的3个大模型直接包揽Hugging Face榜单前三
2025-04-03 06:49:00
这周,5家公司发了AI新品 | 最前线
...PUS、出门问问5家公司发布了AI相关的新品。但与月余前大模型扎堆发布的态势不同,5家企业的AI新品涵盖了算力层、模型层和应用层——业务的分化或许释放出了乐观的信号:中国的A
2023-04-22 15:32:00
...晨,阿里巴巴又默默干了件大事:发布并开源全新的推理模型通义千问QwQ-32B。千问QwQ-32B是阿里探索推理模型的最新成果
2025-03-07 07:27:00
更多关于科技的资讯:
国家级5G工厂,钟经开+1!
近日,工业和信息化部公示了《2025年5G工厂名录》钟楼经济开发区企业江苏电力装备有限公司成功入选成为继江苏精研科技股份有限公司后钟楼区第二家国家级5G工厂5G工厂是充分利用以5G为代表的新一代信息通信技术
2025-09-06 06:08:00
从玻璃到微纳新材料 从企业更名看龙口一家民企的转型跃迁
大众网记者 林晓冬 烟台报道说起玻璃大家都不陌生,餐桌玻璃、门窗玻璃都与我们的日常生活息息相关,但在烟台龙口有一家企业多年来持续在玻璃上“钻研”
2025-09-05 09:08:00
科创泉城 智启未来| “硬科创”需要“软传播”,网络达人共话“出圈”新思路
9月4日下午,在济南市委网信办联合山东省互联网传媒集团举办的“科创泉城 智启未来”知名网络达人济南采风活动的对话沙龙上
2025-09-05 09:51:00
本报讯(记者雷嘉)围绕国产车规级芯片搭载应用,北京市科委、中关村管委会会同北京市智慧城市基础设施与智能网联汽车协同发展办公室
2025-09-05 11:08:00
河北新闻网讯(王丽英)“后厨不只是生产中心,更是服务体验的心脏。”“服务不仅仅是完成交易的过程,更是以关怀为主利他主义精神的体现
2025-09-05 11:08:00
海信冰箱五款产品通过中国家用电器研究院自动制冰性能认证
日前,经中国家用电器研究院严格检测与评估,海信冰箱旗下五款产品成功通过“电冰箱自动制冰性能认证”,并获颁认证证书。此次获证不仅是对海信冰箱自动制冰技术性能的肯定
2025-09-05 11:57:00
京东全球80+高校招聘 清华、剑桥等80校专场 现场面试拿offer!
9月5日,京东招聘公众号发文:全球80+高校!京东2026校园招聘进校行程发布。文中称:将在全球20+城市,80+院校
2025-09-05 12:10:00
花一万元植入DeepSeek,一场没有终点的流量游戏
文|邓咏仪编辑|苏建勋让你的产品在DeepSeek的答案里有一席之地,需要多少钱?答案是:数千甚至上万元。人在哪,流量就在哪
2025-09-05 14:56:00
爱尔眼科开启老视多学科诊疗新时代
9月4日,2025年屈光性白内障手术国际论坛(IRCS)暨第一届老视矫正MDT管理国际高峰论坛在杭州举办我国超八成60岁以上老年人正面临老视(老花眼)与白内障的“双重眼病困扰”
2025-09-05 15:18:00
获SIAL创新奖:诺啦格兰诺拉脆片让生活更美好  
消费日报网讯 9月1日,在2025 SIAL西雅国际食品展(深圳)举办同期,第24届SIAL创新大赛获奖榜单正式发布。吉丽莎(广州)贸易有限公司选送的产品诺啦格兰诺拉脆片跻身TOP10
2025-09-05 15:18:00
桃李面包广告语引争议“五仁不好吃是你还年轻”官方账号发文:领导拍的板,这个锅只能他来背
近日,桃李面包一则电梯广告文案引发争议。社交平台上流传的图片显示,桃李蛋月烧产品的广告语写道:“有人说五仁不好吃,我们认为
2025-09-05 15:29:00
京东超市布局产地直采 加大力度进口澳洲水果 助力澳洲水果深耕中国市场
今年开始,京东超市加大力度布局澳洲水果的供给和销售,投入资源帮助澳洲橙子、提子等水果进一步扩大销量。近日,在2025中国国际水果展上
2025-09-05 15:30:00
潍坊寿光市圣城街道一企业酿出康养“新食尚”
大众网记者 刘建永 潍坊报道为企赋能、助企发展是区域经济高质量发展的推动器。潍坊寿光市圣城街道在政策引领、优化营商环境
2025-09-05 15:50:00
大众网记者 王帅 通讯员 孙丽霞 杨阳 潍坊报道走进山东禾汇食品有限公司黄豆酱生产车间,一排排瓶装黄豆酱准备打包装箱,发往各大连锁商超
2025-09-05 15:50:00
9月4日,济南市委网信办联合山东省互联网传媒集团举办“‘科创泉城 智启未来’知名网络达人济南采风”活动。当日上午,10余位全国知名网络名人
2025-09-05 16:34:00