• 我的订阅
  • 科技

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

类别:科技 发布时间:2024-08-09 09:38:00 来源:量子位

国产大模型,多模态能力都开始超越GPT-4-Turbo了??

权威榜单,中文多模态大模型测评基准SuperCLUE-V,新鲜出炉:

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

特别是腾讯的hunyuan-vision、上海AI Lab的InternVL2-40B,分别成为国内闭源和开源界两大领跑者,甚至超过Claude-3.5-Sonnet和谷歌王牌Gemini-1.5-Pro。

虽然这次都还是被GPT-4o压过,差距也确确实实缩小了很多。

(这个榜单旨在为中文领域提供一个多模态大模型多维度能力评估参考,GPT-4o等国外模型仅作对比参考,不参与排名哦)

hunyuan-vision也就是腾讯混元大模型的多模态版本了,除了开发者调用API之外,其实在腾讯元宝APP里免费就能体验到。

一直以来,元宝主打“实用AI搭子”,似乎着重强调的是实用易用性;没想到背着咱们偷偷拿模型去测评,还捧回来个国内第一,emmm……有点意思。

所以国产多模态大模型进化成什么样了,光看分数还是不够直观,下面就拉出来溜溜。

多模态能力第一?这就上手玩

多模态测试,说实话有点不嘻嘻:还没有出现“弱智吧”一样公认效果拔群的“民间benchmark”。

但又嘻嘻:根本不耽误我们碳基生物用千奇百怪的图片来为难大模型。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

那就开始吧!

Round 1.1:梗图表情包理解

时间过得好快!昨儿已经立秋了。

夏天夏天悄悄过去,只留下可以用这张meme图概括的心情:

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

问元宝,这张图什么意思?得到的答案是:

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

随手测试的程序员祖传题,元宝也轻松应对。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

Round 1.2:照片内容识别

上来就是一道不走寻常路的“超前”题——编辑部好几个人对着这张图皱眉。

太黑暗了,不知是何物。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

答案揭晓,这是最近一个分享贴中,“南京本地人应该也受不了”的黑金榴莲紫薯披萨。

元宝不仅能正确get到图中“太超前”的含义,同时还根据图片猜中了食物拿紫薯当原料。

至于没有猜出榴莲成分,也不能怪它,人类的黑暗料理不管是对AI还是对人类都真的太超前……

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

再来一道经典题目,数吉娃娃。

可以看到,混元元宝先是分析了题目中“吉娃娃”的外貌特征,然后分别告诉了九张图中哪些是吉娃娃的照片。

不仅答得全对,还看出了图中另一个物种是蓝莓松饼。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

Round 1.3:视觉错觉挑战

多模态大模型的视觉幻觉问题,是这两年的热门研究方向。

这些测试题真的很有迷惑性,别说大模型了,连人类也常常踩坑没商量。

但腾讯元宝,就这么水灵灵地答对了!

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

当初难道一种大模型的“哪一棵树更亮”,也谨慎地回答:

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

不过更难的错觉挑战它就不行了。读图片中隐藏信息的傻傻看不出,怎么问都说“没有啊”:

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

不过讲道理,这些题GPT-4V也答不上来,大约目前多模态大模型的阶段性能力还没迈过这道坎。

玩耍一番过后,接下来要动真格的!

测试元宝背后hunyuan-vision在实用场景下,表现如何。

Round 2.1:财报表现摘要读取

每个季度、半年、年终的财报,打工人看了真的是脑阔痛。

这就把腾讯一季度财报表现摘要截图扔给元宝,让它帮忙浅做分析:

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

元宝读取了图标中的数据,还在最后还小小总结了一把:

总体来看,该公司在2024年3月31日的财务表现显著优于2023年3月31日,各项指标均有不同程度的增长,尤其是毛利、经营盈利和期内盈利的增长幅度较大。

Round 2.2:读取(学术)图表

先来一道没那么学术的图表识别题。

问,一张图中的数字序列,缺少了哪一个?

元宝很好地读图,并正确填补了缺的那个数字:29。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

然后随机从一篇关于大模型数据的论文中,截图喂过去。

它也能理解并给出详细解释,最后还来几句总结。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

Round 2.3:行测找规律题

这一回合的最后上大招——万千人头疼不已的行测找规律题。

题是下面这一道,prompt输入:请从所给的四个选项中,选择最合适的一个填入问号处,使之呈现一定的规律性。

先提前透露正确答案,选C。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

在公布自己的最终答案之前,元宝叽里呱啦进行了很长的过程分析(讲真,看得人很紧张)。

最后坚定地选了C选项,答对。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

一道GPT-4V没做对的附加题

先做个前情提要,此前研究人员们发现,GPT-4V更擅长解释西方文化背景的图像or带有英文文字的图像。

比如给AI看《白雪公主》,知道是有7个小矮人。换成《葫芦娃》,7个就数成了10个,葫芦山七彩峰也说成了冰山。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

那么纯国产大模型,总该表现好点了吧?直接原题译中,丢过去。

好家伙,不仅数对了数量,还在追问中成功辨别这是《葫芦兄弟》的截图。

Nice!

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

腾讯元宝,真·AI实用搭子

看过这么多实测案例,是时候整体介绍一下背后的模型和整个APP了。

腾讯混元大模型,可以说是一位老朋友了。

去年9月首次对外亮相,之后一直保持着快速迭代。目前已扩展至万亿参数规模,由7万亿tokens的预训练语料训练而来,能力已覆盖了文本、多模态理解及生成等。

在国内大模型中,腾讯混元率先完成MoE(Mix of Experts,专家混合)架构升级,也就是从单个稠密模型升级到多个专家组成的稀疏模型。

今年7月,还解锁了一个单日调用tokens数达千亿级的成就。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

腾讯元宝,今年5月底刚刚上线,可能对很多人来说还是新朋友。

值得一提的是,在前一阵“9.11和9.9哪个大”的风波中,腾讯元宝表现不错,无需额外提示自己就能答对。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

腾讯元宝主打一个“实用AI搭子”,其中一个特色是APP、小程序和网页都能访问,聊天记录多端同步。

比如在微信聊天中接收到的工作文档,不用转存到手机目录,就可以直接到小程序选择对话直接发给AI了,接下来是总结也好、生成也好都非常方便。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

再拿多模态理解能力来说,无论是文档截图、人像风景、收银小票,还是任意一张随手拍的照片,元宝都能基于图中内容给出自己的理解和分析。

背后的一个思考是不光要识别、理解,还要生成满足用户需求的内容。

从前面的测试中也可以看出,丢一个表情包给它,回答也会简短,换成学术图表,回答就会尽量详尽、并且主动附加总结段落。

据腾讯介绍,混元大模型系列中的多模态理解模型,在视觉编码、语言模型、训练数据三方面做了深度的优化,能处理最高达7k分辨率最大16:1长宽比图片,也是国内首个基于MoE的多模态大模型。

把Transformer开山之作,经典论文《Attention is all you need》拼成一个长图,对腾讯元宝来说也完全不是难事,从引言到结论全文覆盖。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

而且腾讯元宝团队这次特别透露,接下来会把更多精力放在融合模型多模态能力上。

反正腾讯嘛大家都熟悉,是国内大厂里最重产品,重视打磨用户体验的。

比如最近腾讯元宝开始往“深度”发展,先更新了“深度搜索”,又刚刚上线“深度长文阅读”。

这些功能都是隐藏了技术细节、尽量减少对提示工程的需要,很多功能都是自动识别,一键触发,不需要什么学习成本。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

深度阅读功能就初步整合了多模态理解能力,上传一个论文PDF进去,生成的“精度”页面中不仅有文字总结,还能把相应的图表从文档里拽出来。

在很多情况下,都不用来回翻原文对照了。

最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5都超了

而且这一次,中文多模态大模型测评基准SuperCLUE-V榜单成绩,也说明腾讯不只搞好了产品体验,也非常看中背后模型基础能力。

所以说,在多模态“图生文”场景下,腾讯又能整出什么实用好活,就非常值得期待了。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-09 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

腾讯元器推出智能体新应用,支持公众号主打造专属大模型数字分身
...续还将开放定制背景、声音克隆、打电话、角色训练等多模态能力,帮助公众号主打造“更像自己”的数字分身。在分发渠道上,腾讯元器上创作的智能体支持分发到腾讯元宝小程序、APP智能体
2024-09-21 09:48:00
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...混元API服务调用,可满足文生文、图生文、文生图等不同模态以及角色扮演、FunctionCall、代码等不同专项的模型需求
2024-11-06 09:41:00
为千年运河写科技新篇,腾讯元宝App大运河互动专题上线
...腾讯混元大模型开发的AI原生应用,具备看、听、说等多模态能力。通过科技与文化的结合,大运河的风景与人文将焕发新生。
2024-06-26 14:27:00
不要小看「实而不华」的腾讯 AI
...未来的战略思路。01模型侧:基础模型能力升级,构建多模态能力首先是基础模型方面,5 月 17 日的峰会上,腾讯混元介绍了其多尺寸的 LLM 模型矩阵
2024-05-21 21:25:00
腾讯元宝首发3D生成应用 一张图即可生成3D角色
...大模型推出的AI原生应用,腾讯元宝拥有看、听、说等多模态交互能力。据了解,腾讯混元大模型早已布局文/图/视频生3D能力,是业界最早的端到端3D生成大模型之一,通过大模型一步推
2024-07-16 16:16:00
数字中国建设峰会开幕,腾讯以“好用的AI”激活产业新增长
...能力稳居国内第一梯队。腾讯混元大模型还进一步拓展多模态生成能力,涵盖图像、视频、3D等,能够有效支撑图像创作、三维模型生成、视频制作等多种功能。 腾讯元宝是帮助用户提高工作
2025-04-29 19:54:00
借DeepSeek东风,腾讯AI已“创收”,连续十个季度经营利润增速超过营收增长
...产品和应用也汇入CSIG。4月底,腾讯新设大语言模型与多模态模型两大部门,分别负责探索大语言模型和多模态大模型的前沿技术,持续迭代基础模型。在架构变革的同时,腾讯旗下产品和业
2025-05-15 21:19:00
BAT等互联网大厂,如何入局人形机器人?
...智能公司,其研制的文心产业级知识增强大模型,具备跨模态、跨语言的深度语义理解与生成能力,百度认为,大模型等人工智能工具,核心在于提高效率,因此在上一次机器人发展浪潮中,百度就
2024-06-12 11:54:00
中国下一代AI搜索三巨头:阿里夸克、腾讯元宝、字节豆包 你更喜欢用谁
...——新夸克。据悉,新夸克基于阿里通义领先的推理及多模态大模型,全面升级为一个无边界的“AI超级框”。阿里巴巴表示,新夸克可以满足用户工作、学习、生活的各类AI需求。目前市场主
2025-03-16 15:24:00
更多关于科技的资讯:
DEKRA德凯百年庆典隆重举行:传承百年使命,共创安全未来
2025年,全球领先的检验检测认证机构DEKRA德凯迎来成立一百周年。值此世纪里程碑之际,DEKRA德凯亚太区于9月12日在上海隆重举行百年庆典
2025-09-16 13:38:00
中国品牌,全球奖项:及象教育双奖加身,引领银发教育“中国服务”时代
9月13日,第四届全球品牌经济大会在北京首钢国际会展中心举行,作为中国国际服务贸易交易会的重要组成部分,本届大会以“向远
2025-09-16 13:38:00
优机优补、有进有出:中国农机正迎来新的黄金时代
大众网记者 刘晓雨 通讯员 张一晓 潍坊报道当前,中国农机行业正站在转型升级的关键节点。国家通过“优机优补、有进有出”的补贴政策
2025-09-16 10:21:00
河北新闻网讯(闫丽颖、罗俊明)近日,开滦股份范各庄矿顺利完成SVG智能升级改造工程。该工程不仅破解了长期困扰安全生产的供电系统稳定性难题
2025-09-16 09:41:00
西贝真正的敌人,从来都不是罗永浩
近期最热的事,毫无疑问,罗永浩大战西贝。如果你还没关注,也没事,差评君给你简单说下来龙去脉。9月10号,罗永浩发了条微博
2025-09-16 05:14:00
江西超高压工程实现“智能”验收
本报讯(全媒体记者谢梦丽)9月12日,随着一架无人机平稳返航,国网江西省电力有限公司在赣州东500千伏输变电工程现场的全线数字化验收顺利完成
2025-09-16 06:53:00
南京天加环境攻克技术难题,“节能”和“减排”双路径绿色发展为地球控温1.5℃持续努力□南京日报/紫金山新闻记者黄琳燕当全球平均气温较工业化前水平上升超过1
2025-09-16 07:46:00
“法国经验”遇上“中国制造”,南山飞卓攻克大飞机产业链“关键一步”——全球主力民航客机今后将用上“南京造”□通讯员杨淏涵南京日报/紫金山新闻记者张希一个是欧洲排名第一的飞机精密零件制造商法国FigeacAero(下称“飞卓宇航”)
2025-09-16 07:46:00
最浪漫的潮州特产,统治美国人婚礼
凌晨3点,广东潮州。一家婚纱公司收到一封紧急邮件,屏幕那端,是美国客户的紧急恳求——“请务必保质保量,按时交货,拜托拜托”
2025-09-16 05:13:00
36氪合伙人、副总裁李政:中国产业的未来在哪?| 2025年36氪产业未来大会
9月10日,由36氪主办的2025年36氪产业未来大会在中国厦门盛大启幕。本次大会重磅携手商务部主办的“中国国际投资贸易洽谈会”
2025-09-16 01:03:00
核电“听诊器”打破卡脖子壁垒 中船集团携多款核心产品亮相烟台
齐鲁晚报·齐鲁壹点记者 于民星9月15日,2025山东清洁能源产业博览会和第18届烟台国际核电工业及装备博览会双展联动
2025-09-15 23:49:00
南方电网兴义供电局:职工自研装置投入使用 开启变电设备一键检测新模式
9月11日,在南方电网兴义供电局500千伏仁义变电站内,一套由该局文峰职工创新工作室历经3年自主研发的“无线传输型的氧化锌避雷器多组同步带电检测装置”成功投入使用
2025-09-15 23:11:00
人力资源管理专家汪江涛:以人才体系创新激活企业内生动力
文/许笑“人力资源管理的价值,在于精准识别组织痛点,通过体系搭建、机制创新与人才激活,将人力资源转化为推动企业前行的动能
2025-09-15 11:17:00
长白时评评论员 久泰平近日,围绕“预制菜”的争论持续发酵,引发广泛关注。表面上看,双方争执的焦点是“什么才算预制菜”,实则揭开了餐饮行业一个长期被回避的核心议题
2025-09-15 11:22:00
威海智造 冠军领航 | 从“千规千面”到“千舱千智”,一艘高端客滚船的“冠军制造”算法
大众网记者 宁晓洁 仇艺畅 威海报道威海湾畔,巨轮林立,焊花飞溅。这里是招商工业威海船厂的生产现场,一艘艘高端客滚船正在建设中
2025-09-15 11:26:00