我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

“试用完谷歌的新AI模型，再也不爱GPT”

类别：科技发布时间：2023-12-12 00:22:00 来源：VISTA看天下

本文转载自微信公众号差评

（id:chaping123）

原标题 | 试用完谷歌的Gemini，我只想说GPT-4有点菜。

撰文 | 八戒松鼠江江

编辑 | 江江大饼面线

封面 | 萱萱

告诉 GPT-4 ：安，勿念。我这边和谷歌 Gemini 过得很幸福。

美国时间12月6号，憋了好久的谷歌开大了，直接推出了最新的人工智能模型 Gemini （双子座）。

这个被谷歌称为规模最大、能力最强的人工智能模型，如果光看官方的演示视频，那真的过于高级了点。

在视频里， Gemini 不仅秒识别演示者画的画、放的视频、做的小把戏、玩的恶作剧，而且整个过程中对答如流，各种语气助词熟练得飞起。

如果没提前说，你甚至都会以为这就是电影里的贾维斯。

要真这么牛逼，还要什么 GPT-4 啊？

不过差评君仔细看了下发现，这次发布的 Gemini 其实是一个家族式大模型，分别是 “ 中杯”Gemini Nano 、 “ 大杯”Gemini Pro 和 “ 超大杯”Gemini Ultra 。

目前现在大家能用上的都是 Gemini Pro ，而大部分的测试演示都是基于 “ 超大杯 ”Gemini Ultra 来的。

从官方放出的数据来看，虽然每个版本都有自己合适的环境，但不同版本间，性能还是有着明显差异的。

而 “ 超大杯 ” 的 Gemini Ultra 的能力确实是杠杠的。

不仅在各种常规测试里都薄纱了 GPT-4 。

甚至在 MMLU （大规模多任务语言理解）测试里， Gemini Ultra 超过 GPT-4 还不够，还超越了人类专家，成为了第一个在该方面超越人类的模型。

除了在常规能力上的全面超越 GPT-4 ， Gemini 最特殊的一点是，它是谷歌带来的首个多模态大模型，也就是能不光能打字互动，也能进行语音、视频、图片的互动。

按照谷歌的说法，现有的所谓多模态大模型，都是单独训练了文本、视觉和音频等模型，再把这几个拼接起来。

这样出来的 “ 散装 ” 多模态大模型，在遇到图片、文字、语音或者视频同时出现时，只会分解出不同模块各自回答，然后汇总各个部分的回答最后形成答案。

而 Gemini 从根上就是个多模态模型，然后又通过大量多模态数据训练，它能够一开始就同步理解多模态。

这就好比遇到一个中日韩英混杂的旅游团，以往都是找懂对应语言的导游组成导游团去带队。

而 Gemini 的做法是找了一个通晓中日韩英四门语言的导游，一个人就能无缝安排所有游客。

所以不出意外，在此前 GPT-4V “ 遥遥领先 ” 的多模态测试里， Gemini 也呈现了一种全面超越的姿态。

但也就是看起来过于牛逼，以至于显得不够真实，所以 Gemini 也在网上招来不少质疑。

比如有人吐槽明明 90.0% 和 89.8% 就差了千分之二，结果图里看起来像是巨大提升。

而且不少人还发现在不少测试里，谷歌用了些 “ 春秋手法 ” 。

因为给 Gemini Ultra 和 GPT-4 使用的测试方法并不一样， Gemini Ultra 用的是自家特调的全新方法 CoT@32* 。

在这种新方法下， GPT-4 得分提升一般般，而 Gemini 却进步明显。

可如果 Gemini Ultra 和 GPT-4 的同一标准，那它的得分就只有 83.7 ，还不如 GPT-4 。

甚至，还有不少人怀疑那个演示互动视频也是剪辑出来的卖家秀，实际效果绝对没那么牛。

这些真真假假的戏码咱也不管了，因为谷歌已经在 Bard 上用了微调后的 Gemini Pro ，所以我们也可以直接看看，这波升级后的 Bard 能耐到底涨了多少。

不过，目前调整过的 Bard 只支持英文，所以我们找来了 GPT-4V 版的 ChatGPT ，用英文让他们来一波华山论剑。

按照谷歌说法，这次 Gemini 在多模态上的长进最大，所以今天，我们主要就测测这块。

先考考它们的一些基础常识，丢一张八达岭长城的照片过去，让它们猜猜这是什么地方。

没想到一上来 Bard 就给了 ChatGPT 一个下马威， Bard 这边准确地给出了八达岭长城的答案。

而 ChatGPT 这边却有点底气不足，只给了个长城的答案，至于是哪段，它就没具体说。

不过马有失蹄，偶尔一次失误也没啥，为了进一步考验它们的图片识别能力，这把我直接让他们识别车的型号。

它们倒是都给出正确答案了：雪佛兰科尔维特。

但细节上还是 Bard 要稍稍细致些，发动机的型号，马力以及加速情况都写出来了，查了下也都对的上，没胡说八道。

ChatGPT 这边，就只简单给出了答案，带了句性价比不错。

能识别出这些正儿八经的图片，也显示不出有多大的能耐，毕竟现在这都是大模型的基本要求了。

于是差评君又上网找来了些梗图，试试它们理解人类复杂思维的程度。

先是这个狗带保护头套的一个梗图。

Bard 和 ChatGPT 给出的答案都差不多，都点明了带上这个保护套后，狗狗很想舔舐伤口。

接下来我又试了下这个猫猫表情包，各位打工人应该都能 get 到吧。

Bard 不仅读出了大伙们讨厌周一的意思，还认出了这是 2012 年火的一只网红猫。

ChatGPT 这边回答得倒很简洁，意思也解读出来了，和 Bard 旗鼓相当。

毕竟，幽默作为一种对事物的诙谐、滑稽或不合逻辑的理解和共鸣。。。

能读懂梗图、理解幽默，至少需要 AI 有理解人类情感、经验和文化背景的能力。

当然，天天要码字的差评君也得试试它的图表分析能力，说不定之后咱也能多了个生产力工具。。。

我从美国财政部的官网随便找了张柱状图丢给它们，看看它们能读出多少信息。

这块儿， Bard 和 ChatGPT 就有点难分伯仲了，大家给出的信息点都大差不差，都准确读出了美国会加大对低等基础设施州的投资力度。

就只是在表述语序上有一点差别，选哪个就看个人喜好了，不过要我说白嫖党还是 Bard 香啊。

最后，我们还搬出了大模型们的噩梦，也就是数学题，测了测它们的数学能力。

第一道是道初中难度的几何题，让它们求一下 ABO 的角度。

Bard 这边小试牛刀，迅速判断出了 ABO 是个等边三角形，得到 ABO 是个 60 °的答案。

但是 ChatGPT 这边的答案却大跌眼镜，直接整出了 45 °。。。

在另一道，判断哪些点连续但不可微的题目上， Bard 这边也略胜一筹。

有点高数基础的差友，应该都能看出 C ：x=-2 和 x=1 是正确答案。

Bard 这边稳扎稳打，选出了正确答案 C 。

ChatGPT 继续选择破罐子破摔，支支吾吾选了个它认为最有可能的答案 B 。。。

总得来讲，在几轮的测试对比之后，终于让差评君遇个到能和 GPT-4V 打得有来有回，甚至有些小优的大模型了。

而在几天之后的 13 号，开发者和企业用户，也直接可以调用 Gemini Pro 的 API 了。

另外，谷歌还准备把 Gemini 引入了 Pixel ， Pixel 8 Pro 将是第一款运行 Gemini Nano 的智能手机。

在接下来的几个月中， Gemini 还会相继和搜索、广告、 Chrome 等服务和产品结合。

至于纸面实力 “ 暴打 ”GPT-4V 的 Gemini Ultra ，则还要等到明年的年初，在 Bard Advanced 才能体验到。

最后，差评君想说俗话讲得好，巨人难转身。。。不少人用这样的比喻，来形容今年谷歌在 AI 新时代的困境。

毕竟上半年发布 Bard 的时候，甚至还因为推出得太急，整出了不少笑话。

谷歌的 AI 从遥遥领先，到沦为 OpenAI 追赶者的故事，似乎也成了科技圈的 “ 伤仲永 ” ，被大家当成了典型。

但差评君觉得，巨人转身的 “ 难 ” ，最起码有两层逻辑在里面。

第一层是愿不愿意转身，另一层，才是成不成功的问题。

无论是雪藏 “ 数码相机 ” 的柯达，还是固守塞班系统到 2013 年的诺基亚，在第一层就出了些问题。

咱们也能看到，至少在转身的态度这块儿，谷歌是没得说。

而目前的 Gemini 给我的感觉，虽说没有当时初识 ChatGPT 时的惊艳，但好歹，是谷歌该有的水平。

毕竟，大伙们可别忘了，当年奥特曼、马斯克等人创办 OpenAI 的目的之一，就是为了打破谷歌在 AI 领域的垄断。

包括 “ GPT ” 中的 “ T ” ，也就是 Transformer ，最早也是谷歌团队提出来的。

而起了个大早，赶了个晚集的谷歌，这次最起码跟上了步伐。

当然在通往 AGI 的道路上，差评君不好说谷歌、 OpenAI 、或是其他谁谁谁会第一个到终点、谁的方向是不是走对了。

但不能否认的是，如果一个内力雄厚的巨人一旦转身成功，方向还碰巧对了，并且还开启氮气加速。。。

那，怕是谁也挡不住。

图片、资料来源：Google DeepMind、Bard、ChatGPT

· 一周热点回顾 ·

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-12-12 06:45:20

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模型,模态,模型,答案,大杯,能力的资讯：

疯狂一夜！美国AMD、谷歌纷纷亮出大杀器，人类迎来巨变前夜？

...迄今为止功能最强大、最通用的多模态人工智能（AI）大模型：Gemini（中文称“双子座”）。具体来看，谷歌最新发布的Gemini 1

2023-12-07 13:02:00

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在

...点在于，Llama 3.2成为羊驼家族中，首个支持多模态能力的模型。Connect大会上，新出炉的Llama 3.2包含了小型（11B）和中型（90B）两种版本的主要视觉模型

2024-09-27 13:39:00

Gemini的展示是剪辑造假？我们亲测了一下，发现…

...重推出他们史上“规模最大、能力最强”的原生多模态大模型Gemini 1.0。并称已在多项基准测试中打败GhatGPT

2023-12-08 16:30:00

多模态竞技场对标90B Llama 3.2！Pixtral

...杀入江湖的Mistral AI，在9月份甩出了自家的首款多模态大模型Pixtral 12B，如今，报告之期已至，技术细节全公开

2024-11-20 09:43:00

阿里多模态检索智能体，自带o1式思考过程！复杂问题逐步拆解

...检索策略，这种设计不仅提高了检索效率，也显著增强了模型生成内容的准确性。为评估OmniSearch，研究团队构建了全新Dyn-VQA数据集

2024-12-05 09:45:00

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语

2024-09-18 13:31:00

哪里不会扫哪里！全球最强数学大模型在线玩，阿里多模态模型加持

现在，最强数学大模型，人人都可上手玩了！一觉醒来，阿里千问大模型团队发布了Qwen2-Math的Demo，抱抱脸在线可玩。惊喜的是，如果嫌输入数学公式比较麻烦，可以把想问的题截图

2024-08-21 09:42:00

最强国产多模态刚刚易主！腾讯混元把GPT-4/Claude-

国产大模型，多模态能力都开始超越GPT-4-Turbo了？？权威榜单，中文多模态大模型测评基准SuperCLUE-V，新鲜出炉

2024-08-09 09:38:00

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超闭

北大等出品，首个多模态版o1开源模型来了——代号LLaVA-o1，基于Llama-3.2-Vision模型打造，超越传统思维链提示

2024-11-20 09:42:00

更多关于科技的资讯：

全球首个甲骨文智能体“殷契行止” 上线最懂甲骨文的AI来了

小程序“了不起的甲骨文”，展示甲骨文“其”的不同字形。（本组图/小程序截图）甲骨拓本甲骨文“门”字甲骨文摹本甲骨文“马”字扫码看视频厦门网讯（厦门日报教育工作室首席专家佘峥通讯员王志鹏）你只需往电脑上传一张甲骨图片

2025-12-12 08:28:00

厦门临空经济片区场景创新平台推广暨供需对接活动举行

厦门网讯（厦门日报记者曾嫣艳通讯员曾焕滨）昨日，厦门临空经济片区场景创新平台推广暨供需对接与企业路演活动在翔安创新实验室举办

2025-12-12 08:28:00

从流程到质量：制片人为短剧工业化提供的“52集样本”

在短剧行业从 “流量争夺” 转向 “品质与流程双竞争” 的关键阶段，如何在有限周期内平衡效率、成本与成片质量，成为所有制作机构必须破解的难题

2025-12-12 08:29:00

剧想天开，造梦未来｜一场关于“儿童剧人物造型”的想象力实验

儿童戏剧，是投射在少年儿童心灵舞台上的第一束光。人物造型，作为这束光中最具象、最绚烂的色彩，不仅定义角色的灵魂，更深刻影响着儿童认知世界的方式与审美情感的塑造

2025-12-12 08:29:00

聚焦“中文+职业”融合：星禾星穗在世界中文大会展示校企合作新

在近期举办的2025世界中文大会上，教育企业星禾星穗多维度参与，展现了其在“中文+专业/职业”领域的系统思考与实践成果

2025-12-12 08:30:00

会打拳的机器人带你触摸未来走进国家“芯火”双创基地象屿园区

元启创新的人形机器人正在打拳。（元启创新供图）厦门网讯（厦门日报记者吴晓菁） “灵犀，灵犀，表演一段佛山醒狮。”昨日

2025-12-12 08:59:00

“数字丝路”赋能文化出海，中国数字文化扬帆全球新蓝海

2025年12月9日下午，一场聚焦数字文化出海与青年文化交流的“共建数字丝绸之路”研讨会在上海举行。中国传媒大学经济与管理学院教授方英

2025-12-12 09:00:00

AI眼镜将会取代手机？杭州企业从蛰伏到突起

AI 眼镜似乎成了AI具身智能行业中最“靓”的仔，无论是苹果、谷歌这些大厂，还是国内的科技巨头，纷纷下场。本周二，谷歌在The Android Show活动上宣布

2025-12-12 09:10:00

苏州人保财险：行业唯一反洗钱征文荣获三等奖

近日，中国人民银行苏州市分行反洗钱科公布2025年苏州市反洗钱征文比赛评审结果，苏州人保财险撰写的《破局与重构：保险公司在反洗钱履职的实践困境与创新路径研究》一文凭借深刻的问题剖析

2025-12-12 10:46:00

常熟人保财险：培训赋能促协作沟通提效助发展

为提升员工职场软实力，优化内部沟通效能，12月7日，常熟人保财险琴川学府组织开展了“赋能职场进阶，高情商沟通与协作”专题培训

2025-12-12 10:56:00

“大小字陷阱”丢了信任也失了格局-中国吉林网

长白时评评论员刘颂寒声称“下载App必得大额红包”，旁边又用小字解释“仅限新人或以实际情况为准”；宣称“全场5折”，又在大大的“5折”后面跟个极小的“起”字……在日常的消费中

2025-12-12 10:56:00

虎丘人保财险：精打细算降成本，按需采购提效益

在当前行业竞争加剧与市场环境多变的背景下，虎丘支公司持续推动降本增效工作，这既是应对挑战的必要举措，也是实现长期稳健经营的重要保障

2025-12-12 10:58:00

民生商品升级换代需要及时解疑释惑

劳利近日“水银体温计明年起禁产”的话题引发热议。根据国家药监局此前发布的通知，自2026年1月1日起全面禁止生产含汞体温计产品

2025-12-12 11:01:00

常熟人保财险组织开展“云赏秋韵·镜拍虞山”摄影交流分享活动

12月4日，常熟人保财险工会策划开展了“云赏秋韵·镜拍虞山”摄影交流分享活动，旨在通过摄影艺术提升员工的审美素养与创造力

2025-12-12 11:03:00

苏州人保财险：联合开展产寿健交叉互动业务培训

为高效推进交叉互动业务市场化运营，深度整合内部业务资源，圆满达成交叉互动产品年度销售目标，近日，苏州人保财险联合苏州人保寿险

2025-12-12 11:04:00

头条订阅服务

“试用完谷歌的新AI模型，再也不爱GPT”