• 我的订阅
  • 科技

Gemini的展示是剪辑造假?我们亲测了一下,发现…

类别:科技 发布时间:2023-12-08 16:30:00 来源:硅星人
Gemini的展示是剪辑造假?我们亲测了一下,发现…

昨天谷歌深夜炸场,隆重推出他们史上“规模最大、能力最强”的原生多模态大模型Gemini 1.0。并称已在多项基准测试中打败GhatGPT,综合能力称霸目前市面上所有AI大模型。

官方放出的一段6分22秒演示视频更是震撼:Gemini能流畅而准确地识别出视频中出现的事物、教授中文发音、玩猜谜游戏、根据画的乐器播放音乐….一波互动简直无限接近于人。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

不过很快,这支视频就被人说并非实时录制,而是多次尝试和挑选后“精心剪辑”的节目效果。

谷歌后续自己放出的博客文章中也显示,实现这样的多模态交互过程需要经过多步图片和提示词调试。

比如“喂”了多张手势图片后,让Gemini回答这是在做什么,提示思路是游戏。而视频中仅面对手势动作,Gemini就主动表示“我知道你在玩剪刀石头布”。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

再比如排出太阳、地球和土星照片问Gemini是否为正确顺序,同样提示要考虑到太阳的距离并要求解释原因。可视频里的 Gemini又是在没有任何参考的情况下纠正了排序。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

除此之外,对于谷歌自豪亮出的,Gemini Ultra在MMLU( 大规模多任务语言理解 )测试中跑分超过 GPT-4和人类专家这件事,人们冷静下来仔细一看,也发现了些小心思:

在Gemini Ultra 90.0%的分数下面,非常不起眼地标着CoT@32,意思是“使用了思维链提示技巧、尝试32次选最好结果”;而GPT-4 86.4%分数下却是5-shot,表面只进行“5次示例且无提示词”——谷歌给自己和对家安排的标准都不一样,根本无法公平公正地比较。

Hugging Face 技术主管Philipp Schmid直接用谷歌60页Gemini 技术报告中的数据重新作图。并在X发文指出,如果同样采用5-shot,Gemini Ultra的分数只有83.7%,实则是不如GPT-4的。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

不过好在如果也给GPT-4来个32次尝试+思维链提示,还是Gemini胜。

谷歌耍了些扬长避短的小花样,但也不至于完全撒谎。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

在上图中也可以看出,这次发布的 Gemini1.0全系列里,除了“超大杯”Gemini Ultra外,“大杯”Gemini Pro也在八项基准测试的六项中打败了对标的GPT-3.5。

现在,用户能玩到的Google Bard里接入的就是Gemini Pro。

于是硅星人也赶紧上手操作了一下,实测它和最新版本的GPT-4V到底哪个更厉害。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

由于Google官方表示目前Gemini Pro只能为170个国家和地区提供英语服务,所以咱们先用英文提问。

首先热个身,试试最简单的文本生成能力:让Bard和ChatGPT分别写一段夸奖自己的Rap,并且和对方battle,来个下马威。

Bard一顿猛烈输出,主歌、副歌、桥接、结尾几大说唱歌曲元素一个不落。表示自己是真正的OG,拥有更庞大的知识库还能访问网络,但GPT只是“困在过去”。(不过现在GPT-4已经集成了微软Bing搜索,也可以访问实时信息。)

Gemini的展示是剪辑造假?我们亲测了一下,发现…

ChatGPT这边相对精简,主打自己是一个快速冲刺的人工智能,“Google有名气,但我有真本事”。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

好吧,都挺会说的。不过既然Gemini最标榜的是自己的原生多模态能力,那就在多模态上让它俩比比。

拿一张今年9月刚上市的iPhone 15 Pro Max图片,让它们认认这是什么。

Bard准确识别出了机型,还把优势、外观、各项组件参数一一说明。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

ChatGPT这边有点拉垮,只说这些是较高级的iPhone手机,描述了屏幕显示和颜色等表面信息。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

第一轮看起来,Bard的图像识别和信息对齐表现更胜一筹。

再考考它们识数,数数图里总共有几片叶子。

这次换Bard表现不佳,先是说确保过每片叶子只数一遍后,看到有6片。让它再试试吧,直接数出来7片,还出现了“幻视”,把这7片的颜色大小列了出来。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

ChatGPT相对冷静,5片叶子一次就数对了。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

下面来到小学数学题。

谷歌特别提到Gemini可以作为孩子的学习伙伴,帮助解决数学、物理等学科难题。我们就让它和GPT简单算一下d角度数。

Bard好像还没从数叶子那儿回过神来,整出来个300度。逻辑是:完整内角和360度,图片里就标出来一个角的数值300度,所以这铁定就是你问的答案——忽略了d角。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

咱就是说,这个“学习伙伴”有点迷糊啊......

而ChatGPT这边继续稳定发挥,得出60度正确答案。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

不过,我们决定再给Bard一次机会,读图表。

这是一张来自美国劳工部的柱状图,显示截至2023年10月一年内消费者价格指数(CPI)在食品、能源及其它类别中的百分比变化。左边为Bard给出的答案,右边来自ChatGPT。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

这次要好好表扬一下Bard了,不仅解释了CPI指数的含义,给出几个类别百分比变化的确切数值,还简要分析了当下通胀情况,即给出了表格数据之上的分析结论。

相比之下,ChatGPT的答案就比较浅层,读出的数值也仅仅是一个范围。

最后,虽然官方称Gemini Pro还没准备好提供中文服务,但鉴于Bard中文水平一直还不错,我们还是很想让它和ChatGPT比拼一把。

而且准备祭出最近相当火的——“练心眼子”系列。

这一比不要紧,Bard这嘴皮子功夫简直了,能启发一大批职场小白,甚至感觉IP地址来自山东。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

而ChatGPT的回答虽然也还可以,但此刻在Bard的衬托下,就像个老实巴交、不善言谈的职场打工人。

Gemini的展示是剪辑造假?我们亲测了一下,发现…

这还没有正式推出中文服务,等官宣更多语言和地区,不知道 Bard的中文水平会不会更加炸裂?

总而言之,虽然一整套实测下来,Bard在一些方面还是略有不足,但也还要记得,这只是对标GPT-3.5的Gemini Pro版本,真正对抗GPT-4的最高阶Gemini Ultra还没有释出。

并且,Gemini 1.0 的问世打破了ChatGPT一家独大的局面,让用户们可以根据需求有更多选择。市场的良性竞争也有助于AI大模型领域整体的创新发展。

并且,Google Bard现在还是免费的!

如果继续保持下去,等它越来越强的时候,你还愿意每月花20刀订阅ChatGPT吗?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-12-08 18:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“试用完谷歌的新AI模型,再也不爱GPT”
...如 GPT-4 。 甚至,还有不少人怀疑那个演示互动视频也是剪辑出来的卖家秀,实际效果绝对没那么牛。这些真真假假的戏码咱也不管了
2023-12-12 00:22:00
谷歌大模型Gemini视频被质疑造假、夸大宣传,官方回应:演示内容有剪辑|钛媒体焦点
谷歌Logo(图片来源:钛媒体App编辑拍摄)刚发布不到48小时的谷歌史上最强的人工智能(AI)大模型Gemini,如今却引发了一些争议
2023-12-08 22:02:00
Gemini 超越 GPT-4 靠作弊?谷歌承认:是的,演示视频经过了剪辑
...因在于那个 6 分半的 Gemini 演示视频:它是假的,是经过剪辑的,甚至在被质疑后,谷歌还承认了!Gemini 的视频演示效果
2023-12-08 22:02:00
首个多模态连续学习综述,港中文、清华、UIC联合发布
...址:https://github.com/LucyDYu/Awesome-Multimodal-Continual-Learning多模态连续学习的最新进展连续学习(CL)旨在增强机器学习模型的能力
2024-11-14 09:46:00
...,对于“AIGC基础算法工程师”的职位描述包括探索视频剪辑/成片模型,及端到端视频生成技术;追踪业界创意、多模态及Generative AI方向最新技术
2024-02-21 04:02:00
智源评测体系发布 国内外“百模”评估结果出炉
...系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能
2024-05-17 17:26:00
商汤科技发布“书生·浦语”大模型 中文考试超越ChatGPT
...的数据集。CNMO获悉,早在今年3月,商汤科技便发布了多模态多任务通用大模型“书生(INTERN)2.5”。据官方介绍,“书生2.5”实现了通过文本来定义任务,并根据给定视觉
2023-06-08 00:13:00
谷歌大模型爆红后被质疑造假!承认演示视频剪辑过:为了简洁缩短了
...频中展示的是精心挑选的好结果,不是实时录制,而经过剪辑的。随后,谷歌在一篇博客文章中解释了多模态交互过程,基本上也间接承认了只有使用静态图片和多段提示词拼凑,才能达成演示视频
2023-12-08 15:15:00
3大关键词,解读全球首个万字创作大模型“中文逍遥”
...字小说的内容生成能力;•多,图生小说、文生插图等多模态交互能力;•长,一次读懂长达100万字小说的内容理解力。大:全球首个万字创作大模型,一键生成万字小说唐太宗办亚运会,孙悟
2023-10-16 14:49:00
更多关于科技的资讯:
新春消费旺好市开门红 厦门春节消费新场景亮点频现
春节期间,中山路商圈人潮涌动。(记者 林铭鸿 摄)厦门网讯(厦门日报记者 沈彦彦 王元晖)政企协同发力,活动精彩纷呈,消费新场景亮点频现
2026-02-24 08:03:00
拥抱“ABC”
拥抱“ABC”,让这家从杭州发展起来的民营制造企业,积极融入全球航空产业链高端环节。在航空制造领域,一颗新星,“布灵布灵”闪着光
2026-02-24 07:06:00
2月19日,泰山玻璃纤维(太原)有限公司生产车间内,窑炉火焰熊熊、生产线全速运转,一派繁忙有序的新春生产景象。为抢抓生产进度
2026-02-24 07:47:00
东南网2月23日讯(福建日报记者 黄筱菁 通讯员 吴火招)这个春节,位于清流氟新材料产业园福宝片区的福建中欣氟材高宝科技有限公司(以下简称“中欣高宝”)
2026-02-24 00:07:00
新春佳节,当千家万户沉浸在团圆的喜悦中时,在宁波,有这样一群人,他们为了赶订单、保交付,选择坚守生产一线。据统计,今年春节期间
2026-02-23 17:31:00
定义AI数字化增长服务新模式 数织沅码亮相多地春晚舞台
2026年春节,AI驱动企业全球数字化增长的专业服务平台——数织沅码登陆江苏卫视、浙江卫视等多地春晚舞台,完成首次公开亮相
2026-02-23 11:47:00
中国科技品牌绿联推进充电宝品质升级,让充电更安心
对用户而言,充电宝早已不是偶尔应急的配件,而是通勤、差旅、校园与户外场景中的常备装备。行业也普遍认为,当快充普及、多设备协同成为日常
2026-02-23 13:11:00
引言:腥风血雨已至,智能体元年全面爆发2026年的春天,人工智能领域正经历一场前所未有的变革。当全球科技巨头仍在为生成式AI的迭代速度激烈竞逐时
2026-02-23 13:12:00
以武会春,宇树春晚机器人马年秀出“赛博真功夫”
新春启序,万象更新。在中央广播电视总台2026年春晚舞台上,宇树科技作为春晚机器人合作伙伴第三次登台亮相,携G1与H2人形机器人献上全球首次全自主人形机器人集群武术表演(带集群快速跑位)
2026-02-23 11:47:00
大年初六,位于余杭区“中国飞谷”的重隼智能科技(浙江)有限公司马力全开,以开局即冲刺的姿态,奋力跑出新年发展第一棒。“作为一家深耕无人机具身智能集成创新的科技型企业
2026-02-23 07:58:00
2月20日上午9时,太原武宿综合保税区A座环球优选品牌店的大门准时开启,300余款新春礼盒整齐排列,品类丰富,琳琅满目
2026-02-23 07:29:00
“十五五”开局看河北|淡季不淡,冀东普天产销两旺
新年首月销售额近8000万元,同比增长14.3%淡季不淡,冀东普天产销两旺1月26日,冀东普天线缆有限公司工人正在优化生产设备
2026-02-23 07:37:00
河北日报讯(记者孙也达)2月14日,秦皇岛晟成自动化设备有限公司生产的全球首台套出口型电磁加热多层层压机完成拆解,运往美国
2026-02-23 07:48:00
双轮驱动,智启未来:刘晓春与AI智能体×机器人“姊妹组合战略”的全球布局
2026,智能时代的分水岭2026年的春天,马年春晚的舞台上,一场科技盛宴惊艳了全球观众——30多台国产机器人协同起舞
2026-02-22 12:05:00
新春走基层丨厦企加快数字化转型步伐 提前返岗忙生产赶订单
明翰电气的工人春节期间坚守岗位。(记者 林铭鸿 摄)厦门网讯(厦门日报记者 林露虹)放置材料、调试机台……正月初五,厦门明翰电气股份有限公司(以下简称“明翰电气”)已忙碌起来
2026-02-22 08:50:00