• 我的订阅
  • 科技

神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察

类别:科技 发布时间:2023-12-07 16:15:00 来源:封面新闻

封面新闻记者 马晓玉 边雪

2022年底的人工智能的热潮是OpenAI的ChatGPT带来的,而2023年底,谷歌带着它的Gemini高调杀回人工智能圈。

美国时间12月6日早间,谷歌发布了外界期待许久的大语言模型Gemini,在发布会现场,谷歌将Gemini的多项能力直接与OpenAI的GPT-4进行对比,雄心勃勃地宣布进入“Gemini时代”,更加剧了两大头部科技公司在大语言模型领域竞争的白热化程度。

谷歌表示,现有的人工智能模型通常只处理一种类型的推理,如图片或文本,而 Gemini 的设计是“多模式”的。这意味着它接受包括多种媒体类型的输入,组合文本、图像、音频、视频和编程代码。未来,谷歌还计划将 Gemini添加到谷歌搜索引擎和 Chrome 网络浏览器等产品中,而全球有数十亿人在使用这些产品。

神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察

谷歌首席执行官皮查伊

让GPT-4“瑟瑟发抖”的Gemini,究竟有什么杀手锏?

拿出一张世界地图,发出指令,“根据你现在所见,想一个游戏,还要用emoji表情呈现。”Gemini即刻给出回答,“我们可以玩一个叫做‘猜国家’的游戏”,然后为你提供几个线索“考拉”、“袋鼠”、“珊瑚”。随后,操作员用手指出澳大利亚所在位置,Gemini就给他打了个勾。

或是将鸭子玩具放在中间,为它设置一个分岔路口,一头通向鸭子纸片,一头通向小熊纸片。Gemini给出指引,“走左边会遇到鸭子,这是朋友。走右边会遇到熊,这是敌人。所以鸭子应该走左边。”

神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察

谷歌首席执行官桑达尔·皮查伊在宣传视频中发言

这是谷歌刚刚发布的演示视频中的画面。无论操作员做出何种行动,Gemini都能精准释义,并根据操作者行为的改变迅速作出反应,甚至能够识别物体的材质、预测事件发生的趋势,尤其擅长于解释复杂学科的推理,如数学和物理。此外,视频的呈现还使用了第一人称视角,而不是局限于手机端或网页端进行测试。这就是目前Gemini所具备的能力——在真实世界实时处理任务。可想而知其未来在机器人或者VR眼镜等更多领域上的应用前景有多广阔。

“Gemini是原生多模态打造,是(谷歌)通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示:Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有史以来打造的最强大、最通用的模型,Gemini包括三个版本:Gemini Ultra、Gemini Pro、Gemini Nano。

神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察

Gemini的三个版本 Ultra、Pro、 Nano

其中,Gemini Ultra是能力最强大的版本,适用于需要高级处理能力的任务。据介绍,Gemini Ultra是第一个在MMLU(大规模多任务语言理解)方面超越人类专家的模型,该模型综合使用数学、物理、历史、法律、医学和伦理学等57个科目来测试世界知识和解决问题的能力。

Gemini Pro专为多任务设计,能够击败GPT-3.5。Gemini Pro在提供迅速响应和理解复杂查询方面表现出色,并被谷歌官方声称在与第三方测试人员的盲测中,搭载 Gemini Pro 的 Bard 是首选的免费聊天机器人,领先于其替代产品。

作为是谷歌最轻量级的人工智能模型,Gemini Nano的主要设计目标是在移动设备上本地离线运行,为设备端任务提供高效的支持。据谷歌介绍,Gemini Nano的出色性能在谷歌的Pixel 8 Pro手机上得到了充分展示,用户已经能够看到它在录音机应用中的语音识别和智能回复等功能表现。值得一提的是,所有的Gemini模型,包括Gemini Nano,都经过了精心地优化,以适应不同的使用场景和需求。

神仙打架!Gemini 和GPT-4谁能笑到最后?

谷歌对 Gemini 模型进行了严格的测试,并评估了它们在各种任务中的表现。从自然图像、音频和视频理解,到数学推理等任务。

数据上看,Gemini Ultra是首个在 MMLU(大规模多任务语言理解数据集)任务表现上优于人类专家的大模型,得分率高达90.0%。作为对比,人类专家的成绩为89.8%,GPT4的成绩为86.4%。MMLU 数据集包含数学、物理、历史、法律、医学和伦理等 57 个科目,用于测试大模型的知识储备和解决问题能力。

神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察

Gemini Ultra在 MMLU任务表现上,得分率高达 90.0%

针对 MMLU 测试集的新方法使得 Gemini 能够在回答难题之前利用其推理能力进行更仔细地思考,相比仅仅根据问题的第一印象作答,Gemini 的表现有显著改进。

另一方面,Gemini也在多模态任务上全面超越了GPT-4V,谷歌称Gemini Ultra 在大型语言模型研发被广泛使用的 32 个学术基准测试集中,在其中 30 个测试集的性能超过当前 SOTA 结果。

Gemini是谷歌各个团队大规模合作的成果,包括谷歌研究院的研究者,这个模型从发布之初就定位为原生多模态结构,这意味着它能够跨越文本、图像、视频、音频和代码进行无缝推理。这与OpenAI的策略有所不同,后者首先推出了纯文字的GPT-3.5,直到GPT-4才开始加入视觉等多模态能力。

然而,尽管Gemini几乎在所有测试中都领先于GPT-4,但GPT-4本身就是一个巨大的飞跃,Gemini的领先优势似乎并不明显。对此,皮查伊表示,“我们必须意识到,当你试图从85%开始突破时,你已经处于曲线的末端。虽然看起来进展不大,但确实意味着我们仍在取得进展。”

他表示,对于其中一些新的基准,目前的技术水平仍然很低,未来还有很大的提升空间,“比例定律依然有效。随着模型的扩大,我们会看到更多的进展,我真的觉得我们才刚刚开始探索人工智能的潜力。我们还需要开发新的基准测试,这也是我们研究MMLU多模态基准的部分原因。”

而在OpenAI这边才刚刚经历了非常戏剧性的“董事会宫斗”,首席执行官奥尔特曼突遭董事会罢免,但最终迅速回归,给OpenAI未来发展也带来了许多不确定性的同时,也为包括谷歌在内其他行业内竞争者更多追赶的时间和机会。当然,Gemini发布的还是一支预告,真正有能力对标GPT-4的Gemini Ultra还是要到明年年初才会正式上线。

一年前,OpenAI 推出的 ChatGPT 一夜爆火,震动了谷歌和其他科技巨头,引发了整个行业对快速生成人工智能工具的争夺,以及关于人工智能风险和益处的全球辩论。一年后,谷歌推出了反击OpenAI的Gemini,并在很多能力上显示出对GPT-4的全面超越,GPT-5会再次让人眼前一亮吗?史上最强大的大模型“军备竞赛”,让我们拭目以待。

(本文图片来自谷歌官方)

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-12-07 18:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

再也不用戳屏幕的“神仙座舱”来了 智己车机进入iPhone时刻
以前开车想调个空调、导个航,得在屏幕上戳戳戳,不仅安全性不能保证,还很影响车主心情。智己这次直接放话:“以后不用碰屏幕,甚至不用打开APP。”怎么做到的?答案是:动嘴就行。昨晚,
2025-03-19 00:26:00
科幻“装备”幕后的神仙推手
...器、宇航服 一比一还原百分百逼真科幻“装备”幕后的神仙推手东方红一号等比例模型高悬头顶,一排从科幻电影中“走出”的宇航服整齐列队,电影《回到未来》中的时光机跑车也能启动飞驰…
2024-05-21 13:51:00
2023年服贸会新观察:大模型,改变了金融业的什么?
...者 李彤摄人民网北京9月6日电 (记者李彤)金融业对“模型”并不陌生,“大模型”一字之增,改变了什么?正在举办的2023年中国国际服务贸易交易会(以下简称“服贸会”),是观察
2023-09-06 10:59:00
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
迎着技术风口,2024年将是AI大模型应用的浪潮年。业界认为,大模型将对金融业产生长远的、深刻的影响。1月28日,针对大模型在各业务场景的应用成效、对大模型算力的开发和提升,多机
2024-01-29 21:36:00
华中科技大学白翔教授发布多模态大模型
...技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”
2023-12-15 01:14:00
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型
2024-11-19 09:48:00
...活拧螺丝的机器人、会自己“脑补”物理规律的视频生成模型……这些新鲜事似乎在提醒大家:人工智能正在突破屏幕的束缚,开始在现实世界施展身手。先看国内。垂直医疗大模型“华佗GPT”
2025-03-17 05:36:00
智谱发布电脑智能体大模型GLM-PC:回车即用 协助完成各类电脑任务
...的电脑智能体GLM-PC正式开放体验。这款基于智谱多模态大模型CogAgent的智能体,是全球首个面向公众开放的电脑智能体,能够模拟人类的“观察”和“操作”行为,协助用户高效
2025-01-24 19:34:00
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
谁是在线购物领域最强大模型?也有评测基准了。基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MML
2024-11-21 09:45:00
更多关于科技的资讯:
双轮驱动,智启未来:刘晓春与AI智能体×机器人“姊妹组合战略”的全球布局
2026,智能时代的分水岭2026年的春天,马年春晚的舞台上,一场科技盛宴惊艳了全球观众——30多台国产机器人协同起舞
2026-02-22 12:05:00
新春走基层丨厦企加快数字化转型步伐 提前返岗忙生产赶订单
明翰电气的工人春节期间坚守岗位。(记者 林铭鸿 摄)厦门网讯(厦门日报记者 林露虹)放置材料、调试机台……正月初五,厦门明翰电气股份有限公司(以下简称“明翰电气”)已忙碌起来
2026-02-22 08:50:00
新春走基层 | 森一量子为赶订单全员在线 生产线满负荷运转
昨日记者走进森一量子,这一企业春节期间全员加班加点。厦门网讯(厦门日报记者 李晓平)长晶、 切割、减薄、抛光、镀膜……当大多数人还沉浸在春节的喜庆中
2026-02-22 08:50:00
我带着一款AI眼镜回家过年
记者带回家的AI眼镜二伯买的宇树机器狗Go2今年的春晚有一个格外醒目的变化——“AI含量”明显提升。年夜饭桌上,亲戚们都在聊各自手机里的各种“AI”App
2026-02-22 07:49:00
中国科大实现碳化硅改性双空位色心的电荷态调控
大皖新闻讯 2月21日,大皖新闻记者从中国科学技术大学获悉,该校郭光灿院士团队在碳化硅改性双空位色心电荷态调控的研究中取得了新进展
2026-02-21 16:48:00
戛纳世界人工智能大会探讨“音乐人工智能”
中国青年报客户端讯(中青报·中青网记者 蒋肖斌)2026戛纳世界人工智能大会(WAICF 2026),近日在法国戛纳举办
2026-02-21 12:10:00
杭州一家高科技创业公司员工 每人领一个陪伴机器人回家过年
春节去各地见见世面长长“脑子”这个春节,大多数打工人都卸下KPI返乡团聚。杭州一家名为镭萌科技的创业公司,却有一群特殊的“员工”在忙着长“脑子”
2026-02-21 08:11:00
建设一流创新生态 激发创新投资需求杭州日报讯 日前,浙江(杭州)知识产权创新产业园内,一场旨在连接技术与资本的专利产业化投融资专项对接活动火热举行
2026-02-21 08:11:00
新春佳节,浙江不少企业春节“不打烊”,抢订单、赶交付、跑海外,把年过在了车间里和海外展台前。走进宁波这家科技企业,工作人员正紧盯屏幕
2026-02-20 15:04:00
马年春节,杭城消费市场持续升温。一批全国首店、浙江首店、杭州首店密集登陆湖滨、武林、钱江新城、奥体等核心商圈,覆盖潮玩
2026-02-20 07:31:00
大年初三,杭州苏宁易购庆春路店暖意融融。大厅里“焕新幸福年”的红色标语格外醒目。店内客流平稳,多为全家同行的家庭顾客,虽不似年前拥挤
2026-02-20 08:01:00
“库迪咖啡竟然涨价了,9.9元的咖啡以后还能闭眼冲吗?”春节前最后一个工作日,东北姑娘小乔中午赶到杭州火车东站,准备坐高铁回老家
2026-02-20 08:01:00
潮声丨从“Made in”到“Design by”,浙江品牌出海记
新春,义乌老板们已经忙碌起来。这几天,24家义乌企业亮相2026年美国拉斯维加斯服装服饰及面料展,带着新品抢订单、拓市场
2026-02-19 16:24:00
新春走基层|“解码”潮玩盲盒:Z世代用情绪消费点亮团圆年
中青报·中青网记者沈杰群余冰玥李怡蒙见习记者蒋欣雨95后北京职员王之怡在新加坡休假时,特意去了环球影城附近的泡泡玛特,店内挤满了年轻人
2026-02-19 12:05:00