• 我的订阅
  • 科技

神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察

类别:科技 发布时间:2023-12-07 16:15:00 来源:封面新闻

封面新闻记者 马晓玉 边雪

2022年底的人工智能的热潮是OpenAI的ChatGPT带来的,而2023年底,谷歌带着它的Gemini高调杀回人工智能圈。

美国时间12月6日早间,谷歌发布了外界期待许久的大语言模型Gemini,在发布会现场,谷歌将Gemini的多项能力直接与OpenAI的GPT-4进行对比,雄心勃勃地宣布进入“Gemini时代”,更加剧了两大头部科技公司在大语言模型领域竞争的白热化程度。

谷歌表示,现有的人工智能模型通常只处理一种类型的推理,如图片或文本,而 Gemini 的设计是“多模式”的。这意味着它接受包括多种媒体类型的输入,组合文本、图像、音频、视频和编程代码。未来,谷歌还计划将 Gemini添加到谷歌搜索引擎和 Chrome 网络浏览器等产品中,而全球有数十亿人在使用这些产品。

神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察

谷歌首席执行官皮查伊

让GPT-4“瑟瑟发抖”的Gemini,究竟有什么杀手锏?

拿出一张世界地图,发出指令,“根据你现在所见,想一个游戏,还要用emoji表情呈现。”Gemini即刻给出回答,“我们可以玩一个叫做‘猜国家’的游戏”,然后为你提供几个线索“考拉”、“袋鼠”、“珊瑚”。随后,操作员用手指出澳大利亚所在位置,Gemini就给他打了个勾。

或是将鸭子玩具放在中间,为它设置一个分岔路口,一头通向鸭子纸片,一头通向小熊纸片。Gemini给出指引,“走左边会遇到鸭子,这是朋友。走右边会遇到熊,这是敌人。所以鸭子应该走左边。”

神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察

谷歌首席执行官桑达尔·皮查伊在宣传视频中发言

这是谷歌刚刚发布的演示视频中的画面。无论操作员做出何种行动,Gemini都能精准释义,并根据操作者行为的改变迅速作出反应,甚至能够识别物体的材质、预测事件发生的趋势,尤其擅长于解释复杂学科的推理,如数学和物理。此外,视频的呈现还使用了第一人称视角,而不是局限于手机端或网页端进行测试。这就是目前Gemini所具备的能力——在真实世界实时处理任务。可想而知其未来在机器人或者VR眼镜等更多领域上的应用前景有多广阔。

“Gemini是原生多模态打造,是(谷歌)通往Gmeini模型时代的第一步。”谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示:Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。作为谷歌有史以来打造的最强大、最通用的模型,Gemini包括三个版本:Gemini Ultra、Gemini Pro、Gemini Nano。

神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察

Gemini的三个版本 Ultra、Pro、 Nano

其中,Gemini Ultra是能力最强大的版本,适用于需要高级处理能力的任务。据介绍,Gemini Ultra是第一个在MMLU(大规模多任务语言理解)方面超越人类专家的模型,该模型综合使用数学、物理、历史、法律、医学和伦理学等57个科目来测试世界知识和解决问题的能力。

Gemini Pro专为多任务设计,能够击败GPT-3.5。Gemini Pro在提供迅速响应和理解复杂查询方面表现出色,并被谷歌官方声称在与第三方测试人员的盲测中,搭载 Gemini Pro 的 Bard 是首选的免费聊天机器人,领先于其替代产品。

作为是谷歌最轻量级的人工智能模型,Gemini Nano的主要设计目标是在移动设备上本地离线运行,为设备端任务提供高效的支持。据谷歌介绍,Gemini Nano的出色性能在谷歌的Pixel 8 Pro手机上得到了充分展示,用户已经能够看到它在录音机应用中的语音识别和智能回复等功能表现。值得一提的是,所有的Gemini模型,包括Gemini Nano,都经过了精心地优化,以适应不同的使用场景和需求。

神仙打架!Gemini 和GPT-4谁能笑到最后?

谷歌对 Gemini 模型进行了严格的测试,并评估了它们在各种任务中的表现。从自然图像、音频和视频理解,到数学推理等任务。

数据上看,Gemini Ultra是首个在 MMLU(大规模多任务语言理解数据集)任务表现上优于人类专家的大模型,得分率高达90.0%。作为对比,人类专家的成绩为89.8%,GPT4的成绩为86.4%。MMLU 数据集包含数学、物理、历史、法律、医学和伦理等 57 个科目,用于测试大模型的知识储备和解决问题能力。

神仙打架!谷歌新款大模型Gemini 和GPT-4谁能笑到最后?丨科技观察

Gemini Ultra在 MMLU任务表现上,得分率高达 90.0%

针对 MMLU 测试集的新方法使得 Gemini 能够在回答难题之前利用其推理能力进行更仔细地思考,相比仅仅根据问题的第一印象作答,Gemini 的表现有显著改进。

另一方面,Gemini也在多模态任务上全面超越了GPT-4V,谷歌称Gemini Ultra 在大型语言模型研发被广泛使用的 32 个学术基准测试集中,在其中 30 个测试集的性能超过当前 SOTA 结果。

Gemini是谷歌各个团队大规模合作的成果,包括谷歌研究院的研究者,这个模型从发布之初就定位为原生多模态结构,这意味着它能够跨越文本、图像、视频、音频和代码进行无缝推理。这与OpenAI的策略有所不同,后者首先推出了纯文字的GPT-3.5,直到GPT-4才开始加入视觉等多模态能力。

然而,尽管Gemini几乎在所有测试中都领先于GPT-4,但GPT-4本身就是一个巨大的飞跃,Gemini的领先优势似乎并不明显。对此,皮查伊表示,“我们必须意识到,当你试图从85%开始突破时,你已经处于曲线的末端。虽然看起来进展不大,但确实意味着我们仍在取得进展。”

他表示,对于其中一些新的基准,目前的技术水平仍然很低,未来还有很大的提升空间,“比例定律依然有效。随着模型的扩大,我们会看到更多的进展,我真的觉得我们才刚刚开始探索人工智能的潜力。我们还需要开发新的基准测试,这也是我们研究MMLU多模态基准的部分原因。”

而在OpenAI这边才刚刚经历了非常戏剧性的“董事会宫斗”,首席执行官奥尔特曼突遭董事会罢免,但最终迅速回归,给OpenAI未来发展也带来了许多不确定性的同时,也为包括谷歌在内其他行业内竞争者更多追赶的时间和机会。当然,Gemini发布的还是一支预告,真正有能力对标GPT-4的Gemini Ultra还是要到明年年初才会正式上线。

一年前,OpenAI 推出的 ChatGPT 一夜爆火,震动了谷歌和其他科技巨头,引发了整个行业对快速生成人工智能工具的争夺,以及关于人工智能风险和益处的全球辩论。一年后,谷歌推出了反击OpenAI的Gemini,并在很多能力上显示出对GPT-4的全面超越,GPT-5会再次让人眼前一亮吗?史上最强大的大模型“军备竞赛”,让我们拭目以待。

(本文图片来自谷歌官方)

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-12-07 18:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

再也不用戳屏幕的“神仙座舱”来了 智己车机进入iPhone时刻
以前开车想调个空调、导个航,得在屏幕上戳戳戳,不仅安全性不能保证,还很影响车主心情。智己这次直接放话:“以后不用碰屏幕,甚至不用打开APP。”怎么做到的?答案是:动嘴就行。昨晚,
2025-03-19 00:26:00
科幻“装备”幕后的神仙推手
...器、宇航服 一比一还原百分百逼真科幻“装备”幕后的神仙推手东方红一号等比例模型高悬头顶,一排从科幻电影中“走出”的宇航服整齐列队,电影《回到未来》中的时光机跑车也能启动飞驰…
2024-05-21 13:51:00
2023年服贸会新观察:大模型,改变了金融业的什么?
...者 李彤摄人民网北京9月6日电 (记者李彤)金融业对“模型”并不陌生,“大模型”一字之增,改变了什么?正在举办的2023年中国国际服务贸易交易会(以下简称“服贸会”),是观察
2023-09-06 10:59:00
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
迎着技术风口,2024年将是AI大模型应用的浪潮年。业界认为,大模型将对金融业产生长远的、深刻的影响。1月28日,针对大模型在各业务场景的应用成效、对大模型算力的开发和提升,多机
2024-01-29 21:36:00
华中科技大学白翔教授发布多模态大模型
...技大学软件学院白翔教授领衔的VLRLab团队发布了多模态大模型——“Monkey”。该模型号称能够实现对世界的“观察”
2023-12-15 01:14:00
LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型
2024-11-19 09:48:00
...活拧螺丝的机器人、会自己“脑补”物理规律的视频生成模型……这些新鲜事似乎在提醒大家:人工智能正在突破屏幕的束缚,开始在现实世界施展身手。先看国内。垂直医疗大模型“华佗GPT”
2025-03-17 05:36:00
智谱发布电脑智能体大模型GLM-PC:回车即用 协助完成各类电脑任务
...的电脑智能体GLM-PC正式开放体验。这款基于智谱多模态大模型CogAgent的智能体,是全球首个面向公众开放的电脑智能体,能够模拟人类的“观察”和“操作”行为,协助用户高效
2025-01-24 19:34:00
多样任务真实数据,大模型在线购物基准Shopping MMLU开源
谁是在线购物领域最强大模型?也有评测基准了。基于真实在线购物数据,电商巨头亚马逊终于“亮剑”——联合香港科技大学、圣母大学构建了一个大规模、多任务评测基准Shopping MML
2024-11-21 09:45:00
更多关于科技的资讯:
腾讯汤道生达沃斯谈AI:AI不止AGI,把模型选择权交给客户,不让任何人掉队
“当人们谈论AI时,可能倾向于把它想象一个庞大的超级系统,称之为AGI,但实际上,现实中却是多种不同的模型,服务于不同的场景
2026-01-25 20:42:00
江南时报讯 为深入提升客户服务体验,扎实推进财富管理业务发展,东台农商银行近日携手中国人寿东台支公司,共同举办“感恩同行·鸿耀添彩”VIP客户财富私享活动
2026-01-25 22:12:00
江南时报讯 为全面提升代销保险业务服务能力,规范操作流程,切实推动零售业务转型升级,近日,响水农商银行组织开展代销保险业务专项培训
2026-01-25 22:12:00
1月23日,南京网络文学及短剧企业剧本转化供需对接会在宁举行。活动汇聚知名网文作家、产业链核心企业及金融机构等多方嘉宾
2026-01-25 22:53:00
日照市举行2026年数码和智能产品购新补贴启动仪式
鲁网1月24日讯(记者 郑泽之)为深入贯彻中央经济工作会议精神,落实省市提振消费工作部署,进一步激活市场活力,搭建 “金融
2026-01-25 14:55:00
苏州制造名品好物生活节举办
1月24日至25日,为期两天的“苏州制造名品好物生活节”在苏州制造名品中心举办。本次活动以“苏州好物 名品上新”为主题
2026-01-25 13:34:00
2026委员通道丨林杰:让工业具身智能 “落地生根”助力“数智强省”建设
大河网讯 2025 年“具身智能”冲上了年度热词,而河南也正以“数智强省”为目标加速迈进“十五五”。1月25日,在河南省政协十三届四次会议“委员通道”上
2026-01-25 08:24:00
浙江日报讯 近日,丽缙高新区,浙江氢阳能源装备有限公司董事长黄刚向记者分享了一则喜讯:该公司首批50余个氢能两轮车固态储氢瓶产品小批量测试顺利完成
2026-01-25 08:48:00
当煤价下行的寒意与成本上涨的压力双重叠加,煤炭行业正经历一场前所未有的经营大考。如何在市场波动中稳住经营基本盘?怎样在双线挤压下答好逆势增长“优”答卷
2026-01-25 07:32:00
零的突破!云知声中标全国首个省级医保大模型项目,打通医保治理现代化“最后一公里”
2026年开年,智慧医保领域迎来里程碑式突破——云知声智能科技股份有限公司成功中标全国首个省级医保垂直大模型项目“江苏省医保垂直大模型及智能体应用项目”
2026-01-24 17:26:00
香港大学中国商业学院2026年专业研究生文凭课程火热招生中
香港大学中国商业学院2026年专业研究生文凭课程全面启动招生!课程涵盖人工智能、创新管理、增长营销、财务金融、人力资源等前沿及核心商管领域
2026-01-24 17:27:00
当哲思遇见科技:华为阅读携手周国平,探讨如何在独处中沉淀自我
在信息纷扰、节奏加速的时代,何处寻得一方宁静,让思想深度扎根?华为阅读联合北京广播电视台纪实科教频道《我们读书吧》第二季
2026-01-24 17:29:00
1月8日,深圳市精锋医疗科技股份有限公司(以下简称精锋医疗)在香港联合交易所主板成功挂牌上市,成为2026年深圳IPO“第一股”
2026-01-24 17:29:00
赋能普惠,引领向善:龙环汇丰实践获公益节大奖肯定
1月22日,第十五届公益节暨2025ESG影响力年会在北京盛大开幕。本届大会以“15年,共益新篇章”为主题,回顾中国公益事业十五年发展历程
2026-01-24 17:30:00