我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

类别：科技发布时间：2023-12-07 09:35:00 来源：量子位

金磊鱼羊发自凹非寺量子位 | 公众号 QbitAI

传闻中的谷歌杀手锏Gemini，来了！

就在刚刚，谷歌CEO皮猜和哈萨比斯在谷歌官网联名发文，宣布推出这一万众瞩目的多模态大模型。

标题明晃晃写着“最大”、“最强”，主打的就是一个干爆GPT-4。

具体来说，此次谷歌一共带来了Gemini的三个版本：

Gemini Ultra：谷歌最大、最强模型，适用于高度复杂的任务 Gemini Pro：可扩展至各种任务的Gemini模型 Gemini Nano：适用于端侧设备的高效Gemini版本（1.8B/3.25B）

其中Gemini Ultra一上来就在32个基准测试中拿下30个SOTA，并且第一个在MMLU基准上达到人类专家水平。

而Gemini Pro从今天起，就会在Bard中实装上线。

同时，谷歌Gemini团队还公布了一份60页的详细技术报告。

消息一出，社交媒体瞬间炸了锅。

英伟达AI科学家Jim Fan就第一时间转发评论：

这是OpenAI王座的有力竞争者。

话不多说，一起来看更多细节。

谷歌史上最强大模型Gemini

在LLM中的表现，也正如我们刚才所述，32个基准测试中拿下30个SOTA。

其中，通用、推理、数学和编程等大方向的成绩如下表所示：

△Gemini 在包括文本和编码在内的一系列基准测试中达到SOTA

在多模态方面，Gemini Ultra在新的MMMU基准测试中也获得了59.4%的SOTA分数。

这项基准测试是由跨不同领域的多模式任务组成，需要大模型进行一个深思熟虑的推理过程。

根据谷歌给出的图像基准测试结果来看，Gemini Ultra在没有OCR系统的帮助下，表现优于之前最先进的模型。

△Gemini 在一系列多模态基准测试中达到SOTA

接下来，我们以具体的案例来看一下Gemini的能力。

例如科学家们经常要面对从成千上万的文献中提取数据的难题，像下面这篇研究，作者就通过手动的方法从上万篇遗传学论文中创建了数据集。

像这样的数据集是需得随着时间流逝而进行更新的，但现实的情况是，自2021年以来，这个领域便已有超过200000篇新增的论文……

再像以往手动的方式显然是不可行的，不过现在有了Gemini，一切就变得简单了起来。

首先，通过自然语言的Prompt，告诉Gemini去过滤相关的科学论文：

只需片刻时间，Gemini就能找到相关论文和非相关的论文。

而后，继续用Prompt告诉Gemini去阅读相关论文，并提取关键数据，甚至是可以要求它添加注释的那种。

如果你给Gemini一个午休的时间长度，它就能阅读200000篇论文，从中筛选出250篇并提取数据！

并且由于Gemini是多模态的，我们还可以让它对上面的数据表格做进一步的深入操作，例如更新图表：

对于学生党来说，Gemini现在也可以成为非常得力的学习助手。

例如“喂”给Gemini一张手写物理题，它不仅能看懂，而且还可以辨别手写答案的对错。

在此基础上，若是选择一个错误的题目，我们还可以跟Gemini通过自然语言沟通，让它对每一个细节步骤进行详解。

在看图像做理解和推理方面，谷歌还亮出了更多有意思的案例。

例如替换图片素材的组合方式，Gemini就能像人一样精准猜中所指的电影名字：

就连下面这种高难度的也能hold住：

再如寻找两张图片的相似之处：

更有意思的是，谷歌还特意用中文做了个demo，来展示Gemini对多张图片的组合理解能力：

那么接下来的问题就是：Gemini是如何做到的？

60页报告透露技术细节

谷歌Gemini背后技术的杀手锏，便是原生多模态（natively multimodal）。

因为以往创建多模态大模型的方法，通常是为不同的模态训练单独的组件，然后将它们拼接在一起，大致模拟其中的一些功能。

这样训练出来的模型虽然有时可以很好地执行某些任务（比如描述图像），但在面对更具概念性和复杂推理的情况下，就会出现表现不佳的结果。

而谷歌Gemini所强调的原生多模态，是指从一开始就对不同的模态进行预训练，然后用额外的多模态数据对其进行微调，以此来进一步完善大模型的有效性。

谷歌对此表示：

这样的训练方法，有助于Gemini从头开始无缝地理解和推理各种输入，远远优于现有的多模态模型；而且它的功能在几乎每个领域都是最先进的。

具体到模型架构方面，Gemini基于增强的Transformer decoder打造，采用了高效attention机制（如multi-query attention），支持32k上下文长度。

尽管没有透露Ultra和Pro版本的具体参数规模，但技术报告中提到，谷歌使用TPUv5e和TPUv4来训练Gemini。

训练Gemini Ultra使用了跨多个数据中心的大量TPUv4。这意味着与谷歌此前的主力大模型PaLM-2相比，Gemini在规模上显著增大。

此前，PaLM-2被曝参数规模为3400亿。

Gemini Pro实装上线

竞争对手那边，OpenAI的GPTs惊艳全世界，微软的Copilot更是先一步渗透进全线产品。

因此Gemini一出，谷歌也当即强调：Gemini将通过谷歌产品推向数十亿用户。

率先上线的是Gemini Pro。从今天起，谷歌的聊天机器人Bard将由Gemini Pro微调版本驱动。谷歌表示：

这是Bard自推出以来的最大升级。

谷歌还打算把Gemini引入手机：Pixel 8 Pro将是第一款运行Gemini Nano的智能手机。

另外，谷歌计划在接下来几个月中，将Gemini全面推向搜索、广告、Chrome和Duet AI等产品线。

根据官方数据，Gemini能使用户的搜索生成体验（SGE）速度更快、质量更高，比如在美国使用英语搜索延迟能减少40%。

值得关注还有，就在Gemini正式亮相的同时，谷歌还推出了专为大模型而设计的新一代TPU——Cloud TPU v5p。

那么，你觉得这一波，谷歌能赶上OpenAI的脚步吗？

参考链接：[1]https://blog.google/technology/ai/google-gemini-ai[2]https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf[3]https://youtu.be/jV1vkHv4zq8?si=jjAw0uV0dkpP3eVT

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-12-07 12:45:36

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于突发,模型,模态,模型,基准,数据的资讯：

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构

...的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模

2024-08-08 16:23:00

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...秋，“日日新·商量”又拿了金牌！今日，中文多模态大模型测评基准SuperCLUE-V发布10月榜单：商汤日日新·商量多模态大模型（SenseChat-Vision5

2024-10-14 13:34:00

连发两款模型“补课”，百度AI成色如何？

...杨锦没有发布会、没有李彦宏，百度近日低调发布两款大模型——文心4.5和深度推理模型文心X1，免费。两年前的3月，百度发布了对标ChatGPT的文心一言。这是全球大厂中首个生成

2025-03-20 11:38:00

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research

2023-10-17 16:31:00

英伟达开源NVLM 1.0屠榜多模态！纯文本性能不降反升

【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平，其在纯文本性能甚至超过了LLM骨干模型，特别是在文本数学和编码

2024-09-24 13:36:00

清华领衔发布多模态评估MultiTrust：GPT-4可信度

...专利产学研转化落地应用。以GPT-4o为代表的多模态大语言模型（MLLMs）因其在语言、图像等多种模态上的卓越表现而备受瞩目。它们不仅在日常工作中成为用户的得力助手，还逐渐渗

2024-07-25 09:31:00

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤

...题、增加候选选项、引入纯视觉输入设置）更严格地评估模型的多模态理解能力；模型在新基准上的性能下降明显，表明MMMU-Pro能有效避免模型依赖捷径和猜测策略的情况。多模态大型语

2024-09-18 13:31:00

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...为刘家铭博士，研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真，研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航，北京大学计算机学院研究员

2024-06-21 09:52:00

多模态模型评测框架lmms-eval发布！全面覆盖，低成本，

...稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com随着大模型研究的深入

2024-08-22 09:50:00

更多关于科技的资讯：

新春走基层丨厦企加快数字化转型步伐提前返岗忙生产赶订单

明翰电气的工人春节期间坚守岗位。（记者林铭鸿摄）厦门网讯（厦门日报记者林露虹）放置材料、调试机台……正月初五，厦门明翰电气股份有限公司（以下简称“明翰电气”）已忙碌起来

2026-02-22 08:50:00

新春走基层 | 森一量子为赶订单全员在线生产线满负荷运转

昨日记者走进森一量子，这一企业春节期间全员加班加点。厦门网讯（厦门日报记者李晓平）长晶、切割、减薄、抛光、镀膜……当大多数人还沉浸在春节的喜庆中

2026-02-22 08:50:00

我带着一款AI眼镜回家过年

记者带回家的AI眼镜二伯买的宇树机器狗Go2今年的春晚有一个格外醒目的变化——“AI含量”明显提升。年夜饭桌上，亲戚们都在聊各自手机里的各种“AI”App

2026-02-22 07:49:00

中国科大实现碳化硅改性双空位色心的电荷态调控

大皖新闻讯 2月21日，大皖新闻记者从中国科学技术大学获悉，该校郭光灿院士团队在碳化硅改性双空位色心电荷态调控的研究中取得了新进展

2026-02-21 16:48:00

戛纳世界人工智能大会探讨“音乐人工智能”

中国青年报客户端讯（中青报·中青网记者蒋肖斌）2026戛纳世界人工智能大会（WAICF 2026），近日在法国戛纳举办

2026-02-21 12:10:00

杭州一家高科技创业公司员工每人领一个陪伴机器人回家过年

春节去各地见见世面长长“脑子”这个春节，大多数打工人都卸下KPI返乡团聚。杭州一家名为镭萌科技的创业公司，却有一群特殊的“员工”在忙着长“脑子”

2026-02-21 08:11:00

一批高价值专利项目集中发布助力“开门红”

建设一流创新生态激发创新投资需求杭州日报讯日前，浙江（杭州）知识产权创新产业园内，一场旨在连接技术与资本的专利产业化投融资专项对接活动火热举行

2026-02-21 08:11:00

经济大省挑大梁 | 春节“不打烊” 开足马力生产忙

新春佳节，浙江不少企业春节“不打烊”，抢订单、赶交付、跑海外，把年过在了车间里和海外展台前。走进宁波这家科技企业，工作人员正紧盯屏幕

2026-02-20 15:04:00

乐购新春购津城好物沉浸式感受津城喜庆氛围扫码阅读手机版

春风策马来津城贺新年

2026-02-20 16:42:00

新品新体验新场景首店开了又开了

马年春节，杭城消费市场持续升温。一批全国首店、浙江首店、杭州首店密集登陆湖滨、武林、钱江新城、奥体等核心商圈，覆盖潮玩

2026-02-20 07:31:00

焕新升级智能家电受欢迎

大年初三，杭州苏宁易购庆春路店暖意融融。大厅里“焕新幸福年”的红色标语格外醒目。店内客流平稳，多为全家同行的家庭顾客，虽不似年前拥挤

2026-02-20 08:01:00

春节后还会有9.9元的咖啡吗？

“库迪咖啡竟然涨价了，9.9元的咖啡以后还能闭眼冲吗？”春节前最后一个工作日，东北姑娘小乔中午赶到杭州火车东站，准备坐高铁回老家

2026-02-20 08:01:00

潮声丨从“Made in”到“Design by”，浙江品牌

新春，义乌老板们已经忙碌起来。这几天，24家义乌企业亮相2026年美国拉斯维加斯服装服饰及面料展，带着新品抢订单、拓市场

2026-02-19 16:24:00

新春走基层｜“解码”潮玩盲盒：Z世代用情绪消费点亮团圆年

中青报·中青网记者沈杰群余冰玥李怡蒙见习记者蒋欣雨95后北京职员王之怡在新加坡休假时，特意去了环球影城附近的泡泡玛特，店内挤满了年轻人

2026-02-19 12:05:00

春节不放假这家小巨人企业订单爆满

大年初一，匆匆赶到湖州的生产基地，给春节坚持留守在生产一线的一百多名员工发完新春红包后，金羽新能董事长兼总经理黄杜斌又拿起了手机

2026-02-19 08:20:00

头条订阅服务

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4