• 我的订阅
  • 科技

只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

类别:科技 发布时间:2024-05-19 16:32:00 来源:脑极体

最近AI领域备受瞩目的新闻中,OpenAI和谷歌的新品发布会,无疑占据了最多的头条。

我们团队当然也不例外,不仅第一时间观看了两家公司的发布会,还亲身上手体验了号称“颠覆世界”“世界又科幻了”的GPT-4o。

一句话总结:

OpenAI发布会,失望;

谷歌发布会,无聊。

并不是我们要故作惊人之语。实际上,AI业内专业人士普遍都有类似的看法。

一些国内从事AI工程化项目的人表示,“不关心,因为又用不到”。而AI科学家和专家也有不少人直言,“看着看着睡着了,谷歌几乎所有的东西都是对标和追赶,没有太多的新鲜感”。

只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

又又又一次在与OpenAI的较量中处于下风,一个只有谷歌受伤的世界达成了。

尽管两大AI巨头的新技术方向,仍然值得关注,但可以明确的是,随着大型AI模型的产业化进程不断深入,国内外参与者也越来越冷静,更加专注于自身的AI策略与节奏。

有人将这两场发布会比作是一场斗地主游戏,OpenAI打出一对二,谷歌就跟四个王。那么,这一次较量的核心——多模态大模型,国内AI行业是否要跟进呢?如果要跟进,又该提前考量到哪些问题呢?

每一次新产品问世,如果只跟着新闻“震惊”是很难进步的。不妨和我们一起,认真给GPT-4o算笔账。

全能模型,究竟“惊艳”在哪里?

谷歌反击OpenAI的发布会,被称为“腹泻式更新”,一口气推出了十来款新品及升级。之所以让人看到睡着,是因为大家已经在前一天被GPT-4o“惊艳”过了。

而这次谷歌开发者大会上所演示的其他产品,OpenAI早都发布过。对标GPT-4o的Gemini Astra,表现又略逊一筹,也难怪大家兴趣缺缺。显然,这是一次针对谷歌的精准狙击。此前,谷歌已经对外放出了语音助手demo演示的预热视频,而GPT-4o最让人惊艳的地方就是“天花板级别”的人机自然语音交互。

那么,OpenAI机关算尽、谷歌有备而来的多模态大模型,究竟有什么神奇之处?

GPT-4o中的“o”代表“omni”,意为“全能”,以此为版本号,凸显了GPT-4o的多功能特性,可以从三个方面理解:

1.多模态。

GPT-4o接受文本、音频和图像的任意组合作为输入,实时对音频、视觉和文本进行推理,生成相应的输出。相比ChatGPT的文生文、文生图,Sora的文生视频等,GPT-4o是一个原生多模态的融合体。这一点,谷歌的Gemini Astra也能实现,支持多模态的推理。在演示视频中,谷歌的智能助手可以理解手机摄像头拍摄的世界(视频、图像),并用文字详细地讲述出来。

只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

当然,多模态大模型并不是什么新鲜事物。不只这俩AI巨头,国内在多模态大模型领域也有一些研究和开发。此前就有浙大校友开源了多模态大模型LLaVA,对标OpenAI的GPT-4V。既然多模态大模型并不稀奇,那GPT-4o凭啥“惊艳”?答案就在第二点。

2.低时延。

GPT-4o是一个端到端、全链路贯穿的多模态大模型。

此前,语音产品一般由三个独立模型组成:SLM1将音频转录为文本——LLM将文本输出为文本——SLM2将生成文本转换为音频。每一步的网络延迟叠加起来,结果就是AI推理速度跟不上人嘴巴说话的速度。大家可能都有过类似的经历,自己都说完了,AI大模型还没识别完全,互动总被打断,有时还会丢失很多信息,连基本的文字都听不清,更别说从笑声、停顿、叹气等因素中分析出人的情绪了,人当然也就没有了说下去的兴致。

而GPT-4o的端到端,就是省去了中间的处理步骤,由同一个神经网络来接受并处理来自不同模态(如文本、视觉和音频)的输入数据,并直接输出结果。这样就可以将语音交互的响应时延,控制在232 毫秒以内,体感上比人类回应还要迅速。

OpenAI演示完GPT-4o,大家纷纷表示,科幻电影中《Her》跟机器谈情说爱的未来就要实现了。不过,谷歌并不这样想。

只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

(截图自奥特曼的社交媒体)

在晚一天的谷歌发布会上,谷歌Gemini 1.5 Flash的响应其实也很快速,同样能几乎没有延迟地跟人类流畅互动,但还是比GPT-4o要长一些。不过谷歌声称,自己的两段演示视频均为“单次拍摄、实时录制完成”。

我们猜测,这是在暗示OpenAI又在“贷款领先”了,GPT-4o实际可能无法很快真的落地,毕竟OpenAI搞误导性营销是有前科的,Sora就曾爆出,拿艺术家编辑过的视频当原视频宣传,演示效果并非完全由AI生成。

展示效果是真是假,有待时间验证,不过OpenAI和谷歌在端到端方面的工作,证明了人机语音交互的超低时延是可以实现的,达到媲美人类交流的水平。而这,就为语音交互的多场景应用,打下了新的技术根基。

3.多场景。

大家应该都还记得,ChatGPT问世时举世震惊的效果。大语言模型的强大理解能力和泛化性,可以促成NLP在多种文本任务上带来颠覆式的影响,而这类任务几乎遍布在各行各业。

再看GPT-4o,多模态大模型在音视频理解方面尤其出色,也是一个非常泛在的通用型技术。而毫不夸张地说,GPT-4o将语音交互体验做到了“天花板级别”,这几乎可以给语音场景都带来改变。

只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

比如OpenAI所展示的辅导孩子数学题,可以替代家长辅导作业,让家家都过上和谐的日子;《Her》电影中跟智能语音机器人谈恋爱的场景,可以让人人都拥有自己的网络恋爱/在线情感抚慰师。延展开来,此前曾被嘲笑“人工智障”的手机语音助手,银行、电信等行业的客服机器人,缺乏充足师资力量的偏远学校,游戏里跟玩家互动的NPC纸片人,以及能识别用户情绪的精准营销……

凡有人声处,皆可咏AI,正随着端到端多模态大模型的进化与落地,让更自然、更逼真、富有感情的人机交互成为可能。

从这个角度说,GPT-4o所代表的技术前瞻性,确实配得上“全能o”这个词。既然如此,为什么说只有谷歌一家受伤了呢?

不慌不忙,只有谷歌受伤的世界达成了

OpenAI一有新品发布,国内大众的期待与紧张情绪便如同谷歌的皮猜(Sundar Pichai)一样高涨,这几乎已经是惯例了。

预判国内观众的预判,很多中文媒体也在OpenAI春季新品发布会刚发完的早晨,就炮制了一系列“颠覆世界”“炸裂登场”的新闻。有人说它要革谷歌的命,革Siri的命,革同传的命,革心理咨询师、情感辅导、私人教练等1V1咨询的命……

或许还有不明真相的群众信以为真,而谷歌也确实进行了反击,但国内AI业内人士大多呵呵一笑。这可能是第一次,面对OpenAI的进攻,只有谷歌受伤的世界达成了。

只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

为什么国内AI从业者普遍对GPT-4o及对标GPT-4o的Gemini Astra,反应平平,甚至看发布会都能睡着?

首要原因,当然是新产品不达预期。

许多人原本满怀期待地等OpenAI放出GPT-5,就算没有,也得是跟Sora一样惊艳的东西,但GPT-4o更多的是在现有技术框架内的一次迭代升级。而谷歌此前发布的Gemini也有多模态能力。可以说,双方虽然都在多模态处理方面,做出了改进和增强,但并没有实现根本性的技术飞跃。所以有人说,大家期待的是一个“核弹”,而OpenAI这次拿出的是一个“摔炮”。

另一个原因,是OpenAI“狼来了”玩太多次了。

OpenAI会营销是共识,有不少人都在Sora翻车之后表示,“厌倦了OpenAI的精美Demo营销”。投资人朱啸虎OpenAI CEO Sam Altman奥特曼每次都把PR宣传时间点拿捏得很准,显示自己这波在“大气层”,但几个月之后都没有开放给公众使用。

越来越多人认识到这一点,也对OpenAI的“demo发布会”变得不信任、不耐烦了。

只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

(截图自社交媒体,网友对OpenAI的评论)

当然,最关键的还是,经过一年多的大模型落地实践,国內AI产业链上下游可能都对OpenAI和大模型“祛魅”了。

这就像打牌,面对别人摆下的龙门阵,刚刚坐上牌桌,对游戏规则和策略不够熟悉,自然要先观察和模仿对方的策略,赶紧先把大语言模型搞出来,也会下意识地听取围观群众的建议。明明自己才是干AI的,但一听媒体分析师或网友说“落后了”,立马焦虑,忙着对标ChatGPT、对标GPT-4,又容易“翻车”引发舆论危机。刚上牌桌,进退失据,亦步亦趋跟进OpenAI是难免的。

但一年多时间过去,很多真正做大模型和产业落地的人与企业,或许还没彻底弄清楚中国大模型产业化、商业化应该怎么做,但一个共识很清楚——像OpenAI、谷歌那样做不行。最简单的,GPT-4o能第一时间拿到英伟达最先进的显卡,这就是国内厂商很难拥有的资源。

只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

此外,ToB领域对模型可控性的要求、私有化部署的需求等,国内企业的智能化要从数据清洗、知识库等基础工作开始,而不是直接调用最先进模型的API……

这些问题,导致国內AI产业界对追赶OpenAI“炸裂新品”的兴趣,越来越小,找到了自己做大模型的节奏和策略。

这些背景综合起来,导致只有紧跟在OpenAI身后苦苦追赶的谷歌,被GPT-4o伤得最深。

多模态大模型的收益比,到底怎么样?

当然,不再一味追着OpenAI的节奏疲于奔命,并不意味着OpenAI和谷歌都在发力的技术方向,就不重要了,就可以不关心了。

只不过,在盯紧趋势的基础上,还得统筹牌局,算好收益比,究竟何时出牌、什么出牌顺序,对大模型商业化的潜在收益风险比是最高的。

那么,GPT-4o及Gemini Astra这类端到端多模态大模型,对企业的潜在收益与风险,究竟如何呢?

先说收益。

目前来看,与丰富的软硬件生态相结合,能够更快落地、价值最大化。

比如谷歌Gemini Astra尽管在理解能力、时延上不及GPT-4o,但谷歌凭借强大应用生态的支持,让跨模态理解生成,有了用武之地,股价也有所上涨。

硬件方面,谷歌Gemini的多模态能力与XR眼镜整合,让商业化遇阻的“谷歌眼镜”再次回魂重塑;

软件方面,GPT-4o被传将与苹果绑定,加速IOS的AI化进程。而谷歌则将多模态能力融入搜索,用户可以通过语音、图片等与搜索引擎交互,支持搜索视频内容。

只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

(截图自社交媒体,网友对GPT-4o的评论)

不过,这些都是展望。在实际落地、与软硬件结合的过程中,AI公司可能会输掉一些筹码,潜在风险包括:

长期亏损。就连OpenAI都遭遇了流量危机,开始通过免费换用户规模,这意味着在算力、人员等方面的长期投入。AGI是一个长期任务,可能需要十年、二十年的时间,如果在每一个阶段,不能成功实现规模商业化,想一把赌个大的,靠后期非线性增长来扭亏为盈,很有可能“大业未成而中道崩阻”。

同质化竞争。OpenAI与谷歌的大模型竞争,撕咬得很紧,而技术领域想要彻底封闭是不可能的,这意味着底层模型能力很快会趋同,这时候用户会转变为价格敏感型,进入残酷的价格战。如果没有差异化的营收模式,一味跟进底层模型的绝对领先,利润会越来越微薄。

可能有人会说,还没做出国产版GPT-4o就惦记着商业化、赚钱,真的很庸俗。

必须得说明一下,从收益比最优的角度,决定怎么出牌,OpenAI可算是熟手了。事实上,ChatGPT的推出是为了用聊天机器人来抢到关注度,而GPT-5迟迟不推出,除了坊间猜测的能力不达预期之外,也有对发布时机的考量。奥特曼已经表达过多次,“GPT-5很厉害,但我们还没有确定如何将这些产品推向市场”。

师夷“算账”以制夷,国內AI公司也得学会踩点市场节奏,做出更明智、收益比更高的商业策略,才能长期良性发展。网友大型“双标”要不得。

从国内LLMtoB(面向B端市场的大模型)的一些实践经验来看,GPT-4o在当下确实还存在一些阻碍落地的实际问题。

比如可控性,AIGC生成的文本、图片,都比较容易进行内容控制,由其他模型或人类专家来把控内容质量与合规风险,超低时延的实时语音交互如何保障内容质量?如果在辅导作业、医生问诊、心理咨询等严肃场景中出现幻觉和胡说八道,甚至违法违规的内容,该怎么及时防范?

只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

奥特曼在GPT-4o的技术博客中提到,该模型在网络安全等风险维度上都“不超过中等水平”,也就是说,目前只能实现中等及以下的安全能力。无论是C端用户,还是B端政企客户,谁放心将喜怒哀乐、私密信息都告诉多模态大模型?怎么打消用户的安全顾虑,还需要在数据源头、模型训练、规则机制设计、产品功能上都有充分细致地打磨。

更要问一句,创业公司和开发者的努力总是被新的模型能力覆盖掉,是不是来自AI大模型厂商的一种“背刺”?什么样的智能语音产业生态,才能吸引他们来用?

这些落地问题不解决,所谓的《Her》一般的科幻未来,就只能一直存在于OpenAI的demo中了。

从实际情况来说,跟上技术路线并不算真难题。算好收益比,搞清楚自己和对手手里的牌面,以及多模态大模型的商业牌局,才是更难也更紧迫的问题。

GPT-4o这一波,国内AI企业不用急着再上牌桌。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-05-19 18:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

背水一战狙击GPT-4,谷歌最强大模型Gemini终发布,听说读写全能选手 | 焦点分析
最有希望超越GPT-4的模型来了——美国硅谷时间12月6日上午,谷歌CEO劈柴正式宣布,“大杀器”Gemini 1.0
2023-12-07 08:18:00
...、音频和图像的任意组合进行输出,其中“o”代表“omni全能”。一直以来,多模态人机交互便是AI领域重点研究发力方向之一。继文生视频大模型Sora之后,GPT-4o的发布迎合
2024-05-14 13:59:00
吴泳铭官宣3800亿投入后,阿里云如何打AI这场硬仗?
...云认为单一的文本模型已经难以满足市场需求,必须发展全能模型。“客户今天越来越希望要的是全模态的模型,今天的模型很聪明,但如果是聋子、哑巴,在很多交互场景就不行。”常常跟客户打
2025-04-10 17:12:00
...为一种思维上的怠惰。就人类而言,并不存在一位“全知全能”的神人,而恰恰相反,人类社会多数情况下是在各专业领域进行分工与专精,这才是普遍现象。 对于AI而言,这种思路其实也更适
2024-12-30 06:40:00
全球顶尖人工智能科学家加盟 阿里AI To C业务布局再提速
...里AI To C代表产品,夸克近期升级品牌Slogan—“2亿人的AI全能助手”。据内部人士透露,许教授将专注于AI To C业务的多模态基础模型及Agents相关基础研究与应用解决方案
2025-02-08 18:48:00
微软推出全能型人工智能模型 Kosmos-1
...用户感受到了AI的强大,而微软于近日推出了更为强悍的全能型AI--Kosmos-1。ChatGPT是纯文本LLM,而它是更强大的多模式大型语言模型(MLLM)
2023-03-04 23:10:00
“智算融合 共创未来”——开普云AI战略暨新产品发布会召开
...发推出AI多模态训推融合一体机,为客户提供训推融合的全能型算力。这款一体机广泛适配主流大模型,支持多模态内容输出,为客户提供便捷的模型应用构建环境。 推理一体机:该款一
2024-04-11 10:30:00
OpenAI推出GPT5模型引爆AI竞赛,微软/谷歌/微美全息加码千亿市场竞逐AGI
...GPT-4发布于2023年3月,虽然去年OpenAI先后发布了GPT-4o(o代表全能)和GPT-4o mini(轻量版)
2025-08-12 19:07:00
最强多模态模型GTP-4o问世,OpenAI继续开启人工智能创新之路
...对话、图文分析等方面实现了质的飞跃,被誉为钢铁侠中全能AI管家贾维斯的现实版。GPT-4o的“o”取自Omni(全能)
2024-05-14 14:04:00
更多关于科技的资讯:
信息技术的迅速发展,尤其是大数据的广泛应用,正在推动医保体系发生深刻变革。传统的医保支付方式已经难以适应现代医疗服务的复杂性与多样化需求
2025-12-01 07:04:00
“一上午加了8位境外采购商”
本报讯(全媒体记者陈春伟、实习生罗家骏)“嘀”的一声,江西华昌竹业集团有限公司外贸经理严慧的微信好友列表里,又多了一位国际采购商
2025-12-01 07:05:00
11月16日,一艘装载邢台纳科诺尔精轧科技股份有限公司生产的辊压分切一体机的货轮,从天津港环球滚装码头启航驶往海外。至此
2025-11-30 07:36:00
坚定信心 勇挑大梁·产业新亮点丨“能址星图”如何全省率先把数据“变现”?
10月18日,在2025中国国际数字经济博览会上,秦皇岛市大数据有限公司展示“能址星图”数据产品。 石 勇摄“我们的‘能址星图’产品上架两三个月时间
2025-11-30 07:37:00
重磅!鸣望教育签约英国子午线英语,解锁中英教育合作新范式!
2025年11月20日,鸣望教育行业赋能第27届研讨峰会,达成一项重磅签约。鸣望教育与拥有46 年专业积淀的英国子午线英语学校(Meridian English)正式达成战略合作
2025-11-30 12:05:00
新生态、新平台、新增长|鲸鸿动能数智赋能品牌确定性增长
2025年,中国消费市场的竞争正从流量红利的浅层博弈,迈向以生态力为引擎、深度运营为核心的新阶段。在这一关键转折点,鲸鸿动能于11月28日成功举办“鸿蒙商业增长论坛·品牌营销沙龙”
2025-11-30 12:05:00
全运会宣传中惊现AI MV:谁在用算法谱写湾区之声?
第十五届全国运动会于11月21日圆满落下帷幕。记者从组委会了解到,一首全程由AI生成的原创宣传MV《向着光的方向》已被正式收录进本届赛事的官方宣传素材库
2025-11-30 12:06:00
华为Mate 80等新品发布,华为音乐「音乐助手」一键生成专属歌单
11月25日,华为Mate 80系列 | Mate X7及全场景新品发布会在深圳举行,华为音乐作为鸿蒙6自有应用重磅升级
2025-11-30 12:07:00
胡超 Charles Hu 获2026年《福布斯》“30 Under 30”能源与绿色科技榜单提名
近日,美国领创商业联盟主席、Reverse Energy Solutions Corp.(以下简称“RES”)联合创始人兼首席市场官(CMO)胡超(Charles Hu)近日正式
2025-11-30 12:08:00
11月28日,省工信厅公布首批山西消费名品名单。我市品牌水塔醋业凭借深厚产业积淀成为“时代优品”,优鲜多歌以新零售业态成为“潮流新锐”
2025-11-30 17:55:00
借我一双“星眼” 太空能被“管”好吗?
大皖新闻讯 神舟二十号载人飞船疑似遭空间微小碎片撞击,耽误航天员回家,让空间碎片进入公众视野。而在近地轨道,近年来太空碎片数量激增
2025-11-30 18:40:00
“溯源卢龙 嗨购甜蜜” 卢龙特色好物直播爆单
河北新闻网讯(张丽美、张子亮)11月25日,曾在“数商兴农·寻味卢龙”产地溯源直播活动中创下佳绩的百万粉丝主播“团长mr”
2025-11-30 18:02:00
《疯狂动物城2》爆火!吉林长影电影院线焕新助推观影热潮
时隔九年,迪士尼经典IP续作《疯狂动物城2》重磅归来,与全新升级的吉林长影电影院线强势联动,为吉林省电影市场注入强劲活力
2025-11-30 20:10:00
能源革命与数据革命深度融合,电鸿生态加速电力系统数智化转型
初冬的广州南沙温暖如春、花团锦簇,大涌新春居民贺泽庶开着他心爱的电动车,开进了绿树与鲜花簇拥的广州南沙环市西路超充站,当车头对准充电桩时
2025-11-30 12:06:00
促进民营经济高质量发展·超能量的“中小微”(十九)|乡村小厂造出“搬运神器”
11月12日,智捷智能科技香河有限公司工作人员在室外场地对智能搬运叉车进行调试。 河北日报记者 刘英摄11月12日,天津滨海新区一处海滩上
2025-11-29 07:31:00