• 我的订阅
  • 科技

GPT-4o的识图能力有多牛?四大维度深度体验

类别:科技 发布时间:2024-05-19 14:21:00 来源:财经风云

去年3月,GPT-4震撼发布,距今已逾一年。尽管科技巨头如谷歌、Meta,以及硅谷新贵如MistralAI、Anthropic在那之后都争相发布了竞品大模型,但似乎至今还未有第二款大模型达到与GPT-4一般横扫科技圈的力量——直到GPT-4o的诞生。

当地时间5月13日,OpenAI在万众期待中推出了名为GPT-4o的新一代旗舰AI模型。当日,OpenAI首席执行官阿尔特曼发推文表示,新的GPT-4o是OpenAI“有史以来最好的模型”。

据悉,GPT-4o支持文字、图像、语音和视频输入和输出,OpenAI承诺未来将免费让普通用户使用,同时将开放API给GPT开发者,价格直接便宜50%。目前,该模型仅开放了文本和图像功能。

本周,记者从图像和文本两大层面深度体验了GPT-4o的效果,着重识图能力的测试。综合来看,GPT-4o在反应速度上有极大的提升,识图方面冠绝群雄,不仅能够准确识别图片,还能以类人的思维理解图像内容。而在长文本总结方面,与当前模型的差距并不突出。

GPT-4o到底是如何“炼”成的?当地时间5月15日,OpenAI联合创始人之一JohnSchulman在接受科技播客主持人DwarkeshPatel采访时透露,后训练是提高模型性能的关键因素。GPT-4o的识图能力有多牛?四大维度深度体验

基于图片类型,记者将识图功能的测评分为4大维度,分别为普通图像、特定专业领域的图像、数据图像和手写图像。

一、普通图像识别

(1)内容较为单一的图像

记者首先选取了一张波士顿动力机器人跨越障碍物的图像,内容较为简单,图上无文字,随后要求大模型仔细识图并描述内容。GPT-4o非常出色地完成了任务,细节描述无可匹敌,准确无误地识别了机器人的运动状态、地面障碍等丰富细节。

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

(2)内容较为复杂的漫画

接着,记者选取了由多个图像组成、内容较为复杂的漫画。GPT-4o可以完整地总结出每一格漫画的内容,并以准确的顺序进行讲述。更令人吃惊的是,GPT-4o完全以类人的思维解构了漫画的逻辑,它能够理解这是一种“拟人和夸张的手法”,并准确理解了漫画的幽默感。

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

二、特定专业领域的图像

(1)医学领域

记者准备了一张mRNA疫苗工作原理图,图像并未直接说明这是一张疫苗工作原理图,但图上写有相应文字,例如“刺突蛋白”、“蛋白质翻译”和“脂质纳米颗粒”等术语。

GPT-4o的表现惊艳,不仅准确识别了该图的主旨内容,并依据图示上的过程用通俗的语言解释了mRNA疫苗的工作原理。

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

(2)房地产领域

接着,记者选取了一张建筑面积134平方米的户型图,让大模型识图并总结户型优劣势。GPT-4o呈现了总体令人较为满意的结果,该模型不仅能识别户型基本情况,分辨出“半赠送”的建筑面,也能够清楚地总结户型的优劣势,但在数据准确性上有待提高。

GPT-4o的识图能力有多牛?四大维度深度体验

GPT-4o的识图能力有多牛?四大维度深度体验

GPT-4o的识图能力有多牛?四大维度深度体验

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

三、数据图像的分析和转换

在此维度下,记者选取了一张折柱混合数据图。GPT-4o能够准确地识别数据图上的信息,并按要求以图表的形式重新呈现,准确率高达100%。

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

四、手写指令和逻辑推理

最后,记者上了点难度,用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美,不仅准确识别了手写体文字并遵照指示,且答题逻辑完全合理,也最终给出了正确答案。

GPT-4o的识图能力有多牛?四大维度深度体验

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

除了识图功能之外,记者也从文本层面对GPT-4o的长文本总结功能进行了测评。记者选取了一篇近万字的调查稿件,让其总结要点。GPT-4o不负众望地完成了任务。

GPT-4o的识图能力有多牛?四大维度深度体验

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

GPT-4o是如何“炼”成的?后训练功不可没

从前述体验看,GPT-4o的反应速度和多模态能力令人印象深刻。OpenAI首席执行官阿尔特曼直言,新的GPT-4o是OpenAI“有史以来最好的模型”。

那么,GPT-4o的多模态能力是如何“炼”成的呢?这背后的秘密或许可以从OpenAI联合创始人JohnSchulman当地时间5月15日与科技播客主持人DwarkeshPatel的对话中一窥究竟。

JohnSchulman在采访中提到,后训练(Post-Training)是提高模型性能的有效方法,通过额外的训练和微调可以显著提高模型的能力。

在这里需要区分两个关键的概念,在大模型训练中通常会提到“预训练”、“后训练”等术语。预训练常在大规模的数据集上进行(通常是让模仿互联网上的内容),目标是通过在较大的任务上训练模型,使得模型学习到通用的特征。

而后训练指的是专注针对特定行为优化模型,在预训练模型的基础上,使用额外的大规模未标注语料库继续训练模型参数,这个过程可以进一步丰富模型对语言的理解和生成能力,使其获得更广泛的知识。

根据JohnSchulman的说法,后训练是GPT-4模型不断升级的关键因素。据悉,当前GPT-4的Elo分数(编者注:一种大模型基准评级标准)比最初发布的版本高出了大约100分,而这种改进大部分都是由后训练带来的。

他同时暗示,在未来用于训练的算力中,OpenAI可能将偏向后训练。他说道:“模型生成的输出质量比网上的大多数内容都要高。因此,让模型自己思考似乎更有道理,而不仅仅是训练来模仿网络上的内容。所以,我认为从第一性原理上来说,这是有说服力的。我们通过后训练取得了很多进步。我希望我们会继续推动这种方法,并且可能会增加投入到后训练中的计算力。”

针对GPT-4o强大的多模态能力,英伟达高级研究科学家JimFan发表长文表示,从技术角度来看,这需要对标记化和架构进行一些新的研究,但总体上是一个数据和系统优化问题。

在JimFan看来,GPT-4o很可能是GPT-5的一个早期训练点,但训练尚未完成。从商业角度上,他认为,“GPT-4o的定位透露出OpenAI某种不安全感,在谷歌开发者大会之前(发布GPT-4o),(意味着)OpenAI宁愿超越我们对GPT-4.5的心理预期,也不愿因为达不到对GPT-5的极高期望而令人失望。这是一个聪明的举措,可以争取更多时间。”目前,业界广传GPT-5将在年底发布。

JimFan的观点与一些业内分析不谋而合。分析认为,OpenAI选择此时发布GPT-4o,是为了在竞争对手尤其是谷歌不断发起挑战的情况下,继续保持领先地位。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-05-19 18:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

维塑科技夸父大模型横空出世,首款应用「AI教练助手」正式上线
...报告解读:“AI教练助手”在维塑3D智能体测设备完成全维度身体测量的同时,一键生成身体成分,体型体态的报告解读,对比分析每项数据的健康风险。提升解的读准确性、高效性。AI教练
2023-09-19 22:25:00
深度学习在AI教育中的应用及其关键技术探究
...择是指从原始特征中选择最相关的特征子集,以减少特征维度和提高模型性能。常见的特征选择方法包括相关性分析、信息增益、卡方检验和L1正则化等。降维技术是指将高维特征空间映射到低维
2023-09-12 11:30:00
AI 面试:蓝海还是“难海”?
...的回答内容进行评估外,AI 还评估其宏表情、声音等其他维度;然后,咨询顾问基于对岗位胜任力的理解为不同维度打上不同权重,最终加总形成总分。 然而,在首次测试中,"AI 得贤
2023-10-31 21:02:00
...延时”的智能体验,形成“智能应答全天候、服务效能全维度”的创新格局‌。智创新生态:知识+场景,双引擎驱动效能跃升“咨询小易”以“知识筑基+场景创新”双引擎,推动服务效能跨越式
2025-03-19 09:42:00
百度文心一格总架构师肖欣延:历程坎坷但未来已至,大模型赋能智能内容生成|WISE2023颠覆AIGC产业发展峰会
...深度结合,会增强用户语言交互体验;其次,AIGC在更高维度的内容生产能力如3D生成、长视频生成等,将得到大幅改善;最后,随着AIGC效果和易用性的提升,内容生成流程将极度简化
2023-05-26 15:52:00
大模型浪潮涌向投顾,业内首位智能投顾数字人是如何炼成的?
...金面、消息面四大市场主流分析体系,涵盖了几十种分析维度、近千种诊股因子,360度全方位扫描全市场上市公司。同时“九哥”还能结合市场主流的分析维度和九方特色指标,进行深度分析,
2023-08-09 14:20:00
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...机制,能够基于关键词、语义关联、时效性和可信度等多维度标准,快速过滤出高质量的研究素材。 第二,是信息综合模块,扮演着"整合者"的角色。它能够将来自不同渠道的零散信息梳理
2025-02-04 04:25:00
“百模大战”,国产 GPT 大全
...杂任务。行业精灵云从科技的“行业精灵”将通过大量多维度的数据训练,强化人工智能对真实世界的理解能力,让机器更能够理解用户真实想法,从而产生满足客户预期的应用效果。知海图“知海
2023-05-07 20:34:00
36氪专访 | 来也科技CTO胡一川:大语言模型让RPA涅槃
...RPA魔力象限》,通过产品能力、技术创新、市场影响力等维度,对全球16家头部RPA厂商进行了深度评估。国内知名RPA公司来也科技连续第三年入选魔力象限,相较去年,来也在“愿景
2023-09-06 09:43:00
更多关于科技的资讯:
双城耀国庆 绮梦筑新章——恐龙园集团文旅产品“出圈”更“出彩”
今年国庆、中秋假期恐龙园集团旗下环球恐龙城与东方盐湖城凭借全新业态与沉浸式体验双双跻身长三角文旅“顶流”双节期间,约62
2025-10-09 21:49:00
NBA中国携手阿里云开启多年合作,球迷互动体验新惊喜在哪?
10月9日,NBA中国和阿里云宣布达成多年合作,阿里云将正式成为NBA中国官方云计算与人工智能合作伙伴,基于通义千问大模型和云计算基础设施
2025-10-09 22:19:00
获充换电大会官方推荐及星级认证, 公牛充电桩全场景方案引关注
9月27日至29日,2025中国汽车充换电生态大会在合肥举行,此次大会由国家能源局电力司、安徽省汽车办、中国汽车工业协会共同指导
2025-10-09 17:04:00
“北京榜样•最美互联网从业者”提名人选|我爱我家陈少亮:数字浪潮中的筑梦人
2025年的北京,秋阳穿过写字楼玻璃幕墙,在键盘上投下斑驳光影。在我爱我家集团总部技术中心,陈少亮正盯着屏幕上的数据流图
2025-10-09 17:05:00
中新经纬10月9日电 工信部网站9日消息,工业和信息化部、国家标准化管理委员会近期联合发布《云计算综合标准化体系建设指南(2025版)》(下称《指南》)
2025-10-09 13:06:00
当下,网络热搜榜单已经成为我们感知世界的一个重要窗口。这个窗口展示的内容是否真实、健康、积极,直接影响着数亿网民的认知判断
2025-10-09 10:31:00
高低2025年国庆中秋双节,中国电影市场成绩亮眼:国庆档总票房破17亿元,10月2日年度总票房达425.02亿元,超2024年全年
2025-10-09 10:49:00
厦门网讯(厦门日报记者 李晓平)如今,拍照不再停留在平面,“一站式”3D人像打印,正让影像“立”起来,成为更多人的选择
2025-10-08 08:12:00
小牛FX风速款首销战报:5小时全渠道销量14252台,以“价值重构”引爆全民抢购潮
2025年9月29日,全球高端智能电动车领导品牌小牛电动正式发布FX风速款首销战报。数据显示,这款被业界称为“价格屠夫”的新品在9月28日首发后
2025-10-08 09:00:00
稳就业 稳企业 稳市场 稳预期|从 “设备制造” 到 “全链服务”:陕西电子长岭电气纺织机电产业的进阶之路
9月29日,由陕西省委宣传部举办的“稳就业、稳企业、稳市场、稳预期”主题媒体行活动,带领陕西多家主流媒体走进陕西电子陕西长岭电气有限责任公司参观考察
2025-10-08 17:51:00
近日,中国物流与采购联合会公布全国第十批5A级供应链服务企业名单,华远国际陆港集团正式通过评审,获评“5A级供应链服务企业”
2025-10-08 18:01:00
货丰价稳、活动密集、销售井喷、消费升级……在这个中秋国庆假期,我市消费市场“热”力值拉满,处处繁荣兴旺、活力十足。10月8日
2025-10-08 18:32:00
佳盛机电乘风而上,今年前8月产值同比增长超38%抢占新赛道,270多名员工假期忙“冲刺”南报网讯(通讯员单维亮记者张希)“我们是智能电网产业链条上的配套企业
2025-10-07 08:41:00
培育壮大十大千亿级产业集群丨十堰臻融:创新与技改“双轮”驱动 产值同比增长30%
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新是提升核心竞争力关键。十堰臻融汽车科技有限公司以智能化装备升级与专利技术研发为双引擎
2025-10-07 20:43:00
沉浸式AR科技盛宴:打造“可触摸”的科普实验室,重构科普新形态
这个国庆去哪玩?中国科学技术馆告诉你!2025年10月1日——10月7日由中国科学技术馆、北京峰火文化科技有限公司、Rokid联合打造的以“探境・AR科技智慧”为主题的AR体验活动正火热开展中
2025-10-07 09:05:00