• 我的订阅
  • 科技

GPT-4o的识图能力有多牛?四大维度深度体验

类别:科技 发布时间:2024-05-19 14:21:00 来源:财经风云

去年3月,GPT-4震撼发布,距今已逾一年。尽管科技巨头如谷歌、Meta,以及硅谷新贵如MistralAI、Anthropic在那之后都争相发布了竞品大模型,但似乎至今还未有第二款大模型达到与GPT-4一般横扫科技圈的力量——直到GPT-4o的诞生。

当地时间5月13日,OpenAI在万众期待中推出了名为GPT-4o的新一代旗舰AI模型。当日,OpenAI首席执行官阿尔特曼发推文表示,新的GPT-4o是OpenAI“有史以来最好的模型”。

据悉,GPT-4o支持文字、图像、语音和视频输入和输出,OpenAI承诺未来将免费让普通用户使用,同时将开放API给GPT开发者,价格直接便宜50%。目前,该模型仅开放了文本和图像功能。

本周,记者从图像和文本两大层面深度体验了GPT-4o的效果,着重识图能力的测试。综合来看,GPT-4o在反应速度上有极大的提升,识图方面冠绝群雄,不仅能够准确识别图片,还能以类人的思维理解图像内容。而在长文本总结方面,与当前模型的差距并不突出。

GPT-4o到底是如何“炼”成的?当地时间5月15日,OpenAI联合创始人之一JohnSchulman在接受科技播客主持人DwarkeshPatel采访时透露,后训练是提高模型性能的关键因素。GPT-4o的识图能力有多牛?四大维度深度体验

基于图片类型,记者将识图功能的测评分为4大维度,分别为普通图像、特定专业领域的图像、数据图像和手写图像。

一、普通图像识别

(1)内容较为单一的图像

记者首先选取了一张波士顿动力机器人跨越障碍物的图像,内容较为简单,图上无文字,随后要求大模型仔细识图并描述内容。GPT-4o非常出色地完成了任务,细节描述无可匹敌,准确无误地识别了机器人的运动状态、地面障碍等丰富细节。

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

(2)内容较为复杂的漫画

接着,记者选取了由多个图像组成、内容较为复杂的漫画。GPT-4o可以完整地总结出每一格漫画的内容,并以准确的顺序进行讲述。更令人吃惊的是,GPT-4o完全以类人的思维解构了漫画的逻辑,它能够理解这是一种“拟人和夸张的手法”,并准确理解了漫画的幽默感。

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

二、特定专业领域的图像

(1)医学领域

记者准备了一张mRNA疫苗工作原理图,图像并未直接说明这是一张疫苗工作原理图,但图上写有相应文字,例如“刺突蛋白”、“蛋白质翻译”和“脂质纳米颗粒”等术语。

GPT-4o的表现惊艳,不仅准确识别了该图的主旨内容,并依据图示上的过程用通俗的语言解释了mRNA疫苗的工作原理。

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

(2)房地产领域

接着,记者选取了一张建筑面积134平方米的户型图,让大模型识图并总结户型优劣势。GPT-4o呈现了总体令人较为满意的结果,该模型不仅能识别户型基本情况,分辨出“半赠送”的建筑面,也能够清楚地总结户型的优劣势,但在数据准确性上有待提高。

GPT-4o的识图能力有多牛?四大维度深度体验

GPT-4o的识图能力有多牛?四大维度深度体验

GPT-4o的识图能力有多牛?四大维度深度体验

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

三、数据图像的分析和转换

在此维度下,记者选取了一张折柱混合数据图。GPT-4o能够准确地识别数据图上的信息,并按要求以图表的形式重新呈现,准确率高达100%。

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

四、手写指令和逻辑推理

最后,记者上了点难度,用手写的逻辑推理题来测试了GPT-4o的识图和逻辑推理能力。GPT-4o的回答堪称完美,不仅准确识别了手写体文字并遵照指示,且答题逻辑完全合理,也最终给出了正确答案。

GPT-4o的识图能力有多牛?四大维度深度体验

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

除了识图功能之外,记者也从文本层面对GPT-4o的长文本总结功能进行了测评。记者选取了一篇近万字的调查稿件,让其总结要点。GPT-4o不负众望地完成了任务。

GPT-4o的识图能力有多牛?四大维度深度体验

GPT-4o的识图能力有多牛?四大维度深度体验

图片来源:GPT-4o

GPT-4o是如何“炼”成的?后训练功不可没

从前述体验看,GPT-4o的反应速度和多模态能力令人印象深刻。OpenAI首席执行官阿尔特曼直言,新的GPT-4o是OpenAI“有史以来最好的模型”。

那么,GPT-4o的多模态能力是如何“炼”成的呢?这背后的秘密或许可以从OpenAI联合创始人JohnSchulman当地时间5月15日与科技播客主持人DwarkeshPatel的对话中一窥究竟。

JohnSchulman在采访中提到,后训练(Post-Training)是提高模型性能的有效方法,通过额外的训练和微调可以显著提高模型的能力。

在这里需要区分两个关键的概念,在大模型训练中通常会提到“预训练”、“后训练”等术语。预训练常在大规模的数据集上进行(通常是让模仿互联网上的内容),目标是通过在较大的任务上训练模型,使得模型学习到通用的特征。

而后训练指的是专注针对特定行为优化模型,在预训练模型的基础上,使用额外的大规模未标注语料库继续训练模型参数,这个过程可以进一步丰富模型对语言的理解和生成能力,使其获得更广泛的知识。

根据JohnSchulman的说法,后训练是GPT-4模型不断升级的关键因素。据悉,当前GPT-4的Elo分数(编者注:一种大模型基准评级标准)比最初发布的版本高出了大约100分,而这种改进大部分都是由后训练带来的。

他同时暗示,在未来用于训练的算力中,OpenAI可能将偏向后训练。他说道:“模型生成的输出质量比网上的大多数内容都要高。因此,让模型自己思考似乎更有道理,而不仅仅是训练来模仿网络上的内容。所以,我认为从第一性原理上来说,这是有说服力的。我们通过后训练取得了很多进步。我希望我们会继续推动这种方法,并且可能会增加投入到后训练中的计算力。”

针对GPT-4o强大的多模态能力,英伟达高级研究科学家JimFan发表长文表示,从技术角度来看,这需要对标记化和架构进行一些新的研究,但总体上是一个数据和系统优化问题。

在JimFan看来,GPT-4o很可能是GPT-5的一个早期训练点,但训练尚未完成。从商业角度上,他认为,“GPT-4o的定位透露出OpenAI某种不安全感,在谷歌开发者大会之前(发布GPT-4o),(意味着)OpenAI宁愿超越我们对GPT-4.5的心理预期,也不愿因为达不到对GPT-5的极高期望而令人失望。这是一个聪明的举措,可以争取更多时间。”目前,业界广传GPT-5将在年底发布。

JimFan的观点与一些业内分析不谋而合。分析认为,OpenAI选择此时发布GPT-4o,是为了在竞争对手尤其是谷歌不断发起挑战的情况下,继续保持领先地位。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-05-19 18:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

维塑科技夸父大模型横空出世,首款应用「AI教练助手」正式上线
...报告解读:“AI教练助手”在维塑3D智能体测设备完成全维度身体测量的同时,一键生成身体成分,体型体态的报告解读,对比分析每项数据的健康风险。提升解的读准确性、高效性。AI教练
2023-09-19 22:25:00
深度学习在AI教育中的应用及其关键技术探究
...择是指从原始特征中选择最相关的特征子集,以减少特征维度和提高模型性能。常见的特征选择方法包括相关性分析、信息增益、卡方检验和L1正则化等。降维技术是指将高维特征空间映射到低维
2023-09-12 11:30:00
AI 面试:蓝海还是“难海”?
...的回答内容进行评估外,AI 还评估其宏表情、声音等其他维度;然后,咨询顾问基于对岗位胜任力的理解为不同维度打上不同权重,最终加总形成总分。 然而,在首次测试中,"AI 得贤
2023-10-31 21:02:00
即刻体验国内最强推理模型Qwen3-Max-Thinking,千问PC和网页端已接入
...逻辑问题上表现卓越,可以为科研人员与职场人士提供多维度分析与结构化推理,辅助相关决策;自迭代推理机制:面对复杂问题,会先草拟思路、验证假设、优化路径,再输出结论,显著提升推理
2026-01-27 13:14:00
...延时”的智能体验,形成“智能应答全天候、服务效能全维度”的创新格局‌。智创新生态:知识+场景,双引擎驱动效能跃升“咨询小易”以“知识筑基+场景创新”双引擎,推动服务效能跨越式
2025-03-19 09:42:00
大模型浪潮涌向投顾,业内首位智能投顾数字人是如何炼成的?
...金面、消息面四大市场主流分析体系,涵盖了几十种分析维度、近千种诊股因子,360度全方位扫描全市场上市公司。同时“九哥”还能结合市场主流的分析维度和九方特色指标,进行深度分析,
2023-08-09 14:20:00
百度文心一格总架构师肖欣延:历程坎坷但未来已至,大模型赋能智能内容生成|WISE2023颠覆AIGC产业发展峰会
...深度结合,会增强用户语言交互体验;其次,AIGC在更高维度的内容生产能力如3D生成、长视频生成等,将得到大幅改善;最后,随着AIGC效果和易用性的提升,内容生成流程将极度简化
2023-05-26 15:52:00
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...机制,能够基于关键词、语义关联、时效性和可信度等多维度标准,快速过滤出高质量的研究素材。 第二,是信息综合模块,扮演着"整合者"的角色。它能够将来自不同渠道的零散信息梳理
2025-02-04 04:25:00
...与生成(含行为识别、视频问答、文本生成视频等)的全维度评测框架。测试全过程严格遵循国家标准GB/T 45288.2-2025《人工智能 第2部分:评测指标与方法》,通过科学量
2026-01-06 18:25:00
更多关于科技的资讯:
4月10日,浙江大学极端光学技术与仪器全国重点实验室发布光学领域三大前沿成果——桌面式高亮极紫外光源、万通道3D纳米激光直写光刻机
2026-04-13 07:19:00
4月10日从太原科技大学获悉,全国大学生机器人大赛RoboMaster2026机甲大师高校联盟赛(华北站)在内蒙古科技大学落幕
2026-04-13 07:35:00
常庆伟摘要:数字技术已全面渗透企业运营,数字化转型成为企业提升核心竞争力、实现高质量发展的基本路径。企业行政管理是企业运营最基础
2026-04-13 07:06:00
逸超医疗携超声智能体亮相 CMEF,引领定量超声智能化新征程
2026年4月9日至12日,第93届中国国际医疗器械博览会(CMEF)在国家会展中心(上海)举办。作为全球医疗器械领域重要展会
2026-04-12 17:17:00
霸州家具年营收超500亿元的“共享密码”
2026-04-12 19:08:00
江南时报讯 为感谢新老客户的信任与支持,近日,仪征农商银行组织辖内网点开展“感恩回馈”主题沙龙活动,针对存单到期客户较为集中的特点
2026-04-12 22:33:00
4月10日,全国首场聚焦小店生态的行业盛会——2026NCC小店生态大会在南京玄武湖畔金陵STYLE浪漫中心开幕。大会以“星火不熄·共创生态”为主题
2026-04-12 22:33:00
江南时报讯 近日,在苏州市银行业协会组织的2025年度苏州银行业金融科技优秀项目评选中,苏州农商银行申报的“基于多模型融合架构的智能代码辅助系统”从全市23家会员单位报送的44个参评项目中脱颖而出
2026-04-12 22:34:00
2026北京亦庄人形机器人半程马拉松全流程全要素测试活动开展
2026北京亦庄半程马拉松暨人形机器人半程马拉松即将于4月19日鸣枪开跑。为更好筹备赛事,4月11日晚至12日凌晨,北京经济技术开发区组织开展2026北京亦庄人形机器人半程马拉松全流程全要素测试活动
2026-04-12 17:20:00
专访李建民老师:破解组织管理难题,找准高成长宠物企业发展破局之路
鲁网4月12日讯近日,中国农业大学宠物友好经济培训班上,高成长企业三维管理系统创始人、构建专家;国富经济研究院研究员;国富创新管理咨询有限公司高级咨询师咨询副总
2026-04-12 17:15:00
超级实用!招聘会现场专业人士手把手教你改简历
2026-04-12 14:13:00
中国东航启动2026年度远航飞行人才选拔项目
近日,中国东航正式启动2026年度远航飞行人才项目,该项目是面向本科及以上学历、综合素质突出的优秀大学毕业生设立的专项人才选拔培养计划
2026-04-12 14:47:00
4月11日,海底捞发布关于“海底捞伙伴因顾客投诉被强制自费买礼物事件”的说明,一场源于基层执行风波,被放大为对企业制度
2026-04-12 14:21:00
烟台高新区 山东众悦数字技术有限公司举行乔迁三周年庆典
胶东在线4月9日讯(通讯员 郭健 实习编辑 黄洪娇)4月8日上午,山东众悦数字技术有限公司举办“乔迁三载砺初心·众聚同行悦新篇”主题庆典活动
2026-04-12 12:53:00
创业“拎包入住” 政策“领包入驻”杭州日报讯 近日,高新区(滨江)发布人工智能OPC(一人公司)社区建设指引(以下简称“指引”)
2026-04-12 08:29:00