• 我的订阅
  • 科技

OpenAI开启调查:GPT-4o及4o-mini模型性能下降

类别:科技 发布时间:2025-01-20 15:59:00 来源:浅语科技

快科技1月20日消息,据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。

近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。

实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。

具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。

以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了“幻觉”现象。

实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。

OpenAI开启调查:GPT-4o及4o-mini模型性能下降

【本文结束】如需转载请务必注明出处:快科技

责任编辑:鹿角

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-20 17:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据
2024-08-08 09:39:00
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向吸
2024-07-23 17:12:00
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,
2024-08-22 09:51:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行
2024-08-22 09:49:00
腾讯推出 Hunyuan-Large 开源大模型
IT之家11月5日消息,腾讯今日宣布推出Hunyuan-Large大模型,官方表示这是目前业界已经开源的基于Transformer的最大MoE模型
2024-11-05 18:56:00
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注
2025-02-19 18:43:00
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——Mix
2024-10-16 13:34:00
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
【新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅
2024-11-28 12:03:00
王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点
搜狗创始人、百川智能创始人兼CEO 王小川国内大模型技术竞争加速,继讯飞星火、智谱推出最新产品之后,百川也迎来了新的大模型成果。钛媒体获悉,10月30日上午,王小川创立的 AI
2023-10-30 15:02:00
更多关于科技的资讯:
华镁钛科技可穿戴卫星直连装备助力“南北同攀,登顶珠峰”活动!
2025年4月8日,华镁钛科技作为全球首款北斗高精度卫星定位珠峰定制高山连体羽绒服的唯一卫星直连装备供应商,受邀参加知名户外品牌骆驼在四川成都举办的“南北同攀
2025-04-21 16:30:00
国安部:某机关工作人员违规使用互联网扫描软件,致127份涉密文件泄露
国家安全部微信公众号4月21日发文,在数字化浪潮时代,扫描类软件凭借高效的文字识别和图文转换功能,成为办公和生活场景的快捷助手
2025-04-21 16:36:00
刷屏!京东:优先为骑手对象安排工作! 超时20分钟外卖全部免单!
4月21日,京东集团通过其官方微信公众号“京东黑板报”发布了一封致全体外卖骑手的公开信,回应了近期部分竞对平台强迫外卖骑手进行“二选一”的问题
2025-04-21 16:37:00
科技投资马拉松赛程上,联想之星王明耀呼吁构建“耐心资本”接力梯队
文|罗曾4月16日,在“第19届中国投资年会·年度峰会”上,联想之星总裁/主管合伙人王明耀以“助力‘原始创新’的机会与挑战”为题发表演讲
2025-04-21 16:45:00
万象共生:晨晖装饰纸开启全屋一体化3.0时代
“让好产品的应用门槛降低,任何角落尽享晨晖。”在全国定制家居展会上,晨晖装饰纸创始人伊商起以这句话开启了《万象共生》主题演讲
2025-04-21 16:50:00
众业达|石墨铣刀的应用场景
石墨铣刀是一种专门用于加工石墨材料的刀具,其应用场景广泛,涵盖了多个重要的行业和领域。以下是众业达小编对石墨铣刀主要应用场景的详细介绍
2025-04-21 16:57:00
众业达|雕刻机铣刀的寿命和材质、硬度有关系吗?
雕刻机铣刀的寿命受多种因素影响,在正常使用和保养的情况下,雕刻机铣刀的寿命通常在数十小时到数百小时之间。然而,这个范围并不是绝对的
2025-04-21 16:59:00
AI赋能粮食安全,2025华粮科技数智化创新峰会在京召开
4月18日,2025华粮科技数智化创新峰会在北京召开,会议以“AI+粮食·智领未来”为主题,由华粮科技主办,邀请知名专家
2025-04-21 17:04:00
第二届东北书博会福利来了!10000000元高德打车券免费送
在快节奏的现代生活中,阅读是人们沉淀心灵、汲取智慧的重要方式。东北图书交易博览会作为东北地区文化领域的标志性活动,一直致力于为读者搭建起一座通往知识殿堂的桥梁
2025-04-21 17:06:00
39万条投诉背后的信用卡乱局:捆绑销售“背刺”开卡人,没激活就扣年费
信用卡规模不断收缩,为了业务量增长,诱导开卡的“套路”正频频上演。 编者按:1985年,中国银行发行了中国第一张真正意义上的信用卡
2025-04-21 17:07:00
“校企合作”助力高新技术企业创新突围
读Plus(读+)快讯,4月18-19日,由暨南大学创业学院、暨南大学产业经济研究院主办,泰克威创新发展研究院承办的《高新技术企业创新战略企业家实战班》(第八期)暨《高新技术企业高质量发展论坛》(第二期)在暨南大学成功举办
2025-04-21 17:08:00
一套套智能健身设备有序走下生产线,工人紧张有序地进行检测包装……在山东好家庭体育设施制造有限公司生产车间,处处呈现着一派热火朝天的生产场景
2025-04-21 17:09:00
奶粉密度仪的操作流程-海谊科技
奶粉密度仪是用于奶粉等粉关物体的体积和密度的仪器,它在奶粉质量的监测中发挥着至关重要的作用。奶粉的密度,作为衡量其品质的重要指标之一
2025-04-21 17:12:00
游戏推广行业异军突起,吸引着众多创业者投身其中
在当下的创业浪潮中,游戏推广行业异军突起,吸引着众多创业者投身其中。为何这个行业有如此大的魅力?不妨从以下几个关键因素
2025-04-21 17:26:00
数字技术助力城市餐厨垃圾资源化管理
城市餐厨垃圾的高效管理与资源化利用是推动循环经济产业与实现“双碳”目标的核心议题。我国餐厨垃圾年产生量逐年增加,而当前餐厨垃圾的处理能力与实际产生量之间尚存在较大差距
2025-04-21 17:32:00