• 我的订阅
  • 科技

OpenAI开启调查:GPT-4o及4o-mini模型性能下降

类别:科技 发布时间:2025-01-20 15:59:00 来源:浅语科技

快科技1月20日消息,据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。

近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。

实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。

具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。

以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了“幻觉”现象。

实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。

OpenAI开启调查:GPT-4o及4o-mini模型性能下降

【本文结束】如需转载请务必注明出处:快科技

责任编辑:鹿角

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-20 17:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据
2024-08-08 09:39:00
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向吸
2024-07-23 17:12:00
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,
2024-08-22 09:51:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行
2024-08-22 09:49:00
腾讯推出 Hunyuan-Large 开源大模型
IT之家11月5日消息,腾讯今日宣布推出Hunyuan-Large大模型,官方表示这是目前业界已经开源的基于Transformer的最大MoE模型
2024-11-05 18:56:00
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注
2025-02-19 18:43:00
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——Mix
2024-10-16 13:34:00
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
【新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅
2024-11-28 12:03:00
王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点
搜狗创始人、百川智能创始人兼CEO 王小川国内大模型技术竞争加速,继讯飞星火、智谱推出最新产品之后,百川也迎来了新的大模型成果。钛媒体获悉,10月30日上午,王小川创立的 AI
2023-10-30 15:02:00
更多关于科技的资讯:
指尖筑梦 创意飞扬---临沂北园路小学3DOne设计社团阶段性成果展
鲁网1月14日讯近日,临沂北园路小学3DOne设计社团阶段性成果展示顺利开展。自社团成立以来,一群充满好奇心与创造力的小社员们
2026-01-14 11:17:00
容声入选2025年度中国消费名品,以技术创新引领健康储鲜升级
鲁网1月14日讯日前,工业和信息化部正式公布了2025年度中国消费名品名单,深耕冰箱领域四十余年的容声冰箱成功入选,这份荣誉不仅是对其产品品质与品牌实力的官方认证
2026-01-14 11:53:00
余干三小开展AI赋能教学技能培训
数字化时代,教育正从“经验驱动”迈向“数据驱动”。为助力教师拥抱技术、创新课堂,1月12日,余干县第三小学开启了一场科技与教育深度融合的培训之旅
2026-01-14 11:29:00
从“装满”到“装对” 让“上下楼”变“上下游”杭州日报讯 近日,由上城资本集团产业基金战略投资的北京智谱华章科技股份有限公司正式在香港联合交易所挂牌上市
2026-01-14 08:22:00
新闻纵深丨绿色“充电宝”上线,“捕电之网”更加坚韧
河北南网容量最大的电网侧独立储能项目并网投运绿色“充电宝”上线,“捕电之网”更加坚韧阅读提示2025年12月15日,位于邢台市信都区的龙岗储能电站并网投运
2026-01-14 08:35:00
京东联合中纺协制定软壳冲锋衣团体标准
中国消费者报北京讯(记者桑雪骐)日前,ISPO Beijing 2026亚洲运动用品与时尚展在北京举行。展会期间,软壳冲锋衣团体标准制定工作正式启动
2026-01-14 09:53:00
厦门网讯(厦门日报记者 林露虹)1月12日,天猫发布《2025年度新品牌发展报告》,报告显示,厦门入围“2025年天猫十大创牌之城”
2026-01-14 08:54:00
一线见闻|异构机器人雄安进“课堂”
1月6日,在中国雄安集团数字城市科技有限公司的具身智能训练场内,数据采集员正对异构机器人进行具身智能训练。 河北日报记者 刘光昱摄“小雄
2026-01-14 08:46:00
今年伊始,“车厘子价格暴跌”登上热搜。13日,记者走访线下商超发现,今年的车厘子价格确实更加“亲民”,较刚上市的时候,有的降价幅度接近40%
2026-01-14 09:23:00
工信部发布首批再制造机电产品典型应用案例我省入选数量全国第一河北日报讯(记者米彦泽)近日,工信部公布了首批再制造机电产品典型应用案例
2026-01-14 07:59:00
出海抢订单实现“开门红”杭州日报讯 在日前举行的2026年美国消费电子展(CES)上,来自嘉兴海宁的莲偶科技(海宁)有限公司表现抢眼
2026-01-14 06:51:00
每日商报讯 喜讯传来,余杭区中泰中学在2025世界机器人大赛总决赛中再创辉煌!经过激烈角逐,学校学子勇夺一项冠军、一项二等奖的优异成绩
2026-01-14 07:21:00
央媒看太原1月12日,央视“中国三农报道”栏目,以《年夜饭主打本地风味 预订火爆》为题,报道了太原年夜饭市场预订情况。报道称
2026-01-14 07:47:00
中国网1月14日讯国家安全部微信公众号14日刊文称,不少用户的手机上都曾收到“XX想给你隔空投送一张照片”的请求提示,“隔空投送”作为日常分享文件
2026-01-14 07:49:00
《2025加盟投资人群洞察报告》:“80后”仍是主力、“00后”快速崛起
中新经纬1月13日电 近日,中国特许加盟展&盟享加发布《2025加盟投资人群洞察报告》,(以下简称“报告”),中新经纬研究院受权发布
2026-01-13 20:35:00