• 我的订阅
  • 科技

OpenAI开启调查:GPT-4o及4o-mini模型性能下降

类别:科技 发布时间:2025-01-20 15:59:00 来源:浅语科技

快科技1月20日消息,据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。

近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。

实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。

具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。

以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了“幻觉”现象。

实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。

OpenAI开启调查:GPT-4o及4o-mini模型性能下降

【本文结束】如需转载请务必注明出处:快科技

责任编辑:鹿角

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-20 17:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
在长文本理解能力这块,竟然没有一个大模型及格!北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。该数据
2024-08-08 09:39:00
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
...今的LLM已经号称能够支持百万级别的上下文长度,这对于模型的能力来说,意义重大。但近日的两项独立研究表明,它们可能只是在吹牛,LLM实际上并不能理解这么长的内容。大数字一向吸
2024-07-23 17:12:00
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,
2024-08-22 09:51:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行
2024-08-22 09:49:00
腾讯推出 Hunyuan-Large 开源大模型
IT之家11月5日消息,腾讯今日宣布推出Hunyuan-Large大模型,官方表示这是目前业界已经开源的基于Transformer的最大MoE模型
2024-11-05 18:56:00
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注
2025-02-19 18:43:00
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
...领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。因此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——Mix
2024-10-16 13:34:00
不是RNN的锅!清华团队深入分析长上下文建模中的状态崩溃,Mamba作者点赞
【新智元导读】RNN模型在长上下文中表现不佳?近日,来自清华的研究团队对此进行了深入的实验分析,结果表明:不是RNN的锅
2024-11-28 12:03:00
王小川公布最新大模型,号称全球最长上下文,是GPT-4的14倍|钛媒体焦点
搜狗创始人、百川智能创始人兼CEO 王小川国内大模型技术竞争加速,继讯飞星火、智谱推出最新产品之后,百川也迎来了新的大模型成果。钛媒体获悉,10月30日上午,王小川创立的 AI
2023-10-30 15:02:00
更多关于科技的资讯:
烟台联通圆满完成2026“百花汇海”山东秧歌会通信保障
胶东在线3月3日讯3月1日,由山东省文学艺术界联合会等单位指导主办的2026“百花汇海”山东秧歌会在烟台海阳市河清岛体育场盛大举行
2026-03-03 20:29:00
涌金楼丨浙江经济第一区确立“首要任务”
余杭“十四五”五年成绩单。受访者供图3月2日,余杭区召开经济高质量发展大会。这是余杭连续第五年以“高质量发展”为题召开大会
2026-03-03 22:27:00
江南时报讯 凌晨2点,扬子江数字视听产业园的“短剧公寓”里,张弛仍然坐在电脑前,屏幕上是他十多个海外短视频账号的数据反馈——当天发布的97条短剧切片
2026-03-03 22:48:00
河北特色产业集群数字金融平台助力解决企业融资难银企互联 点“数”成金“通过平台提供的‘数字信用’,仅用5天我们就拿到了1700万元的授信贷款
2026-03-03 17:55:00
2026全国两会正月十五元宵节,委员们从天津出发共赴盛会!海河传媒中心为委员们送上精心准备的贺卡!万家团圆日,一张贺卡,一份天津情!奋斗再出发!
2026-03-03 18:54:00
去年涨3次,今年集体降价!羽毛球价格“过山车”的背后
大河网讯(记者 莫韶华)“终于等到你,还好我没放弃!”近日,多个羽毛球品牌宣布降价的消息在球友圈刷屏。降价是真是假?幅度有多大
2026-03-03 18:57:00
中国联通精彩亮相MWC2026 聚焦“连接、算力、服务、安全”核心赛道 共筑全球数字新生态
3月2日至5日,2026年世界移动通信大会(MWC2026)在西班牙巴塞罗那盛大举行。中国联通以“数智焕新,向实同行”为主题
2026-03-03 19:24:00
从哲学思辨到技术冲击,再到智能融合,艺术与科技的关系不断被重新定义。围绕“AI与艺术的融合”这一主题,实战派管理美学专家
2026-03-03 17:58:00
鲁网3月3日讯近日,国际权威品牌价值评估机构Brand Finance发布2026“全球电子家电品牌价值50强”榜单(Electronics &
2026-03-03 14:24:00
线下二手店为何圈粉年轻人?
“益客”二手循环商店展示的生活用品“益客”二手循环商店,衣服整齐陈列“善淘”二手店前台,随处可见公益标识 “三兔二手”店一角“三兔二手”店部分商品 不想穿的衣服鞋子
2026-03-03 15:54:00
巴基斯坦政府引进阿里巴巴达摩院多癌筛查AI
近日,阿里巴巴达摩院在巴基斯坦达成系列合作,与巴基斯坦首都医院(Capital Hospital)、卡瓦贾·穆罕默德·萨夫达尔医学院(Khawaja Safdar Medical College)
2026-03-03 14:19:00
AI产品榜:月活2.03亿、增速552%,千问成全球第三大AI应用
3月3日,AI产品榜发布全球AI应用最新数据。榜单显示,MAU(月活用户数)排名前三的AI应用分别为ChatGPT、豆包和千问
2026-03-03 14:49:00
重塑桌面生产力:腾讯应用宝联合微软、英特尔发布《2026年跨端生态趋势白皮书》
全球PC产业正从疫情后的需求透支期转向稳态复苏。中国大陆市场表现尤为强劲,2025年连续两个季度PC出货量实现两位数增长
2026-03-03 14:19:00
AI一键生成以假乱真的卖家秀,无需实拍就能打造“完美”产品效果;批量伪造买家秀、炮制虚假好评,用算法拼凑“走心”体验……日前
2026-03-03 11:14:00
正面硬刚Meta!千问AI眼镜MWC首秀,与全球巨头对垒
在MWC 2026巴塞罗那展会现场,千问AI眼镜与Meta的AI眼镜展台正面对垒。3月2日,千问宣布其首款AI硬件将于3月8日在中国现货发售
2026-03-03 11:16:00