• 我的订阅
  • 科技

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

类别:科技 发布时间:2025-01-20 14:29:00 来源:浅语科技

OpenAI o3还没上线,就被曝数学成绩是靠作弊得来?!

Benchmark发布机构内部人员爆料称,OpenAI给了他们经费赞助。

就连包括陶哲轩在内参与出题的60余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里。

直到o3发布,这一消息才被公开。这意味着严格保密的题目,OpenAI提前拿到了手中。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

这套数据集名叫FrontierMath,包含了由陶哲轩等60多名权威数学家命制的高难度题目。

陶哲轩就表示,这些题目足够困扰AI几年的时间;1998年菲尔斯奖得主Gowers也说,能解决其中的一个问题就已经超越现在的能力范围了。

当时也正是因为在这一测试基准上大幅领先,o3的能力更进一步被得到认可。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

Epoch.ai这边,联合创始人Tamay Besiroglu也回应并承认了秘密赞助和OpenAI提前拿到题目的传闻,但否认题目被OpenAI拿来作弊。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

但有些网友并不买账,表示OpenAI如果不使用这些信息还要访问权限干什么,并推测有可能被用来训练。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

专家被要求严格保密,但OpenAI却能拿到题

这家名叫Epoch.ai的机构,开发了一款名为FrontierMath的数学测试基准,论文第一版预印本于去年11月7日(协调世界时,北京时间为8日凌晨)发布。

包括第一版在内,FrontierMath的论文在近两个月的时间里一共发布了五个版本,但直到最后12月20日的第五版才披露了OpenAI的资助。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

不过也只是在脚注中提了一句,感谢OpenAI对构建Benchmark的支持。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

并且12月20日刚好是OpenAI发布o3的日子,并且Besiroglu也透露,之前没有公开正是由于OpenAI的保密要求:

在o3推出之前,我们一直被限制披露合作关系,事后看来,我们应该更加努力地谈判,以便能够尽快向基准贡献者保持透明。

如果不看OpenAI这场风波,FrontierMath是一套含金量非常高的测试基准,由全球六十余位数学家联手命题,包括教授、IMO命题人、菲尔兹奖获得者,其中就有大牛陶哲轩等人。

而且难度也非常高,包括数百个极具挑战性的数学问题,在o3之前的模型解决率不到2%。

哪怕o3真的作了弊,得分也才20多分。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

像下面的这道题目,在FrontierMath当中算是难度最低的一档:

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

正常来说,FrontierMath里的题目和答案是严格保密的,就连出题的数学家也被要求签订保密协议,甚至不能使用Overleaf、Colab或电子邮件传输有关题目的信息。

讽刺的是,这样“严格保密”的题目却被OpenAI拿到,而出题专家对OpenAI的情况毫不知情。

斯坦福博士、MIT罗德奖学金得主Carina Hong(洪乐潼)就表示,至少有六名专家能够证实这一点,并且大部分专家表示不确定如果知道(OpenAI的独家访问权)是否还会选择贡献。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

后来她表示,(和出题人)签保密协议确实是为了防止数据污染,对OpenAI的目的则不做猜测。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

联创承认错误,但否认OpenAI作弊

内部爆料和外部质疑之下,Epoch.ai联创Besiroglu也承认了和OpenAI存在秘密协议,并表示没有公开透明确实是“犯了一个错误”。

但Epoch.ai否认了OpenAI作弊的说法,表示一方面OpenAI拿到的数据并不是全部,另一方面OpenAI也口头承诺拿到的数据不会用于模型训练。

Besiroglu回应全文如下(中文为机翻):

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

但对于Besiroglu提到的“口头承诺”,有网友表示至少要有个书面的协议,但猜测OpenAI不会愿意提供,还有人补充说哪怕有书面材料也很难监督实施。

不过到现在,确实是所有的回应都来自Epoch.ai这边,OpenAI还没给出说明。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

另外Epoch.ai首席数学家Ellot Glazer也承诺,之后会对受到的资助进行说明。

对于o3的成绩,Ellot表示Epoch.ai无法给出承诺,但他个人相信OpenAI的报告是准确的,因为在他看来OpenAI“没有撒谎的动机”。

同时他说Epoch.ai正在开发一个保留数据集,能够确保OpenAI在测试之前无法事先接触。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

不过有网友对“没有动机”的说法表示怀疑,Ellot也进行了解释,表示OpenAI没有傻到搬起石头砸自己的脚。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

话又说回来,o3到现在依然是个黑盒,到底是名副其实还是炒作噱头,等到发布的那天就揭晓答案了。

责任编辑:随心

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-20 17:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...备战考研两年前,刘亚宝准备考研。在给子女辅导完高中数学、把他们双双送入大学之后,刘亚宝心里觉得空落落的。“一直和孩子们一起念书,几年下来,不学习倒是不习惯了。”上世纪90年代
2024-04-25 08:34:00
构建三重境界 赋能素养备考
...自:中国教育报构建三重境界 赋能素养备考——以高考数学学科复习为例2023年6月3日,河南省焦作市温县一中高三考生在课间扔纸飞机放松身心。考生以轻松、自信的状态迎接高考的到来
2023-10-13 09:12:00
...噱头博眼球,涉考“恶作剧”不可碰【案例】2022年高考数学科目考试结束后,有网民发布部分试卷图片,被疑泄露试题。经公安机关侦查,查明系恶意编辑“占坑帖”。其考前在有关平台发布
2023-06-04 14:36:00
科都考研培训班,在职研究生秋季考研百日冲刺备考技巧
...背单词(原始方法默写+考试前夕);②一轮基础课(时长:数学大于英语大于逻辑大于写作);③课后刷题(上完课就刷);④总结错题,时不时复习重;建议:集中复习基础课的内容,独力重刷
2023-09-20 15:51:00
上海财经大学肖湘宇:备战考研 做好规划及时复盘
...。会计专硕考试一共两门科目,分别是管理类联考(包括数学、逻辑和写作)以及英语,肖湘宇根据备考时间做了规划:管理类联考-数学:6月至9月:做基础阶段训练(如数学分册、母题800
2022-10-26 16:15:00
事关期末考试,杭州家长群这幕刷屏:赶紧下载!有娃直喊害怕……
...,要的家长接龙……”“这份试卷,是人教版七年级初一数学(含答案),家有初一娃的赶紧下载练起来。”这些天,杭州不少家长发现,自己所在的与孩子学习有关的微信群里,各种各样的试题、
2023-12-27 12:10:00
...、安全、适宜的考试环境。首日考试科目为九年级语文和数学,考试结束后,华商报记者邀请了相关科目老师对该学科试卷进行了评析。本次数学科目邀请到了西安滨河学校初三数学备课组组长靳迎
2025-06-22 00:51:00
从“教学评一致性”认识真题的价值
...目“应以具体的情境为载体,以典型任务为主要内容”,数学课程标准提出数学学业质量水平二是高考的要求等。由此可见,学科课程标准居于新课程改革的核心位置,真题成为学科课程标准的“具
2023-09-22 11:11:00
快编程李尧:打造编程教育头部品牌的秘籍
...视野。此外,快编程还注重教材研发,李尧主编的《信奥数学一步到位》,打通小初高一体化数学内容,为学员参加信息学奥赛提供了有力的知识支撑。同时,机构内部编写的竞赛模拟题,涵盖历年
2025-04-08 21:58:00
更多关于科技的资讯:
鲜养新势力:深度解析斛妈妈品牌的核心竞争力与养生价值在新中式养生浪潮席卷的当下,传统滋补品正经历着从“厚重礼品”到“日常刚需”的转型
2026-01-13 11:06:00
从超越到引领:东芝电视凭“四连冠”定义日本高端电视市场新秩序
日本权威调研机构株式会社BCN最新发布的“BCN AWARD 2026”数据显示,东芝 REGZA在2025年日本电视市场中表现突出
2026-01-13 11:08:00
贵州都匀:冲“鸭”!都匀茶香鸭拼出“开门红”
多彩贵州网讯 临近春节,记者走进贵州青色食品有限责任公司的生产车间,仍旧是一派热火朝天的生产景象。茶香与鸭肉香气交织,身着统一服装的工人们分工协作
2026-01-13 11:10:00
山东商务职业学院与科讯保链共建“创新创业实践基地”
鲁网1月13日讯(记者 魏萱)近日,山东商务职业学院会计金融学院与山东科讯保链数字科技有限公司共建的“创新创业实践基地”正式挂牌成立
2026-01-13 11:12:00
河北新闻网讯(成博浩、刘乾)“氢电无人机飞行姿态稳定,数据传输流畅,拍摄图片清晰……”1月5日,在邢台市南和区10千伏东盛线巡检现场
2026-01-13 11:26:00
文化立根,创新破局:茶馆行业的新趋势与新路径
2024年12月28日,第六届茶馆业大会在北京圆满闭幕。本次大会以“文化立根,创新破局”为主线,聚焦“十五五”时期茶馆行业的新趋势
2026-01-13 11:27:00
非遗手作入驻潮流商圈,VR技术让千年文物“活”起来,沉浸式剧场打破舞台与观众的边界⋯⋯新年伊始,创意迭出的消费新场景,早已跳脱出“买东西”的传统定义
2026-01-13 11:27:00
全项通过!蚂蚁数科FAIR平台完成国家级可信数据空间功能验证
近日,蚂蚁数科宣布其自主研发的FAIR可信数据空间平台在国家数据局指导下、由中国电子技术标准化研究院组织的可信数据空间功能测试中
2026-01-13 11:35:00
海尔X11洗衣机获西班牙“最佳家电及互联设备”奖
2025年12月初,海尔X11洗衣机荣获西班牙权威科技媒体Xataka颁发的年度“最佳家电及互联设备”奖。这一奖项在欧洲科技领域具有重要影响力
2026-01-13 11:47:00
海尔三筒、L+洗衣机登陆巴基斯坦填补高端空白
当地时间1月8日,海尔巴基斯坦经销商大会举办。会上,海尔洗衣机携全价位段产品矩阵亮相,并重点发布了2026年高端新品——三筒洗衣机与L+洗衣机
2026-01-13 11:48:00
如今H5婚礼电子请柬因环保方便成办婚礼“标配”,但近日“婚礼电子请柬访客记录”冲上热搜。网友发现,部分平台将访客浏览、转发记录设为付费会员服务
2026-01-13 11:49:00
中新经纬1月13日电 民政部13日举行专题新闻发布会,介绍《关于培育养老服务经营主体 促进银发经济发展的若干措施》有关情况
2026-01-13 12:20:00
打破国外垄断!芜湖长信“透视眼”传感器上岗,高端装备有了“中国芯”
大皖新闻讯 日前,芜湖长信科技股份有限公司(以下简称“长信科技”)生产车间内,一片片承载核心技术的玻璃器件接连下线。这些元件是高端X射线成像装备的“心脏”——大面积动态X射线成像传感器
2026-01-13 12:48:00
湖南构建一体化产业链助推航运与行业高质量发展
湖南常德聚豪船务有限公司凭借其清晰的战略定位与高效的业务整合能力,成功构建并持续完善覆盖“采挖、运输、销售”三大核心环节的一体化船务运营体系
2026-01-13 11:58:00
中新经纬1月13日电 上海市政府网站13日公布《上海市促进服务业提质增效和消费提振扩容联动发展的若干措施》(下称《若干措施》)
2026-01-13 12:05:00