• 我的订阅
  • 科技

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

类别:科技 发布时间:2025-01-20 14:29:00 来源:浅语科技

OpenAI o3还没上线,就被曝数学成绩是靠作弊得来?!

Benchmark发布机构内部人员爆料称,OpenAI给了他们经费赞助。

就连包括陶哲轩在内参与出题的60余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里。

直到o3发布,这一消息才被公开。这意味着严格保密的题目,OpenAI提前拿到了手中。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

这套数据集名叫FrontierMath,包含了由陶哲轩等60多名权威数学家命制的高难度题目。

陶哲轩就表示,这些题目足够困扰AI几年的时间;1998年菲尔斯奖得主Gowers也说,能解决其中的一个问题就已经超越现在的能力范围了。

当时也正是因为在这一测试基准上大幅领先,o3的能力更进一步被得到认可。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

Epoch.ai这边,联合创始人Tamay Besiroglu也回应并承认了秘密赞助和OpenAI提前拿到题目的传闻,但否认题目被OpenAI拿来作弊。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

但有些网友并不买账,表示OpenAI如果不使用这些信息还要访问权限干什么,并推测有可能被用来训练。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

专家被要求严格保密,但OpenAI却能拿到题

这家名叫Epoch.ai的机构,开发了一款名为FrontierMath的数学测试基准,论文第一版预印本于去年11月7日(协调世界时,北京时间为8日凌晨)发布。

包括第一版在内,FrontierMath的论文在近两个月的时间里一共发布了五个版本,但直到最后12月20日的第五版才披露了OpenAI的资助。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

不过也只是在脚注中提了一句,感谢OpenAI对构建Benchmark的支持。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

并且12月20日刚好是OpenAI发布o3的日子,并且Besiroglu也透露,之前没有公开正是由于OpenAI的保密要求:

在o3推出之前,我们一直被限制披露合作关系,事后看来,我们应该更加努力地谈判,以便能够尽快向基准贡献者保持透明。

如果不看OpenAI这场风波,FrontierMath是一套含金量非常高的测试基准,由全球六十余位数学家联手命题,包括教授、IMO命题人、菲尔兹奖获得者,其中就有大牛陶哲轩等人。

而且难度也非常高,包括数百个极具挑战性的数学问题,在o3之前的模型解决率不到2%。

哪怕o3真的作了弊,得分也才20多分。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

像下面的这道题目,在FrontierMath当中算是难度最低的一档:

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

正常来说,FrontierMath里的题目和答案是严格保密的,就连出题的数学家也被要求签订保密协议,甚至不能使用Overleaf、Colab或电子邮件传输有关题目的信息。

讽刺的是,这样“严格保密”的题目却被OpenAI拿到,而出题专家对OpenAI的情况毫不知情。

斯坦福博士、MIT罗德奖学金得主Carina Hong(洪乐潼)就表示,至少有六名专家能够证实这一点,并且大部分专家表示不确定如果知道(OpenAI的独家访问权)是否还会选择贡献。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

后来她表示,(和出题人)签保密协议确实是为了防止数据污染,对OpenAI的目的则不做猜测。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

联创承认错误,但否认OpenAI作弊

内部爆料和外部质疑之下,Epoch.ai联创Besiroglu也承认了和OpenAI存在秘密协议,并表示没有公开透明确实是“犯了一个错误”。

但Epoch.ai否认了OpenAI作弊的说法,表示一方面OpenAI拿到的数据并不是全部,另一方面OpenAI也口头承诺拿到的数据不会用于模型训练。

Besiroglu回应全文如下(中文为机翻):

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

但对于Besiroglu提到的“口头承诺”,有网友表示至少要有个书面的协议,但猜测OpenAI不会愿意提供,还有人补充说哪怕有书面材料也很难监督实施。

不过到现在,确实是所有的回应都来自Epoch.ai这边,OpenAI还没给出说明。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

另外Epoch.ai首席数学家Ellot Glazer也承诺,之后会对受到的资助进行说明。

对于o3的成绩,Ellot表示Epoch.ai无法给出承诺,但他个人相信OpenAI的报告是准确的,因为在他看来OpenAI“没有撒谎的动机”。

同时他说Epoch.ai正在开发一个保留数据集,能够确保OpenAI在测试之前无法事先接触。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

不过有网友对“没有动机”的说法表示怀疑,Ellot也进行了解释,表示OpenAI没有傻到搬起石头砸自己的脚。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

话又说回来,o3到现在依然是个黑盒,到底是名副其实还是炒作噱头,等到发布的那天就揭晓答案了。

责任编辑:随心

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-20 17:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...备战考研两年前,刘亚宝准备考研。在给子女辅导完高中数学、把他们双双送入大学之后,刘亚宝心里觉得空落落的。“一直和孩子们一起念书,几年下来,不学习倒是不习惯了。”上世纪90年代
2024-04-25 08:34:00
构建三重境界 赋能素养备考
...自:中国教育报构建三重境界 赋能素养备考——以高考数学学科复习为例2023年6月3日,河南省焦作市温县一中高三考生在课间扔纸飞机放松身心。考生以轻松、自信的状态迎接高考的到来
2023-10-13 09:12:00
...噱头博眼球,涉考“恶作剧”不可碰【案例】2022年高考数学科目考试结束后,有网民发布部分试卷图片,被疑泄露试题。经公安机关侦查,查明系恶意编辑“占坑帖”。其考前在有关平台发布
2023-06-04 14:36:00
科都考研培训班,在职研究生秋季考研百日冲刺备考技巧
...背单词(原始方法默写+考试前夕);②一轮基础课(时长:数学大于英语大于逻辑大于写作);③课后刷题(上完课就刷);④总结错题,时不时复习重;建议:集中复习基础课的内容,独力重刷
2023-09-20 15:51:00
上海财经大学肖湘宇:备战考研 做好规划及时复盘
...。会计专硕考试一共两门科目,分别是管理类联考(包括数学、逻辑和写作)以及英语,肖湘宇根据备考时间做了规划:管理类联考-数学:6月至9月:做基础阶段训练(如数学分册、母题800
2022-10-26 16:15:00
事关期末考试,杭州家长群这幕刷屏:赶紧下载!有娃直喊害怕……
...,要的家长接龙……”“这份试卷,是人教版七年级初一数学(含答案),家有初一娃的赶紧下载练起来。”这些天,杭州不少家长发现,自己所在的与孩子学习有关的微信群里,各种各样的试题、
2023-12-27 12:10:00
...、安全、适宜的考试环境。首日考试科目为九年级语文和数学,考试结束后,华商报记者邀请了相关科目老师对该学科试卷进行了评析。本次数学科目邀请到了西安滨河学校初三数学备课组组长靳迎
2025-06-22 00:51:00
从“教学评一致性”认识真题的价值
...目“应以具体的情境为载体,以典型任务为主要内容”,数学课程标准提出数学学业质量水平二是高考的要求等。由此可见,学科课程标准居于新课程改革的核心位置,真题成为学科课程标准的“具
2023-09-22 11:11:00
本文转自:中国教育报近年来,高考数学试题的新颖性和灵活性引起了广泛的关注。经过深入分析,我们不难发现,许多试题实际上是源于课本中的例题和习题,并经过一定的变形和改造而得到的。因此
2024-05-10 09:18:00
更多关于科技的资讯:
一年一度的天猫双11购物节再次引爆消费市场。但与往年不同,今年的关键词不再是简单的“低价”或“流量”,而是全面转向“效率”
2025-11-10 20:57:00
这个周末,朋友圈彻底被KPL总决赛刷屏了。这场赛事创下12秒售罄门票、6.2万人现场观赛的亮眼成绩,一举打破单场电竞赛事观众人数最多的吉尼斯世界纪录
2025-11-10 16:46:00
重获森林呼吸:“半亩森林”在杭发布新品,开启环境益生菌空气净化新纪元
2025年11月8日,杭州梦想小镇络绎科学社区迎来了一场充满科技想象与生活温度的创新体验活动——体验π|环境益生菌,开启“森林呼吸”新纪元
2025-11-10 15:40:00
武当山智慧旅游平台升级 多语种 AI 客服暖心上线
近日,武当山智慧旅游平台迎来重要升级,智能 AI 客服多语种功能正式上线,为全球游客打造无障碍智慧游览新体验,也标志着景区公共服务国际化水平迈上新台阶
2025-11-10 15:31:00
“双11”火到海外,全球网民纷纷加入抢购浪潮厦门空港迎来跨境电商出口高峰东南网11月10日讯(海峡导报记者孙春燕)一年一度的购物狂欢节——“双11”正在如火如荼的进行中
2025-11-10 11:19:00
中国银行与中国银联、华住集团举办提振消费主题签约活动
11月6日,中国银行携手中国银联、华住集团,在商务部、文旅部、人民银行上海总部、上海市政府的共同见证下,成功举办“聚力进博新引擎
2025-11-10 11:26:00
澳柯玛推出2026年风冷无霜、立式多系列冷柜新品
鲁网11月10日讯近日,“双擎智控,深冷领鲜”——澳柯玛2026年制冷营销峰会在青岛隆重召开。来自全国各地的合作伙伴、渠道商及主流媒体代表齐聚一堂
2025-11-10 11:31:00
赛德斯耳机产品线深度盘点:以精准科技满足全场景音频需求
在竞争激烈的音频市场,一个品牌能否立足,关键在于其产品线能否精准覆盖多元化的用户场景。游戏耳机品牌赛德斯(SADES)通过其精心布局的耳机产品矩阵
2025-11-10 12:08:00
神都镜像照见数字文明 作家维摩眼中的“河洛智慧”
大河网讯(记者 赵檬)在千年古都洛阳的深厚文明积淀与瞬息万变的互联网浪潮之间,一场跨越时空的对话正在展开。11月5日,作家维摩参加了2025河南省网络文明大会
2025-11-10 12:39:00
2025青岛虚拟现实创新大会|专访自然语义(青岛)科技有限公司CMO薛铮:以轻量化“语义桥梁”助推虚拟现实产业智能升级
鲁网11月10日讯 (记者 尤奕钧 刘晓伟)人工智能技术快速发展,离不开其背后的核心驱动力——自然语言处理(NLP),NLP依赖于算法和模型分析
2025-11-10 11:34:00
卖场变生活场能否“赢”客?解码五缘湾商圈零售新生态
京东MALL的DIY电竞区人气高。(京东MALL 供图)五缘湾天虹超市将闽南古早味引进精品区。(记者 庄筱婧 摄)五缘湾天虹超市将“烟火市集”升级为顾客的“星级家庭后厨”
2025-11-10 08:13:00
在2025年世界互联网大会乌镇峰会主论坛上,国家移民局、国家网信办联合发布外国人资讯服务App——SinoGuide。SinoGuide旨在帮助外国人更好融入并体验中国丰富便捷的数字化服务
2025-11-10 09:49:00
本报讯(全媒体记者黄祥晟、罗晋粤)11月8日,在2025年世界互联网大会乌镇峰会“互联网之光”博览会现场,从算力基建到智能产品
2025-11-10 07:03:00
11月7日从太原福莱瑞达科技有限公司获悉,2025年度“机械工业科学技术奖”获奖名单日前公示,福莱瑞达与太原科技大学联合研发的“多形态货物的智能抓取与装车技术及装备”项目
2025-11-10 07:19:00
江苏南京:以“智”赋“能”,南京AI军团点亮智能制造
建模降本、“鹰眼”护安全、机器人夜检地铁……以“智”赋“能”,南京AI军团点亮智能制造□南京日报/紫金山新闻记者 徐宁周容璇 实习生黄倩以“激光扫描+AI建模”
2025-11-10 08:00:00