• 我的订阅
  • 科技

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

类别:科技 发布时间:2025-01-20 14:29:00 来源:浅语科技

OpenAI o3还没上线,就被曝数学成绩是靠作弊得来?!

Benchmark发布机构内部人员爆料称,OpenAI给了他们经费赞助。

就连包括陶哲轩在内参与出题的60余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里。

直到o3发布,这一消息才被公开。这意味着严格保密的题目,OpenAI提前拿到了手中。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

这套数据集名叫FrontierMath,包含了由陶哲轩等60多名权威数学家命制的高难度题目。

陶哲轩就表示,这些题目足够困扰AI几年的时间;1998年菲尔斯奖得主Gowers也说,能解决其中的一个问题就已经超越现在的能力范围了。

当时也正是因为在这一测试基准上大幅领先,o3的能力更进一步被得到认可。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

Epoch.ai这边,联合创始人Tamay Besiroglu也回应并承认了秘密赞助和OpenAI提前拿到题目的传闻,但否认题目被OpenAI拿来作弊。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

但有些网友并不买账,表示OpenAI如果不使用这些信息还要访问权限干什么,并推测有可能被用来训练。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

专家被要求严格保密,但OpenAI却能拿到题

这家名叫Epoch.ai的机构,开发了一款名为FrontierMath的数学测试基准,论文第一版预印本于去年11月7日(协调世界时,北京时间为8日凌晨)发布。

包括第一版在内,FrontierMath的论文在近两个月的时间里一共发布了五个版本,但直到最后12月20日的第五版才披露了OpenAI的资助。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

不过也只是在脚注中提了一句,感谢OpenAI对构建Benchmark的支持。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

并且12月20日刚好是OpenAI发布o3的日子,并且Besiroglu也透露,之前没有公开正是由于OpenAI的保密要求:

在o3推出之前,我们一直被限制披露合作关系,事后看来,我们应该更加努力地谈判,以便能够尽快向基准贡献者保持透明。

如果不看OpenAI这场风波,FrontierMath是一套含金量非常高的测试基准,由全球六十余位数学家联手命题,包括教授、IMO命题人、菲尔兹奖获得者,其中就有大牛陶哲轩等人。

而且难度也非常高,包括数百个极具挑战性的数学问题,在o3之前的模型解决率不到2%。

哪怕o3真的作了弊,得分也才20多分。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

像下面的这道题目,在FrontierMath当中算是难度最低的一档:

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

正常来说,FrontierMath里的题目和答案是严格保密的,就连出题的数学家也被要求签订保密协议,甚至不能使用Overleaf、Colab或电子邮件传输有关题目的信息。

讽刺的是,这样“严格保密”的题目却被OpenAI拿到,而出题专家对OpenAI的情况毫不知情。

斯坦福博士、MIT罗德奖学金得主Carina Hong(洪乐潼)就表示,至少有六名专家能够证实这一点,并且大部分专家表示不确定如果知道(OpenAI的独家访问权)是否还会选择贡献。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

后来她表示,(和出题人)签保密协议确实是为了防止数据污染,对OpenAI的目的则不做猜测。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

联创承认错误,但否认OpenAI作弊

内部爆料和外部质疑之下,Epoch.ai联创Besiroglu也承认了和OpenAI存在秘密协议,并表示没有公开透明确实是“犯了一个错误”。

但Epoch.ai否认了OpenAI作弊的说法,表示一方面OpenAI拿到的数据并不是全部,另一方面OpenAI也口头承诺拿到的数据不会用于模型训练。

Besiroglu回应全文如下(中文为机翻):

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

但对于Besiroglu提到的“口头承诺”,有网友表示至少要有个书面的协议,但猜测OpenAI不会愿意提供,还有人补充说哪怕有书面材料也很难监督实施。

不过到现在,确实是所有的回应都来自Epoch.ai这边,OpenAI还没给出说明。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

另外Epoch.ai首席数学家Ellot Glazer也承诺,之后会对受到的资助进行说明。

对于o3的成绩,Ellot表示Epoch.ai无法给出承诺,但他个人相信OpenAI的报告是准确的,因为在他看来OpenAI“没有撒谎的动机”。

同时他说Epoch.ai正在开发一个保留数据集,能够确保OpenAI在测试之前无法事先接触。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

不过有网友对“没有动机”的说法表示怀疑,Ellot也进行了解释,表示OpenAI没有傻到搬起石头砸自己的脚。

o3数学成绩作弊大瓜!提前让测试机构给真题 60多名数学大牛全被蒙在鼓里

话又说回来,o3到现在依然是个黑盒,到底是名副其实还是炒作噱头,等到发布的那天就揭晓答案了。

责任编辑:随心

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-01-20 17:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...备战考研两年前,刘亚宝准备考研。在给子女辅导完高中数学、把他们双双送入大学之后,刘亚宝心里觉得空落落的。“一直和孩子们一起念书,几年下来,不学习倒是不习惯了。”上世纪90年代
2024-04-25 08:34:00
构建三重境界 赋能素养备考
...自:中国教育报构建三重境界 赋能素养备考——以高考数学学科复习为例2023年6月3日,河南省焦作市温县一中高三考生在课间扔纸飞机放松身心。考生以轻松、自信的状态迎接高考的到来
2023-10-13 09:12:00
...噱头博眼球,涉考“恶作剧”不可碰【案例】2022年高考数学科目考试结束后,有网民发布部分试卷图片,被疑泄露试题。经公安机关侦查,查明系恶意编辑“占坑帖”。其考前在有关平台发布
2023-06-04 14:36:00
科都考研培训班,在职研究生秋季考研百日冲刺备考技巧
...背单词(原始方法默写+考试前夕);②一轮基础课(时长:数学大于英语大于逻辑大于写作);③课后刷题(上完课就刷);④总结错题,时不时复习重;建议:集中复习基础课的内容,独力重刷
2023-09-20 15:51:00
上海财经大学肖湘宇:备战考研 做好规划及时复盘
...。会计专硕考试一共两门科目,分别是管理类联考(包括数学、逻辑和写作)以及英语,肖湘宇根据备考时间做了规划:管理类联考-数学:6月至9月:做基础阶段训练(如数学分册、母题800
2022-10-26 16:15:00
事关期末考试,杭州家长群这幕刷屏:赶紧下载!有娃直喊害怕……
...,要的家长接龙……”“这份试卷,是人教版七年级初一数学(含答案),家有初一娃的赶紧下载练起来。”这些天,杭州不少家长发现,自己所在的与孩子学习有关的微信群里,各种各样的试题、
2023-12-27 12:10:00
...、安全、适宜的考试环境。首日考试科目为九年级语文和数学,考试结束后,华商报记者邀请了相关科目老师对该学科试卷进行了评析。本次数学科目邀请到了西安滨河学校初三数学备课组组长靳迎
2025-06-22 00:51:00
从“教学评一致性”认识真题的价值
...目“应以具体的情境为载体,以典型任务为主要内容”,数学课程标准提出数学学业质量水平二是高考的要求等。由此可见,学科课程标准居于新课程改革的核心位置,真题成为学科课程标准的“具
2023-09-22 11:11:00
快编程李尧:打造编程教育头部品牌的秘籍
...视野。此外,快编程还注重教材研发,李尧主编的《信奥数学一步到位》,打通小初高一体化数学内容,为学员参加信息学奥赛提供了有力的知识支撑。同时,机构内部编写的竞赛模拟题,涵盖历年
2025-04-08 21:58:00
更多关于科技的资讯:
江南时报讯 近日,金湖农商银行与金湖县自然资源和规划局深化合作,通过展业平台成功办理淮安地区不动产在线抵押业务。金湖农商银行龙港支行作为首家试点单位
2026-02-25 22:30:00
全球设计视野:胡予彤女士的国际影响力
在这个品牌必须跨越国界与受众自如对话的时代,胡予彤女士(Ms. Hu)已不仅是一名设计师,更是一股备受瞩目的创意力量,其作品的辨识度已从纽约延伸至广阔的国际舞台
2026-02-25 20:01:00
在算力需求爆发式增长的数字时代,硅光通信技术正成为数据中心互联的关键基石。作为测试测量领域的资深专家,Kevin Pan凭借其前瞻性的产业布局和卓越领导力
2026-02-25 17:40:00
中国消费者报福州讯(记者张文章)2月24日,记者从福建省药监局获悉,近日,工业和信息化部、国家药监局联合发布了《关于公布生物医用材料创新任务揭榜挂帅(第二批)入围揭榜单位的通知》
2026-02-25 18:00:00
数字经济时代,企业如何抢占数据资产价值先机
数字经济浪潮下,数据资产化已从政策导向转向价值兑现的关键阶段,成为企业抢占未来的核心竞争力。但面对国家政策红利与市场巨大机遇
2026-02-25 18:14:00
据浙江文旅,2026年春节假期,浙江省累计接待全域游客4604.3万人次,同比增长24.7%。全域旅游综合收入679.5亿元
2026-02-25 19:28:00
在中国医药市场的细分赛道中,抗ED药物领域正经历一场静默而深刻的变革。市场规模突破90亿元,年增长率保持在近20%的高位
2026-02-25 17:05:00
浙江长兴:服务暖人心 提质促共赢
长兴县烟草专卖局秉持“服务暖人心、提质促共赢”理念,以零售户服务需求为核心,通过“定制化服务+纠纷化解赋能”双轮驱动,聚焦卷烟经营全链条服务痛点难点
2026-02-25 17:06:00
过去几年,中国消费市场正在经历一轮明显变化。一方面,流量成本持续上升,单纯依赖推广带动销量越来越难;另一方面,大量新品牌快速出现
2026-02-25 16:30:00
【新春走基层】春节长假与多种促消费政策叠加 汇川区消费市场活力十足
多彩贵州网讯今年春节,长达九天假期与政府消费券的不期而遇,为汇川区消费市场注入了强劲动力。连日来,笔者走访遵义国贸春天百货购物中心
2026-02-25 16:53:00
视频制作:陈希河北新闻网讯(记者 王嵩)方程豹钛7作为一款兼具颜值与性能的方盒子,其智能辅助驾驶系统以及云辇C+路面预瞄技术表现如何呢?本期视频,我们将 通过一场28公里的实测一
2026-02-25 15:43:00
最高免首月房租!我爱我家相寓推出“返工季”租房优惠活动
2月25日(正月初九),正值返工返岗高峰期,大量新市民、青年人陆续返程就业,租房需求集中释放。为积极响应各地返工季惠民租房号召
2026-02-25 12:09:00
春节新茶饮观察:书亦烧仙草乡镇店日均杯量1000杯,家庭聚会“喝”出新高
春节假期历来是观察新消费趋势的重要窗口。近日,书亦烧仙草对外公布新春假期战报:平均每天售出招牌烧仙草26万杯、水果奶绿25万杯
2026-02-25 11:06:00
从“渠道战”到“心智战”:白酒春节营销背后的竞争新格局
春节作为国人最重要的传统节日,历来是白酒行业消费与品牌竞争的关键节点。从早期依靠渠道铺货和价格竞争,到如今注重文化内涵与情感联结
2026-02-25 11:06:00