• 我的订阅
  • 社会

我们用最近很火的DeepSeek挑战了物理所出的竞赛题,结果…

类别:社会 发布时间:2025-02-06 15:53:00 来源:缘之心

近日,我国“深度求索”公司发布的具备深度思考和推理能力的开源大模型 DeepSeek-R1 受到了全世界的关注。

在 DeepSeek-R1 之前,美国 OpenAI 公司的 GPT-o1,Athropic 公司的 Claude,Google 公司的 Gemini,都号称具备了深度思考和推理能力。这些模型在专业人士和吃瓜网友的五花八门的测试中,表现的确是惊才绝艳。

特别引起我们兴趣的,是 Google 的专用模型 AlphaGeometry 在公认高难度的国际奥林匹克数学竞赛中取得了 28/42 的成绩,获得银牌。学生时代我们也接触过奥数,深知能在此类国际奥赛中获银牌的选手,无一不是从小就体现出相当数学天赋,且一路努力训练的高手。能够达到这个水平的 AI,称其为具备了强大的思考能力并不过分。自打那之后,我们就一直好奇,这些强大的 AI,它们的物理水平又如何?

1 月 17 日,中科院物理所在江苏省溧阳市举办了“天目杯”理论物理竞赛。没过两天, DeepSeek-R1 的发布引爆 AI 圈,它自然成了我们测试的首选模型。此外我们测试的模型还包括:OpenAI 发布的 GPT-o1,Anthropic 发布的 Claude-sonnet。

下面是我们测试的方式:

1.整个测试由 8 段对话完成。

2.第一段对话的问题是“开场白”:交代需要完成的任务,问题的格式,提交答案的格式等。通过 AI 的回复人工确认其理解。

3.依次发送全部 7 道题目的题干,在收到回复后发送下一道题,中间无人工反馈意见。

4.每道题目的题干由文字描述和图片描述两部分组成(第三、五、七题无图)。

5.图片描述是纯文本方式,描述的文本全部生成自 GPT-4o,经人工校对。

6.每个大模型所拿到的文字材料是完全相同的(见附件)。

上述过程后,对于每个大模型我们获得了 7 段 tex 文本,对应于 7 道问题的解答。以下是我们采取的阅卷方式:

1.人工调整 tex 文本至可以用 Overleaf 工具编译,收集编译出的 PDF 文件作为答卷。

2.将 4 个模型的 7 道问题的解答分别发送给 7 位阅卷人组成的阅卷组。

3.阅卷组与“天目杯”竞赛的阅卷组完全相同,且每位阅卷人负责的题目也相同。举例:阅卷人 A 负责所有人类和 AI 答卷中的第一题;阅卷人 B 负责所有人类和 AI 答卷中的第二题,等等。

4.阅卷组汇总所有题目得分。

结果如何呢?请看下表。

结果点评:

1.DeepSeek-R1 表现最好。基础题(前三题分数拿满),第六题还得到了人类选手中未见到的满分,第七题得分较低似乎是因为未能理解题干中“证明”的含义,仅仅重述了待证明的结论,无法得分。查看其思考过程,是存在可以给过程分的步骤的,但最后的答案中这些步骤都没有体现。

2.GPT-o1 总分与 DeepSeek 相差无几。在基础题(二题、三题)中有计算错误导致的失分。相比于 DeepSeek,o1 的答卷更接近于人类的风格,因此以证明题为主最后一题得分稍高。

3.Claude-sonnet 可谓“马失前蹄”,在前两题中连出昏招打了 0 分,但后续表现跟 o1 相当接近,连扣分点都是类似的。

4.如果将 AI 的成绩与人类成绩相比较,则 DeepSeek-R1 可以进入前三名(获特优奖),但与人类的最高分 125 分仍有较大差距;GPT-o1 进入前五名(获特优奖),Claude-sonnet 前十名(获优秀奖)。

最后想聊几句阅卷的主观感想。首先是 AI 的思路是真的好,基本上没有无法下手的题,甚至很多时候一下子就能找到正确的思路。但跟人类不同的是,它们在有正确的思路后,会在一些很简单的错误里面打转。比如通过看 R1 的第七题思考过程,就发现它一早就知道要用简正坐标来做,能想到这一步的考生几乎 100%求解出了正确的简正坐标(一个简单的矩阵对角化而已),但是 R1 似乎是在反复的猜测和试错,到最后也没有得到简正坐标的表达式。

还有就是所有的 AI 似乎都不理解一个“严密”的证明究竟意味着怎样的要求,似乎认为能在形式上凑出答案,就算是证明了。AI 如同人类,也会出现许多“偶然”错误。比如在正式的统一测试前,我们私下尝试过多次,很多时候 Claude-sonnet 可以正确解出第一题的答案,但正式测试的那次它就偏偏做错了。出于严谨,我们也许应该对同一道题测试多次然后取平均,但实在是有点麻烦……

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-02-06 17:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...受关注的“姜萍事件”有了最终结果。阿里巴巴全球数学竞赛组委会11月3日发布情况说明称,阿里巴巴全球数学竞赛获奖名单已正式发布。在本届竞赛中,江苏省涟水中等专业学校教师王某某及
2024-11-03 17:53:00
揭秘阿里巴巴全球数学竞赛:奖金400万元,“北大韦神”曾获金奖
...众名校选手中脱颖而出,“爆冷”晋级阿里巴巴全球数学竞赛决赛。姜萍频上热搜,这一赛事也因此备受关注。这项全球最大的在线数学赛事,拥有高难度的试题与高额奖金,参赛选手堪称“神仙打
2024-06-17 09:21:00
笔下星河 安徽省中小学生天文知识竞赛初赛收官
大皖新闻讯 2024安徽省中小学生天文知识竞赛初赛于2023年12月31日顺利举行,来自全省百余所学校的近1900名中小学生参与角逐,最终小学、初中、高中三个组别总共800名选手
2024-01-12 18:41:00
706分超常发挥不是偶然!提前录取的学生,高中三年怎样一步步在努力?7位学长学姐讲述为什么读这个专业选这座城市
...的笔试题目,难度和知识面都远超常规高考题,而是更像竞赛题。之前的竞赛经历,在这里发挥了作用,给了我很大的帮助。交大和浙大的三一考试,笔试和面试都是安排在高考之后,没有太多的时
2023-07-16 17:53:00
刚开年,杭州12名高中生提前被清华大学锁定,有些才高二
...度的物理内容。上完课再参加二试,除了几道常规的物理竞赛题外,还有2道题涉及刚学的内容。“相当于是现学现测,难度确实比较高。”张老师说。二试后,筛选出90人进面试。每人10来分
2025-01-08 19:12:00
...英)记者从兰州大学获悉,2024ASC世界大学生超级计算机竞赛总决赛日前在上海大学落幕,兰州大学信息科学与工程学院、物理科学与技术学院的谢皓泽、唐小可、胡日臻、孙雨与王伯钊组
2024-04-21 07:17:00
...开拓了一条新赛道。专业成绩排名第一、国际大学生物理竞赛金奖、发表高水平国际会议论文、“四有”优秀学员、学习标兵、训练标兵……作为一名大三学员,李柯霖身上仿佛有一股神奇的力量,
2023-08-08 05:36:00
纵览原创 | 全省唯一!石家庄高一学生被中科大少年班录取
...入分不开。他经常会在书桌前长坐一两个小时钻研某一道竞赛题,遇到越难的题他越兴奋,这种解出难题后的成就感让他非常痴迷。连老师董亚也说他“心态很稳,学习非常投入”“把生活的每一分
2024-07-09 21:52:00
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...。对此,Mark Chen 和很多网友的想法是,IMO 和 Codeforces 的竞赛题也许可以作为新型的 LLM 基准测试
2024-09-18 09:49:00
更多关于社会的资讯:
《全民阅读促进条例》(以下简称《条例》)将于2026年2月1日起施行。这标志着全民阅读从“政策引导”迈入“法治保障”新阶段
2026-01-19 20:13:00
1月19日,太原市配售型保障性住房锦绣汾东项目签约流程及注意事项发布,1月26日至30日,办理购房合同签约事宜的申购家庭须按通知时间提前30分钟到达小店区长治路109号阳光国际酒店6层
2026-01-19 20:14:00
2025年12月的一个周五傍晚,暮色如墨,紫金农商银行江宁支行营业部刚刚结束一天的营业,卷帘门缓缓降下,员工们正准备结束一周的忙碌
2026-01-19 22:26:00
合肥机场迎降雪 当前航班起降正常
大皖新闻讯1月19日下午,合肥新桥国际机场迎来降雪天气。截至当天20时,机场整体运行平稳有序,航班起降正常,未因天气原因出现大面积延误或取消
2026-01-19 22:42:00
【红色导师·思想汇报66】薪火相传,以本禹精神点亮大山
思想汇报:2026年1月5日,是我来到湖北恩施支教的第130天。作为华中农业大学本禹志愿服务队研究生支教团的一员,我深切体会到
2026-01-19 22:56:00
点赞河北 | 民警用身体破冰凿开生命通道,零下 10℃的冰河中,拖拽20分钟救起两位老人
制作/朱泊宇见习记者 朱泊宇1月9日,河北中部气温跌破零下10℃,保定定兴县北南蔡乡南留村与谭城村交界处的一处洼地冰面突发险情
2026-01-19 21:40:00
“修学好古 实事求是——典籍里的书院”展览开幕
中国青年报客户端讯(中青报·中青网记者李怡蒙)1月19日,“修学好古实事求是——典籍里的书院”展览开幕式在国家图书馆举行
2026-01-19 21:36:00
云南昭通市巧家县发生5.1级地震 县地震局:已派人赶赴震中现场
大皖新闻讯 据中国地震台网正式测定,1月19日19时32分在云南昭通市巧家县发生5.1级地震,震源深度10公里。1月19日晚上
2026-01-19 21:33:00
李志强诗书画求教展“墨行如骥”在京举办
中国青年报客户端讯(中青报·中青网记者李桂杰)日前,“墨行如骥——李志强(李木马)诗书画求教展”在北京炎黄艺术馆开幕。展览现场
2026-01-19 21:06:00
商贩拿板凳砸城管随后被放倒殴打?官方:其被暂扣经营物品情绪失控
大风新闻消息,近日,有网友反映,河北石家庄一商贩与城管执法队员发生冲突,商贩拿起板凳砸打执法队员头部,随后执法队员将其放倒在地
2026-01-19 17:10:00
河北省阳原县联合开展农贸市场、宠物店等野生动物保护专项行动
中国质量新闻网消息,近日,河北省阳原县市场监督管理局联合公安部门,针对农贸市场、宠物店等野生动植物非法交易高风险场所,开展野生动物保护专项执法与宣传活动
2026-01-19 17:11:00
长安区发布低温雨雪天气封山控峪通告 1月18日18时起
据西安日报报道,1月18日,记者获悉,为确保人民群众生命安全,长安区发布低温雨雪天气期间封山控峪的通告。自1月18日18时起至本轮低温雨雪天气结束
2026-01-19 17:14:00
使用无权限人员开具限制级处方药,河间市人民医院被警告罚款
据沧州市卫生健康委员会官网1月19日消息,因使用未取得限制使用级抗菌药物处方权人员开具限制使用级抗菌药物处方的行为,河间市人民医院被沧州市卫生健康委员会给予警告
2026-01-19 17:16:00
中国消费者报广州讯(陈晓莹 记者李青山)近日,广东省市场监管局、国家金融监督管理总局广东监管局联合发布《广东省数据知识产权价值评价指南(试行)》(以下简称《指南》)
2026-01-19 17:18:00
中国消费者报北京讯(记者万晓东)近日,北京市消费者协会通过线上问卷调查、线下组织志愿者深度体验相结合的方式,对跨境网购领域问题展开调查
2026-01-19 17:18:00