• 我的订阅
  • 头条热搜
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...题解决。OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...qizhixin.com;zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会...……更多
教育局回应深圳4年级数学期末试卷太难延时,网友炸锅!
...州一重点中学数学名师周老师看完深圳南山小学四年级的数学题后表示,整张卷子阅读量太大,这会导致学生在有限的考试时间内无法完成所有题目,影响学生正常发挥。不少家长猜测,深圳南山这份试卷是为了适应中高考的改...……更多
...州一重点中学数学名师周老师看完深圳南山小学四年级的数学题后表示,整张卷子阅读量太大,这会导致学生在有限的考试时间内无法完成所有题目,影响学生正常发挥。不少家长猜测,深圳南山这份试卷是为了适应中高考的改...……更多
...大模型的数学水平,赵海笑道:“很多人没考过GRE,其实GRE的数学题难度和中国小学数学题差不多。GPT-4的数学水平不会很高,很多小学奥数题可能就解不出来。”GPT-4为何是“数学不太好的文科生”?他解释说,和图像分析能力一样,它...……更多
...,形成解题技巧。对于小学高年级的学生而言,他们面对的数学题目在出题方式和出题结构方面都更加多变,在内容上的变量关系和数量关系逐渐复杂难懂。因此教师应该在教学过程中带领小学高年级学生仔细探究小学数学规律,总...……更多
0.999……和1相等?长沙数学名师解读网络热议的小学数学题
...友热议截图。据媒体报道,近日,一位家长晒了一道小学数学题引发热议。这道题目就是问0.999……和1谁更大,不少家长肯定地为是“1大”,但有家长求助AI后得到的结果是“0.999……=1”,让大家大为惊讶,引发网络热议。潇...……更多
大模型“翻车”小学题?
13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉,孙楠以13.8%的投票率位居第三,Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高...……更多
提升学生核心素养 济南协和双语实验学校小学部开展技能考核
...和规律的总体现。本次思维考核设计了不同梯度和层次的数学题,以培养数学抽象、逻辑推理、数学建模、直观想象、数学运算和数据分析这六大数学核心素养为宗旨。 考核开始,同学们立即投入到紧张的计算中,计算能力是...……更多
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...学辅导。图 | 赵子龙(来源:赵子龙)用大模型求解奥赛数学题本次课题最早可以追溯到 2023 年 2 月。当时,已经有一些研究团队开始使用大模型做逻辑推理和数学推理。赵子龙和合作者也认为这个方向很有前景。他表示让自己...……更多
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
...匹克(IMO)中的复杂几何问题。解答国际数学奥林匹克的数学题,需要强大的头脑创造力,而AI历来在解答此类问题中的表现不佳。但“阿尔法几何”经过针对性训练后,在逻辑检查系统的加持下,其几何学的解题表现几乎与最...……更多
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
国产o1新选手登场!它能快速解决更复杂的数学解题、代码编程、数字游戏等任务。这就是上海AI实验室版o1——强推理模型书生InternThinker,刚刚正式开放试用!新模型不仅在长思维能力方面有了很大提升,而且还能在推理过程...……更多
人工智能已经可以解决复杂的数学问题了,还有哪些工作无法被取代
...。在简短的训练之后,Codex给出了来自高中比赛的近4000道数学题目的自然语言陈述。起初,Codex准确率略低于30%。当它失败时,它创造了一些术语来填补翻译词典的空白。在此研究之前,Codex从未尝试在自然语言和形式数学代码...……更多
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...试直接用图片进行提问,可以让我们输入一些比较抽象的数学题,比如一道来自小学四年级的奥林匹克竞赛题:还是惯例先看看国产AI的回答: kimi文心一言两个国产AI分别给出了A和B的选项,其中kimi的推理过程非常长,直接把...……更多
...去是满篇的成语古文、诗词歌赋,全然没有了自己印象中数学题该有的模样。继深圳市南山区之后,又有家长晒出了一份初中数学期末考试的试题:“曹操在《短歌行》中用______,______表达自己对天体间万有引力的感叹。”不少...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...学、英语、中文、地理、生物、化学和物理;从GRE中选择数学题;从SAT中选择英语和数学科目来构建基准数据集。2.法学院入学考试 法学院入学考试,如LSAT,旨在衡量未来的法律学生的推理和分析能力,考试内容包括逻辑推理...……更多
对标o1,Kimi放出了最能打的国产模型
...的 o1 完全版的 94.8 分。而在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。常规模型的关键目标是尽快提供答案。与之不同,在做题过程中,k0-math...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「废话」,OpenAI o1 就翻车了,苹果新论文质疑 AI 推理能力》)。这种现象被归结为「当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中...……更多
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
...理科最好成绩还无法进入人类考生的前30%。针对大模型答数学题普遍“吃瘪”的问题,国内某头部大模型负责人就曾表示,大模型的指令遵循或者说推理能力通常是把一个指令背后的意思拆解出来,但数学题既包含规则性,又包...……更多
对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一
...,月之暗面坦言,k0-math虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。另外,k0-math还有一些局限性需要突破,包括对于过于简单的数学问题,例如1+1等于几,k0-math模型可...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...而在认知推理类的数据集上也存在着类似现象。面对一道数学题,假如要求大模型给出分步推理的“思维链”时,大模型往往会混淆不同单位的量,比如将时速和公里数相乘相加,这说明对于不同概念背后的物理意义,大模型存...……更多
能看风水 夸我有情趣 Kimi现在都这么野了吗
...过程给差评君都看得一愣一愣的。只可惜,有些绕逻辑的数学题还有几何题,多少差了点意思。 但这次的 k1 就有说法了,既有推理能力又有视觉能力,意思就是可以直接拍照上传解题,还号称能在数理化上打平甚至超越 Open AI ...……更多
...语言模型的短板,GPT-3.5发布后,也被指出过做不了简单数学题。记者在现场“调取”了一页数学题,要求“商量”解答其中一道“判断题:求商的近似值时,要保留三位小数,就要除到商的百分位。”“商量”给出的答案为:...……更多
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...解。我们接下来给 Skywork o1 Lite 上上难度,考它两道高考数学题,题目出自 2024 年高考全国甲卷数学(文)。首先是一道概率题(甲、乙、丙、丁四人排成一列,丙不在排头,且甲或乙在排尾的概率是多少),Skywork o1 Lite 很快给...……更多
...们这群核心成员里很多人都是理科生,有时候突然扔一个数学题到群里就开始一起解答”。这个诞生于PC贴吧时代的兴趣社区,在互联网浪潮中走过了20年。吧主公孙闬透露,创建人当年还是小学生,前些年去国外攻读博士了,...……更多
超越国际标准!中国电信AI大模型发布:解决九章算术难题
...ude3.5 Sonnet的性能相当。TeleAI-t1-preview能够处理复杂的古文数学题,如《九章算术》中的题目。它先将文言文进行理解和简化,转换成现代汉语,再进行数学推导并给出答案。这一过程展示了其在形象思维与抽象思维结合方面的能...……更多
...孩子用AI“赶作业”孩子们不仅找AI“写作文”,还会把数学题交给AI。学生家长杨女士表示,她家儿子初二,女儿小学五年级,兄妹俩会把做不出来的数学题“扔”给AI解答。“大部分情况下,AI都能立马给出准确、详细的解答...……更多
...年级教师要做好衔接,引导学生理解图形对解题的意义。数学题的特点是有许多相关的背景信息,要求学生寻找出有用的信息,对题目中已知条件进行分析,挖掘出已知条件背后的信息,教师在培养数形结合思想过程中,引导学生利用画...……更多
临沂三河口小学一二年级开展期末乐考活动
...洋,灵活运用所学的数学知识,巧思妙解。在这里,解答数学题成为有趣的游戏。每一次成功的解答,都会带来满满的成就和喜悦感,令人流连忘返。“英”姿勃发英语环节更是趣味横生,充满挑战。每个孩子都化身英语小达人...……更多
更多关于科技的资讯:
买奥迪当嫁妆两个月无法提车 4S店:合格证在银行 所有车都卖不了
快科技2月12日消息,据报道,浙江绍兴周女士介绍,去年12月8日,家里人在绍兴宏奥4S店,花费22.6万多给她外甥女购买了一辆奥迪A4L
2025-02-12 19:19:00
2.7万条三文鱼“出逃” 海产品公司竟以每条325元悬赏抓捕
快科技2月12日消息,据媒体报道,近日,总部位于挪威的全球知名海产品公司美威正在重金悬赏抓捕“出逃”的2.7万条三文鱼
2025-02-12 19:19:00
美味的深海怪物!一鮟鱇鱼海面游泳被人类偶遇:着实罕见
快科技2月12日消息,在常年见不到阳光的海洋深处,其实也生活着不少的动物,其中大多数长相丑陋,毕竟也见不到什么人,就随便长长算了
2025-02-12 19:19:00
23岁小伙两个月减肥40斤致秃头:不吃任何碳水化合物
2月12日消息,据媒体报道,宁波一名小伙遇到了“脱发危机”。据小伙介绍,他体重200斤,决心依靠“管住嘴”来减重,几乎不碰油脂
2025-02-12 19:19:00
最高频率近3.3GHz!索泰RTX 5080 AMP EXTREME INFINITY评测:超频后与RTX 4090相去不远
一、前言:支持双BIOS的索泰RTX 5080次旗舰1月29日,RTX 5080正式解禁,在实际功耗比上代RTX 4080低了近10%的情况下
2025-02-12 19:49:00
山东登上《哪吒2》全国各省票房榜第一名 网友:山东人不语只是一味买票
2月12日消息,据媒体报道,截至2月12日11时,《哪吒2》全国各省份票房数据显示,山东登上全国第一位。对此,有网友表示
2025-02-12 19:49:00
ABC比基尼安睡裤卫生巾被抵制 官方回应:非新品 去年已停止生产
快科技2月12日消息,日前,ABC一款“比基尼安睡裤”卫生巾新品引发热议。有网友认为,该产品为“经期性感”牺牲舒适度,比基尼式还有偷工减料的嫌疑
2025-02-12 19:49:00
如何理解引力波效应?《张朝阳的物理课》推导测地偏离方程
上次物理课已讲完引力波的挤压模式和摇摆模式,本次物理课从测地线方程推导出弱场慢速近似下的形变方程。2月9日12时,《张朝阳的物理课》第二百三十三期开播
2025-02-12 19:56:00
江西定南:开足马力忙生产
本文转自:人民网-江西频道在生产车间内,智能“下片”机器人在抓取生产的光伏玻璃产品。近日,在位于定南县老城镇的赣悦新材料有限公司生产车间内
2025-02-12 20:04:00
雷军元宵节宴请SU7 Ultra车主 称不少宝马Mpower车主选择我们
快科技2月12日消息,雷军元宵节直播时宴请了几位小米SU7 Ultra车主。在得知该用户是宝马M5车主后雷军表示:“不少宝马Mpower车主选择我们”
2025-02-12 20:19:00
真的不要久坐了 这个位置会凹陷!2个方式改善
每次看到别人的蜜桃臀,都十分羡慕,毕竟不少人都是“趴趴臀”“方方臀”。而臀部不美观的一个关键因素,其实就是——臀部两侧的凹陷
2025-02-12 20:19:00
RTX 5090D最佳平替!AMD RX 9070 XT将有32GB海量显存
快科技2月12日消息,AMD RX 9070系列虽然是这一代的最高端,但其实是个主流芯片,定位相当于上代的RX 7800系列
2025-02-12 20:19:00
雷军谈为什么要做大规模驾驶培训:上过几次墙 才会对速度敬畏
快科技2月12日消息,在今晚的元宵节直播中,小米创始人、董事长雷军探讨了为何要大规模开展驾驶培训。雷军强调:一定要敬畏速度
2025-02-12 20:49:00
RTX 5070被曝推迟至3月初!跟AMD玩猫抓老鼠
快科技2月12日消息,NVIDIA、AMD的新一代显卡不是你追我赶,而是你躲我藏,似乎都想让对手先出招,然后伺机而动,尤其是在对位产品上
2025-02-12 20:50:00
暴雪前CEO考迪克后悔制作《魔兽世界》电影:最差烂片之一
2016 年是许多《魔兽世界》老玩家十分开心的一年,他们奔赴电影院,穿着联盟或是部落的衣服(甚至是化妆),来一场“线下真实”
2025-02-12 20:50:00