• 我的订阅
  • 头条热搜
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...题解决。OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...qizhixin.com;zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会...……更多
...,形成解题技巧。对于小学高年级的学生而言,他们面对的数学题目在出题方式和出题结构方面都更加多变,在内容上的变量关系和数量关系逐渐复杂难懂。因此教师应该在教学过程中带领小学高年级学生仔细探究小学数学规律,总...……更多
0.999……和1相等?长沙数学名师解读网络热议的小学数学题
...友热议截图。据媒体报道,近日,一位家长晒了一道小学数学题引发热议。这道题目就是问0.999……和1谁更大,不少家长肯定地为是“1大”,但有家长求助AI后得到的结果是“0.999……=1”,让大家大为惊讶,引发网络热议。潇...……更多
大模型“翻车”小学题?
13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉,孙楠以13.8%的投票率位居第三,Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高...……更多
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...学辅导。图 | 赵子龙(来源:赵子龙)用大模型求解奥赛数学题本次课题最早可以追溯到 2023 年 2 月。当时,已经有一些研究团队开始使用大模型做逻辑推理和数学推理。赵子龙和合作者也认为这个方向很有前景。他表示让自己...……更多
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
...匹克(IMO)中的复杂几何问题。解答国际数学奥林匹克的数学题,需要强大的头脑创造力,而AI历来在解答此类问题中的表现不佳。但“阿尔法几何”经过针对性训练后,在逻辑检查系统的加持下,其几何学的解题表现几乎与最...……更多
对标o1,Kimi放出了最能打的国产模型
...的 o1 完全版的 94.8 分。而在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。常规模型的关键目标是尽快提供答案。与之不同,在做题过程中,k0-math...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「废话」,OpenAI o1 就翻车了,苹果新论文质疑 AI 推理能力》)。这种现象被归结为「当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中...……更多
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
...理科最好成绩还无法进入人类考生的前30%。针对大模型答数学题普遍“吃瘪”的问题,国内某头部大模型负责人就曾表示,大模型的指令遵循或者说推理能力通常是把一个指令背后的意思拆解出来,但数学题既包含规则性,又包...……更多
对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一
...,月之暗面坦言,k0-math虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。另外,k0-math还有一些局限性需要突破,包括对于过于简单的数学问题,例如1+1等于几,k0-math模型可...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...而在认知推理类的数据集上也存在着类似现象。面对一道数学题,假如要求大模型给出分步推理的“思维链”时,大模型往往会混淆不同单位的量,比如将时速和公里数相乘相加,这说明对于不同概念背后的物理意义,大模型存...……更多
...语言模型的短板,GPT-3.5发布后,也被指出过做不了简单数学题。记者在现场“调取”了一页数学题,要求“商量”解答其中一道“判断题:求商的近似值时,要保留三位小数,就要除到商的百分位。”“商量”给出的答案为:...……更多
...们这群核心成员里很多人都是理科生,有时候突然扔一个数学题到群里就开始一起解答”。这个诞生于PC贴吧时代的兴趣社区,在互联网浪潮中走过了20年。吧主公孙闬透露,创建人当年还是小学生,前些年去国外攻读博士了,...……更多
...年级教师要做好衔接,引导学生理解图形对解题的意义。数学题的特点是有许多相关的背景信息,要求学生寻找出有用的信息,对题目中已知条件进行分析,挖掘出已知条件背后的信息,教师在培养数形结合思想过程中,引导学生利用画...……更多
名师谈数学高考:先熟后生、先易后难
...作以来一直担任班主任,深受家长与学生好评。今年高考数学题量减少 思维强度增加与2023年高考相比,罗风云老师预计2024年高考数学试卷将经历基调、结构和题型的部分改变,虽然增加了区分度,但总体仍趋于稳定。他强调,...……更多
小学数学题惊动了教育局 网友:我读第一遍竟然是懵的
...动了教育局,这件事在网上引发了很多网友的讨论。小学数学题惊动了教育局这个究竟是怎么一回事呢?原来武汉刘先生孙女今年上小学二年级,几天前刘先生在给孩子辅导数学作业的时候,看到了这样一道题:猫妈妈钓到一些...……更多
...响,不去分析本质,从而解题方法形成定式。小学三年级数学题的解题策略思考1.设计创意问题,引导学生主动分析思考。对于三年级的学生来说,他们对数学的理解处在一个学步的阶段,因此老师需要结合他们的实际水平和接...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...效的提示,从而可以完成复杂的推理任务。而这种增强解数学题的能力,能帮助用户更好地解数学题。此外,CoT 还可以通过搜索引擎理解和处理多步骤查询,来增强搜索引擎的功能,这样一来不仅能为用户提供答案,还能为用...……更多
...张纸,杨乐尽情徜徉在数学世界之中。中学期间做了多少数学题?他没有专门统计过,“但肯定过万了”。1956年,杨乐考入北京大学数学力学系,平均每天学习12个小时。6年后,他进入中国科学院数学研究所读研究生,在熊庆...……更多
小升初衔接,数学该怎么学,命题在发生什么变化?杭州初中数学核心组推出公益大讲堂,满满都是干货
...再用数学语言把它表达出来。何老师还拿去年的一道中考数学题举例,题目是这样的——杭州奥体中心体育场又称“大莲花”,里面有80800个座位,数据80800用科学记数法如何表示。“大莲花是真实情境,很多孩子都去过。在真...……更多
9.11和9.9哪个更大?一道小学生都会的数学题,却难倒了一众AI大模型。昨天,“大模型测不出9.11和9.9哪个大”还登上了微博热搜。这个难倒大多数AI大模型的数学题,其实来自于最近热播的《歌手》。7月13日,在最新一期《歌...……更多
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
... 3.5依旧答错了。LeCun在此嘲讽大模型一番,大模型竟可以推理...?问题在于,LLM没有常识,不理解现实世界,也不会规划和推理。LLM行不行,就看提示了一位网友分析总结了,以上LLM失败的原因。他表示,LLM本身就是个「哑巴」...……更多
...靠性就尤为重要。”她描述道,大语言模型“在解决复杂数学题时会表现得非常好……直到你发现7加3等于12”。最令人惊讶的是什么?答案往往与基于逻辑和概率的推理脱节。例如,在盒子测试中,“克劳德2”有一半次数能给...……更多
84岁宜兴奶奶跟着视频做数学题
本文转自:扬子晚报84岁宜兴奶奶跟着视频做数学题听课记笔记,儿子称这是她的爱好和习惯扬子晚报讯(记者 王塞塞)“对这个式子进行分析,首先我们要保证它是一个整数,也就是说,所有跟根号相关的式子都要抵消掉…...……更多
入选清华“新领军”这个济南初中生有啥“秘诀”?
...”这种天赋表现在两方面:做题速度快,在别人完成一套数学题时,他已经做完了两套,而且准确率高。苗斌也告诉记者,从张晋阁的家人那里了解到,张晋阁自小就表现出了明显的数学天赋:二三岁会算加减法,会跟着爷爷学...……更多
84岁江苏婆婆跟教学视频做数学题,听课笔记震惊网友
...…”近日,江苏宜兴一位婆婆坐在桌子前跟着教学视频做数学题的视频在引发网友关注和讨论。视频中,婆婆专注听课,字迹工整有条理,一副“好学生”的样子。5月26日,扬子晚报/紫牛新闻记者电话联系上了婆婆的儿子许先...……更多
...落实“双减”,要做好科学教育加法,这不是一道简单的数学题,而是教育观念的转变升级。数学教育与其他学科进行有机结合。我们可以通过跨学科的教学设计,让学生在数学课堂上应用和拓展其他学科的知识。例如,将数学...……更多
“景润”浸心  “文笔”生辉
...题目堆中,晚上点着煤油灯演算习题。有一次,他被一道数学题难住,花了一个晚上的时间还是没能解答出来,想起陆宗授老师就住在附近,便去向他请教。“他这种钻研劲头十分难得,我喜欢这样的学生,他以后一定会有一番...……更多
更多关于科技的资讯:
冲泡即食、真材实料:海福盛冻干粥3.1元/杯大促
海福盛冻干粥5杯日常售价24.9元,今日下单可领6元优惠券,到手18.9元,包邮到家。购买链接:天猫(券后18.9元)下单赠送芙蓉鲜蔬汤一杯
2024-12-19 17:00:00
有效期3年:瑞慈全身体检套餐279元大促(立减800元)
天猫瑞慈体检旗舰店,成人全身体检套餐日常售价1079元,可领限量800元券,实付279元入手。全国66门店通用,有效期3年
2024-12-19 17:00:00
男子给已婚女同事发“么么哒”被辞退!法院判决:公司赔偿3万9
快科技12月19日消息,近日,据媒体报道,一则法院判决案例在网络流传,网文称安徽宣城一名“70后”男职工因给已婚女同事发“我想你”“么么哒”等聊天内容等原因遭到公司的辞退
2024-12-19 17:00:00
曝富士康已建立折叠屏iPhone测试线:厚度/重量尚未达到苹果标准
快科技12月19日消息,每年关于苹果的爆料,除了下一代iPhone之外,大家最熟悉的节目可能就是折叠屏iPhone了,年年都有传闻出现
2024-12-19 17:00:00
主人杀年猪 二哈偷吃猪肉被撑死:没有饱腹感、喂养需适量
12月19日消息,很多动物其实没有饱腹感,会一直进食,甚至有可能被撑死。近日在四川泸州,一户人家杀年猪,切好的肉放在桌子上
2024-12-19 17:00:00
中兴罕见涨停 股价创近一年来新高 夺A股成交冠军
快科技12月19日消息,作为A股硬科技领域的代表公司,中兴通讯今日盘中触及涨停板,股价创下近一年来的新高,总市值也重回1800亿元以上
2024-12-19 17:00:00
2024年,茅台悠蜜的美好遇见
营收连续5年蝉联第一。——在水果发酵酒领域,茅台悠蜜可谓是异军突起。12月18日,贵州茅台(集团)生态农业产业发展有限公司(以下简称“茅台生态农业公司”)2024年市场营销工作会议在贵阳市举行
2024-12-19 17:18:00
正安县中等职业学校:产教融合培育直播电商“新农人”
多彩贵州网讯 在当今数字化经济蓬勃发展的时代,直播电商作为一种新兴的商业模式,正以惊人的速度改变着人们的消费方式和市场格局
2024-12-19 17:19:00
远大医药获治疗干眼症的全球首创创新产品的独家开发及商业化权益
远大医药获得治疗干眼症的全球首创创新产品的独家开发及商业化权益OC-01和OC-02是两种高选择性的乙酰胆碱能受体激动剂
2024-12-19 17:21:00
@山东人:2024,你的钱都去哪了?参与调查赢奖品!
2024作为消费促进年,我国一系列促消费持续落地,有效释放了内需潜力,多数商品销售增势良好,升级类商品较快增长。根据国家统计局数据
2024-12-19 17:23:00
圣诞装蒂法3D模型分享:圣诞老人版“耶路撒泠”
随着圣诞节越来越近,“3D区”博主、模型渲染爱好者@DRAYQ今天在推特中分享了自己制作的圣诞装蒂法3D建模同人图。我们的“耶路撒冷”换上了圣诞老人短裙后像是要把衣服都要撑破了
2024-12-19 17:30:00
2026北京车展提前官宣:总面积超38万平米打破历史规模纪录
快科技12月19日消息,2026(第十九届)北京国际汽车展览会已正式定档。将于2026年4月24日至5月3日在北京中国国际展览中心(顺义馆)和首都国际会展中心(新国展二期)隆重举行
2024-12-19 17:30:00
余承东:很多车厂想和我们合作 抱歉 我手里没有那么多资源了
快科技12月19日消息,鸿蒙智行年度直播今日于海南三亚举办,余承东与四界老总相聚直播间,跟撒贝宁、尼格买提、陈伟鸿跨界对话
2024-12-19 17:30:00
鲜果酿造 口感纯正!云小耳黑莓果汁大促:48元券 6罐到手11.9元
云小耳黑莓果汁242ML*6罐日常售价为59.9元,下单领取48元优惠券,到手价为11.9元。购买链接:天猫(券后11
2024-12-19 17:30:00
商务部回应美方考虑禁售TP-Link路由器:别搞有罪推定
快科技12月19日消息,有报道称,美国商务部、国防部和司法部的调查人员以国安问题为由,已经对中国路由器品牌厂商TP-Link展开调查
2024-12-19 17:30:00