• 我的订阅
  • 头条热搜
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...题解决。OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...qizhixin.com;zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会...……更多
教育局回应深圳4年级数学期末试卷太难延时,网友炸锅!
...州一重点中学数学名师周老师看完深圳南山小学四年级的数学题后表示,整张卷子阅读量太大,这会导致学生在有限的考试时间内无法完成所有题目,影响学生正常发挥。不少家长猜测,深圳南山这份试卷是为了适应中高考的改...……更多
...州一重点中学数学名师周老师看完深圳南山小学四年级的数学题后表示,整张卷子阅读量太大,这会导致学生在有限的考试时间内无法完成所有题目,影响学生正常发挥。不少家长猜测,深圳南山这份试卷是为了适应中高考的改...……更多
...大模型的数学水平,赵海笑道:“很多人没考过GRE,其实GRE的数学题难度和中国小学数学题差不多。GPT-4的数学水平不会很高,很多小学奥数题可能就解不出来。”GPT-4为何是“数学不太好的文科生”?他解释说,和图像分析能力一样,它...……更多
...,形成解题技巧。对于小学高年级的学生而言,他们面对的数学题目在出题方式和出题结构方面都更加多变,在内容上的变量关系和数量关系逐渐复杂难懂。因此教师应该在教学过程中带领小学高年级学生仔细探究小学数学规律,总...……更多
0.999……和1相等?长沙数学名师解读网络热议的小学数学题
...友热议截图。据媒体报道,近日,一位家长晒了一道小学数学题引发热议。这道题目就是问0.999……和1谁更大,不少家长肯定地为是“1大”,但有家长求助AI后得到的结果是“0.999……=1”,让大家大为惊讶,引发网络热议。潇...……更多
大模型“翻车”小学题?
13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉,孙楠以13.8%的投票率位居第三,Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高...……更多
提升学生核心素养 济南协和双语实验学校小学部开展技能考核
...和规律的总体现。本次思维考核设计了不同梯度和层次的数学题,以培养数学抽象、逻辑推理、数学建模、直观想象、数学运算和数据分析这六大数学核心素养为宗旨。 考核开始,同学们立即投入到紧张的计算中,计算能力是...……更多
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...学辅导。图 | 赵子龙(来源:赵子龙)用大模型求解奥赛数学题本次课题最早可以追溯到 2023 年 2 月。当时,已经有一些研究团队开始使用大模型做逻辑推理和数学推理。赵子龙和合作者也认为这个方向很有前景。他表示让自己...……更多
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
...匹克(IMO)中的复杂几何问题。解答国际数学奥林匹克的数学题,需要强大的头脑创造力,而AI历来在解答此类问题中的表现不佳。但“阿尔法几何”经过针对性训练后,在逻辑检查系统的加持下,其几何学的解题表现几乎与最...……更多
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
国产o1新选手登场!它能快速解决更复杂的数学解题、代码编程、数字游戏等任务。这就是上海AI实验室版o1——强推理模型书生InternThinker,刚刚正式开放试用!新模型不仅在长思维能力方面有了很大提升,而且还能在推理过程...……更多
人工智能已经可以解决复杂的数学问题了,还有哪些工作无法被取代
...。在简短的训练之后,Codex给出了来自高中比赛的近4000道数学题目的自然语言陈述。起初,Codex准确率略低于30%。当它失败时,它创造了一些术语来填补翻译词典的空白。在此研究之前,Codex从未尝试在自然语言和形式数学代码...……更多
ChatGPT o1满血版上线!实测中它竟然败给了国产AI?
...试直接用图片进行提问,可以让我们输入一些比较抽象的数学题,比如一道来自小学四年级的奥林匹克竞赛题:还是惯例先看看国产AI的回答: kimi文心一言两个国产AI分别给出了A和B的选项,其中kimi的推理过程非常长,直接把...……更多
...去是满篇的成语古文、诗词歌赋,全然没有了自己印象中数学题该有的模样。继深圳市南山区之后,又有家长晒出了一份初中数学期末考试的试题:“曹操在《短歌行》中用______,______表达自己对天体间万有引力的感叹。”不少...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...学、英语、中文、地理、生物、化学和物理;从GRE中选择数学题;从SAT中选择英语和数学科目来构建基准数据集。2.法学院入学考试 法学院入学考试,如LSAT,旨在衡量未来的法律学生的推理和分析能力,考试内容包括逻辑推理...……更多
对标o1,Kimi放出了最能打的国产模型
...的 o1 完全版的 94.8 分。而在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。常规模型的关键目标是尽快提供答案。与之不同,在做题过程中,k0-math...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「废话」,OpenAI o1 就翻车了,苹果新论文质疑 AI 推理能力》)。这种现象被归结为「当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中...……更多
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
...理科最好成绩还无法进入人类考生的前30%。针对大模型答数学题普遍“吃瘪”的问题,国内某头部大模型负责人就曾表示,大模型的指令遵循或者说推理能力通常是把一个指令背后的意思拆解出来,但数学题既包含规则性,又包...……更多
对标OpenAI o1!Kimi发布新一代推理模型:中考高考考研全第一
...,月之暗面坦言,k0-math虽然擅长解答大部分很有难度的数学题,但是当前版本还无法解答LaTeX格式难以描述的几何图形类问题。另外,k0-math还有一些局限性需要突破,包括对于过于简单的数学问题,例如1+1等于几,k0-math模型可...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...而在认知推理类的数据集上也存在着类似现象。面对一道数学题,假如要求大模型给出分步推理的“思维链”时,大模型往往会混淆不同单位的量,比如将时速和公里数相乘相加,这说明对于不同概念背后的物理意义,大模型存...……更多
能看风水 夸我有情趣 Kimi现在都这么野了吗
...过程给差评君都看得一愣一愣的。只可惜,有些绕逻辑的数学题还有几何题,多少差了点意思。 但这次的 k1 就有说法了,既有推理能力又有视觉能力,意思就是可以直接拍照上传解题,还号称能在数理化上打平甚至超越 Open AI ...……更多
...语言模型的短板,GPT-3.5发布后,也被指出过做不了简单数学题。记者在现场“调取”了一页数学题,要求“商量”解答其中一道“判断题:求商的近似值时,要保留三位小数,就要除到商的百分位。”“商量”给出的答案为:...……更多
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...解。我们接下来给 Skywork o1 Lite 上上难度,考它两道高考数学题,题目出自 2024 年高考全国甲卷数学(文)。首先是一道概率题(甲、乙、丙、丁四人排成一列,丙不在排头,且甲或乙在排尾的概率是多少),Skywork o1 Lite 很快给...……更多
...们这群核心成员里很多人都是理科生,有时候突然扔一个数学题到群里就开始一起解答”。这个诞生于PC贴吧时代的兴趣社区,在互联网浪潮中走过了20年。吧主公孙闬透露,创建人当年还是小学生,前些年去国外攻读博士了,...……更多
超越国际标准!中国电信AI大模型发布:解决九章算术难题
...ude3.5 Sonnet的性能相当。TeleAI-t1-preview能够处理复杂的古文数学题,如《九章算术》中的题目。它先将文言文进行理解和简化,转换成现代汉语,再进行数学推导并给出答案。这一过程展示了其在形象思维与抽象思维结合方面的能...……更多
...年级教师要做好衔接,引导学生理解图形对解题的意义。数学题的特点是有许多相关的背景信息,要求学生寻找出有用的信息,对题目中已知条件进行分析,挖掘出已知条件背后的信息,教师在培养数形结合思想过程中,引导学生利用画...……更多
临沂三河口小学一二年级开展期末乐考活动
...洋,灵活运用所学的数学知识,巧思妙解。在这里,解答数学题成为有趣的游戏。每一次成功的解答,都会带来满满的成就和喜悦感,令人流连忘返。“英”姿勃发英语环节更是趣味横生,充满挑战。每个孩子都化身英语小达人...……更多
名师谈数学高考:先熟后生、先易后难
...作以来一直担任班主任,深受家长与学生好评。今年高考数学题量减少 思维强度增加与2023年高考相比,罗风云老师预计2024年高考数学试卷将经历基调、结构和题型的部分改变,虽然增加了区分度,但总体仍趋于稳定。他强调,...……更多
更多关于科技的资讯:
科技驱动,供应链优化:中洲联储的智慧粮仓
科技驱动 ,供应链优化: 中洲联储的智慧粮仓随着全球化的深入和科技的不断进步,粮食供应链的管理面临着前所未有的挑战。如何高效
2025-01-29 18:05:00
【观点摘登】唐方成、靳晓曼:体现用户需求的创新导向作用
随着创新开放性的日益增强和知识生产模式的发展演变,用户需求在推动科技创新、实现价值共创共享方面的作用日益突出,以识别、辨析
2025-01-29 18:18:00
本文转自:人民网人民网记者 赵竹青2025年的春节前夕,当大街小巷挂满红灯笼、家家户户忙着备年货时,国产人工智能大模型DeepSeek在海内外突然“爆火”
2025-01-29 17:42:00
大年初一,中国记协采访了DeepSeek
亲爱的粉丝们:近期,DeepSeek成为关注焦点。为了帮助大家进一步了解DeepSeek,我们与它进行了一次简短对话,希望对大家的工作有所助益(因海报容量有限
2025-01-29 16:44:00
1月28日,深度求索(DeepSeek)官网显示,其线上服务受到大规模恶意攻击,谭主向奇安信安全专家咨询并独家了解到,DeepSeek这次受到的网络攻击,IP地址都在美国。来源
2025-01-29 15:42:00
精致餐饮品牌推抖音“年夜饭”套餐,解锁“场景营销”新思路
春节前夕,年夜饭销售紧俏,主打高品质的“精致餐饮”备受欢迎。为满足消费需求,抖音生活服务联合大董烤鸭、紫薇美力集团旗下餐饮品牌鲁采LU STYLE
2025-01-29 08:40:00
2025贺新春瓣瓣同心京津冀 欢欢喜喜过大年大年初一,天津的古文化街年味浓郁。一系列新春活动,吸引天南海北的游客前来逛街赏景
2025-01-29 09:09:00
厦门网讯(厦门日报记者 朱道衡)春节来鼓浪屿要怎么玩?一天之内能否逛完,只有两个小时该怎么玩?鼓浪屿景点众多,游客该如何串联
2025-01-29 09:37:00
阿里云首次亮相总台春晚,云技术支持全球观众看直播
1月28日晚,阿里云首次亮相中央广播电视总台蛇年春晚,云技术支持全球观众观看春晚直播。作为总台春晚云计算AI独家合作伙伴
2025-01-29 13:18:00
美国科技巨头“收割者”!国产DeepSeek干掉英伟达4.3万亿市值
快科技1月28日消息,临近春节,中国人工智能公司DeepSeek突然爆火,其发布的DeepSeek-R1大模型性能上比肩OpenAI o1
2025-01-28 09:06:00
英伟达回应股价遭DeepSeek暴击:DeepSeek是出色的AI进步
快科技1月28日消息,日前,美股收盘英伟达股价暴跌17%,市值一夜蒸发5888.62亿美元(约合人民币4.27万亿元)
2025-01-28 10:07:00
王晶监制电影《笑傲江湖》上线爱优腾:张雨绮版东方不败来了
快科技1月28日消息,今日,电影《笑傲江湖》在腾讯视频、爱奇艺、优酷三大平台上线,同时发布“春满江湖”版海报。海报中,东方不败(张雨绮饰)侧卧雪地
2025-01-28 10:07:00
7月11日上映!DC《超人》新预告发布:只身大战反派、怪兽
快科技1月28日消息,DC全新的《超人》发布了新版预告,展示了超人翱翔于冰原之上、只身大战怪兽的场景,卢瑟等反派人物也一一登场
2025-01-28 10:37:00
快来看哪个更牛!网友热捧DeepSeek创意写春联
快科技1月28日消息,据媒体综合报道,近日,随着新春佳节的临近,一股创意写春联的热潮正在网络上悄然兴起。而在这场创意盛宴中
2025-01-28 10:37:00
李子柒将首次亮相央视《春晚》:讲述服饰的非遗故事
快科技1月28日消息,据央视频官方透露,今晚李子柒将首次亮相央视《春晚》,并担任“春晚体验官”,讲述演出服饰上的非遗故事
2025-01-28 11:07:00