• 我的订阅
  • 头条热搜
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
国产o1新选手登场!它能快速解决更复杂的数学解题、代码编程、数字游戏等任务。这就是上海AI实验室版o1——强推理模型书生InternThinker,刚刚正式开放试用!新模型不仅在长思维能力方面有了很大提升,而且还能在推理过程...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...qizhixin.com;zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会...……更多
9.11和9.9哪个更大?一道小学生都会的数学题,却难倒了一众AI大模型。昨天,“大模型测不出9.11和9.9哪个大”还登上了微博热搜。这个难倒大多数AI大模型的数学题,其实来自于最近热播的《歌手》。7月13日,在最新一期《歌...……更多
大模型“翻车”小学题?
13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉,孙楠以13.8%的投票率位居第三,Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高...……更多
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、...……更多
...决问题的趁手工具,更是一种思维方式。做AI项目就像解数学题“滴嘟滴嘟”,火警警报响起,电动自行车棚着火了。只见一个扇形避火罩迅速展开,隔绝火势蔓延,车棚顶端喷淋器开始喷水,一场火灾消弭于无形。这是北京市...……更多
...靠性就尤为重要。”她描述道,大语言模型“在解决复杂数学题时会表现得非常好……直到你发现7加3等于12”。最令人惊讶的是什么?答案往往与基于逻辑和概率的推理脱节。例如,在盒子测试中,“克劳德2”有一半次数能给...……更多
清华提出CharacterGLM;DeepMind联创发全新一代大模型;大模型版“5年高考3年模拟”来了丨AI新零售早报
...微信公众号)《大模型版“5年高考3年模拟”来了!6141道数学题,还是多模态的那种|微软&UCLA&UW联合出品》MathVista是一个多模态数学推理基准数据集,由微软、UCLA和UW联合开发,包含6141个数学问题,涵盖丰富的任务类型...……更多
全球第12!17岁中专女生击败一众名校大学生,闯入阿里数赛决赛
...的,对我的喜怒哀乐有很大的影响。我要是做不出来一道数学题,每当我躺在床上眼睛一闭的话,它就会在我脑子里反复地出现。然后我就百思不得其解,脑海中就会想这题的思路。然后第二天的话,如果还是没有解决的时候,...……更多
...院将采用全新的管理考评机制,以应用基础方向为主形成实验室,以项目牵引为主组成交叉队伍,围绕具体任务开展长期攻关。目前研究院下设数据仿真实验室、数据聚变实验室、生物医药实验室和智能超算实验室。在成立仪式...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...题解决。OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...大模型的智能水平。在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...中的表现大幅提升,代码能力也有质的飞跃。△72B模型做数学题 在复杂语义理解上,72B的能力也提高了不少,比如,现在就能够听懂中文里的“潜台词”了:△72B模型理解“职场之道”当前,国内外大模型都分为闭源和开源两...……更多
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
...匹克(IMO)中的复杂几何问题。解答国际数学奥林匹克的数学题,需要强大的头脑创造力,而AI历来在解答此类问题中的表现不佳。但“阿尔法几何”经过针对性训练后,在逻辑检查系统的加持下,其几何学的解题表现几乎与最...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...学辅导。图 | 赵子龙(来源:赵子龙)用大模型求解奥赛数学题本次课题最早可以追溯到 2023 年 2 月。当时,已经有一些研究团队开始使用大模型做逻辑推理和数学推理。赵子龙和合作者也认为这个方向很有前景。他表示让自己...……更多
上海人工智能实验室公布首个ai高考全卷评测结果
6月20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷...……更多
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排...……更多
打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制
...准:ARC(科学考试问题)、HellaSwag(常识问题)、GSM8K(数学题),WinoGrande(常识推理)、LAMBADA(词汇预测)。其中LAMBADA用于测困惑度,与训练期间使用的原始token预测最接近。 对于Llama2的性能评估,提供了基准测试的标准化...……更多
...语言模型的短板,GPT-3.5发布后,也被指出过做不了简单数学题。记者在现场“调取”了一页数学题,要求“商量”解答其中一道“判断题:求商的近似值时,要保留三位小数,就要除到商的百分位。”“商量”给出的答案为:...……更多
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
...SimpleBerry有关的账号和官网中,只能看出性质是一个研究实验室,也并未透露更多研究方向信息。其他o1复刻项目进展除LLaMA-O1之外,另一个公开进展的o1复刻项目O1-Journey来自上交大团队。团队在十月初发布了第一份进展报告,其...……更多
...,Q*除了能合成数据,更本质的,可能是对一些有难度的数学题、逻辑题做了重新采集、标注。或在之前基础上,或没有用transformer方式,而是直接输入所有东西再输出,且加了一个值的评估。他认为,基于类似某种价值评估和...……更多
共同的理想  共同的事业(新时代画卷)
...少喋喋不休地严格管教,“高中时,有一次我问父亲一道数学题,他却说,‘你要靠自己解决问题,这样才更有价值。’”田中群说,从此他逐渐养成了独立思考、刻苦钻研的习惯。曾经有人对田中群说:“你可能永远无法摆脱...……更多
学生的三次“拷问”让为师者自省
...且能写合格的学生较少。坊间戏言,“化学烦,物理难,数学题做不完”,但对学生来讲,他们却在摆平“烦”、征服“难”、努力做完的过程中体会到一种做理科题成功后的喜悦。而对语文,学生的态度却是“怕”,学生中有...……更多
NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了
...释、可信大模型。该工作由上海交通大学和阿里巴巴通义实验室共同完成。论文题目:Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning 论文地址:https://arxiv……更多
...全不及格”的消息登上“热搜”。消息出自上海人工智能实验室旗下司南评测体系OpenCompass对7个开源大模型进行的高考语、数、外全卷能力测试。据OpenCompass于6月19日发布的评测结果,大模型的语文、英语考试水平还不错,但数...……更多
对标o1,Kimi放出了最能打的国产模型
...的 o1 完全版的 94.8 分。而在两个难度更大的竞赛级别的数学题库 OMNI-MATH 和 AIME 基准测试中,k0-math 初代模型的表现分别达到了 o1-mini 最高成绩的 90% 和 83%。常规模型的关键目标是尽快提供答案。与之不同,在做题过程中,k0-math...……更多
9.11比9.9大?多个大模型翻车!业内人士:就是偏科,文科强理科弱
...理科最好成绩还无法进入人类考生的前30%。针对大模型答数学题普遍“吃瘪”的问题,国内某头部大模型负责人就曾表示,大模型的指令遵循或者说推理能力通常是把一个指令背后的意思拆解出来,但数学题既包含规则性,又包...……更多
学而思携九章大模型、学而思学习机亮相世界人工智能大会
...九章随时问”的拍题讲题能力。当用手机拍摄一道四年级数学题,它并不直接给出答案,而是分析了题目考察的知识点和形式,再引导用户进行一步步思考,在启发下自主解决问题。这一明显区别于拍题软件的讲解方式,让大家...……更多
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...解。我们接下来给 Skywork o1 Lite 上上难度,考它两道高考数学题,题目出自 2024 年高考全国甲卷数学(文)。首先是一道概率题(甲、乙、丙、丁四人排成一列,丙不在排头,且甲或乙在排尾的概率是多少),Skywork o1 Lite 很快给...……更多
...绳10个,然后迅速跑到答题场地,根据所给题目解答一道数学题或者默写一组数学公式,答题结束后再迅速返回跨栏接力给第二位同学,依次接力。这项活动不仅考验了学生的知识储备,还锻炼了他们应对压力和复杂问题的能力...……更多
更多关于科技的资讯:
联名《蛟龙行动》!联想推出手雷造型固态硬盘
快科技1月21日消息,联想推出一款拯救者战术移动固态硬盘,采用“手雷”造型外观,这是联想拯救者与电影《蛟龙行动》的联名合作产品
2025-01-21 18:00:00
全球首套!我国在量子精密测量领域取得重大突破
快科技1月21日消息,近日,据媒体报道,由南方电网公司牵头研发的全球首套±800kV特高压直流量子电流传感器顺利通过了新产品技术鉴定
2025-01-21 18:00:00
雷军:小米SU7上月交付量超过了特斯拉Model 3
快科技1月21日消息,挑战特斯拉的中国电动车非常多,但真正意义上比肩甚至超过特斯拉的则寥寥无几。就在今日,小米集团创始人雷军在转发微博是表示“上个月交付量超过了Model 3”
2025-01-21 18:00:00
100%纯国产!龙芯CPU两年适配2679款产品
快科技1月21日消息,龙芯中科宣布,2024年12月,龙芯桌面和服务器平台新增64家企业的109款适配产品。其中包括安全应用30款
2025-01-21 18:00:00
长安UNI-T买车两年修了两年 车主:修太多卖不出去了
快科技1月21日消息,据博主“拜托了老司机”透露,一位长安UNI-T车主向他反馈称,买车两年修了两年,因为修太多车也卖不出去了
2025-01-21 18:00:00
25万级搭载纯视觉智驾!小鹏G7无伪装实车曝光
快科技1月21日消息,日前,一张小鹏G7的无伪装谍照在网上曝光。据悉,小鹏G7定位于25万元级家庭用户市场,预计年内正式发布
2025-01-21 18:30:00
新一代电量怪兽!iQOO Z10 Turbo Pro将配7500mAh巨无霸电池
快科技1月21日消息,根据知名数码博主“数码闲聊站”透露,iQOO即将发布的高性能直屏机最大电池将堆到史无前例的7500mAh
2025-01-21 18:30:00
原生鸿蒙来了!华为nova 12/13系列开启HarmonyOS NEXT花粉Beta招募
快科技1月21日消息,华为官方正式宣布,即日起HUAWEI nova 12、nova 12 Pro、nova 13、nova 13 Pro开启花粉Beta招募
2025-01-21 18:30:00
蔡磊回应《我不是药神》原型 95%罕见病患者群体面临无药可治
快科技1月21日消息,日前,《我不是药神》的原型陆勇在微博发布视频,祝福渐冻症抗争者蔡磊。今日,蔡磊发文感谢陆勇的祝福
2025-01-21 18:30:00
曝小鹏P7+大新车高速瞬间失去动力 车主:吓出一身冷汗
快科技1月21日消息,今日有认证为汽车博主,同时也是小鹏P7+车主的用户“周明明EVolutio”发帖艾特小鹏汽车董事长何小鹏
2025-01-21 18:30:00
2025年春节档票房破3亿元!《射雕英雄传》独占近一半
快科技1月21日消息,截至今日16时50分,2025年春节档新片预售总票房已强势突破3亿元大关!在这场电影市场的盛宴中
2025-01-21 18:30:00
抖音医疗领域新动作!将建中外合资三级医院:床位800张
快科技1月21日消息,抖音在医疗领域的布局又有了新动作,据北京市卫健委官网消息,抖音集团获批在朝阳区中关村朝阳园北区医疗服务地块(2905-0006地块)建设北京爱瑞医院(待定)
2025-01-21 18:30:00
华为Mate 60享以旧换新补贴+国补双重优惠:性价比更高
快科技1月21日消息,即日起河南华为线下门店购买部分华为手机、平板、穿戴产品,至高享受补贴15%,单件最高补贴500元
2025-01-21 18:30:00
周杰伦昆凌一家五口重回婚礼教堂!结婚十周年幸福拉满
2015年1月17日,昆凌与周杰伦结婚,正式成为夫妻。2025年正是他们结婚十周年。今日周杰伦INS更新动态:“开心的日子永远都没有‘大眼瞪小眼’的时候”
2025-01-21 18:30:00
爱奇艺热播剧《漂白》编剧再回应抄袭质疑:在法律上不构成事实
快科技1月21日消息,近日,爱奇艺热播剧《漂白》 陷入抄袭风波。昨日中午,公众号“猛哥”发文称,《漂白》抄袭其在2012年发表于南方都市报的深度调查报道《漂白》
2025-01-21 19:00:00