• 我的订阅
  • 头条热搜
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
国产o1新选手登场!它能快速解决更复杂的数学解题、代码编程、数字游戏等任务。这就是上海AI实验室版o1——强推理模型书生InternThinker,刚刚正式开放试用!新模型不仅在长思维能力方面有了很大提升,而且还能在推理过程...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...qizhixin.com;zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会...……更多
9.11和9.9哪个更大?一道小学生都会的数学题,却难倒了一众AI大模型。昨天,“大模型测不出9.11和9.9哪个大”还登上了微博热搜。这个难倒大多数AI大模型的数学题,其实来自于最近热播的《歌手》。7月13日,在最新一期《歌...……更多
大模型“翻车”小学题?
13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。上周五(7月12日)综艺《歌手2024》投票率出炉,孙楠以13.8%的投票率位居第三,Chanté Moore以13.11%的投票率排在第四。一位网友留言质疑“13.8%比13.11%高...……更多
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、...……更多
...决问题的趁手工具,更是一种思维方式。做AI项目就像解数学题“滴嘟滴嘟”,火警警报响起,电动自行车棚着火了。只见一个扇形避火罩迅速展开,隔绝火势蔓延,车棚顶端喷淋器开始喷水,一场火灾消弭于无形。这是北京市...……更多
...靠性就尤为重要。”她描述道,大语言模型“在解决复杂数学题时会表现得非常好……直到你发现7加3等于12”。最令人惊讶的是什么?答案往往与基于逻辑和概率的推理脱节。例如,在盒子测试中,“克劳德2”有一半次数能给...……更多
清华提出CharacterGLM;DeepMind联创发全新一代大模型;大模型版“5年高考3年模拟”来了丨AI新零售早报
...微信公众号)《大模型版“5年高考3年模拟”来了!6141道数学题,还是多模态的那种|微软&UCLA&UW联合出品》MathVista是一个多模态数学推理基准数据集,由微软、UCLA和UW联合开发,包含6141个数学问题,涵盖丰富的任务类型...……更多
全球第12!17岁中专女生击败一众名校大学生,闯入阿里数赛决赛
...的,对我的喜怒哀乐有很大的影响。我要是做不出来一道数学题,每当我躺在床上眼睛一闭的话,它就会在我脑子里反复地出现。然后我就百思不得其解,脑海中就会想这题的思路。然后第二天的话,如果还是没有解决的时候,...……更多
...院将采用全新的管理考评机制,以应用基础方向为主形成实验室,以项目牵引为主组成交叉队伍,围绕具体任务开展长期攻关。目前研究院下设数据仿真实验室、数据聚变实验室、生物医药实验室和智能超算实验室。在成立仪式...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...题解决。OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集...……更多
...大模型的数学水平,赵海笑道:“很多人没考过GRE,其实GRE的数学题难度和中国小学数学题差不多。GPT-4的数学水平不会很高,很多小学奥数题可能就解不出来。”GPT-4为何是“数学不太好的文科生”?他解释说,和图像分析能力一样,它...……更多
微软华人团队发布全新基准AGIEval,专为人类考试而生
...学、英语、中文、地理、生物、化学和物理;从GRE中选择数学题;从SAT中选择英语和数学科目来构建基准数据集。2.法学院入学考试 法学院入学考试,如LSAT,旨在衡量未来的法律学生的推理和分析能力,考试内容包括逻辑推理...……更多
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
...匹克(IMO)中的复杂几何问题。解答国际数学奥林匹克的数学题,需要强大的头脑创造力,而AI历来在解答此类问题中的表现不佳。但“阿尔法几何”经过针对性训练后,在逻辑检查系统的加持下,其几何学的解题表现几乎与最...……更多
通义千问再放大招:720亿大模型开源,全尺寸赶上LLaMA-2,还有移动端可用的18亿模型
...中的表现大幅提升,代码能力也有质的飞跃。△72B模型做数学题 在复杂语义理解上,72B的能力也提高了不少,比如,现在就能够听懂中文里的“潜台词”了:△72B模型理解“职场之道”当前,国内外大模型都分为闭源和开源两...……更多
首个AI高考全卷评测结果发布:最高分303,数学全不及格
...大模型的智能水平。在前不久高考结束后,上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日, OpenCompass发布了首个大模型高考全卷评测结果。语数外三科加起来的满分为...……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...学辅导。图 | 赵子龙(来源:赵子龙)用大模型求解奥赛数学题本次课题最早可以追溯到 2023 年 2 月。当时,已经有一些研究团队开始使用大模型做逻辑推理和数学推理。赵子龙和合作者也认为这个方向很有前景。他表示让自己...……更多
上海人工智能实验室公布首个ai高考全卷评测结果
6月20日消息,上海人工智能实验室19日公布了首个AI高考全卷评测结果。据介绍,2024年全国高考甫一结束,该实验室旗下司南评测体系OpenCompass选取6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。评测采用全国新课标I卷...……更多
别被火爆全网的ChatGPT“骗了”
...即兴创作”《观沧海》。/ 深燃截图而让ChatGPT做一道小学数学题,它看似写出了一长串计算过程,给出的却是错误答案。ChatGPT对于部分题无法给出正确答案。/ 深燃截图 深度体验后会发现,ChatGPT对于一些文化常识问题、数学计...……更多
2022-12-10 12:56:00全网,火爆
56年无人解开的数学难题 被谷歌的新AI突破了
去年,AI 能解出博士级别的数学题,已是轰动一时的大新闻;而今年,能攻克「未解之谜」级别的数学难题的 AI 已经来了。5 月 15 日,Google DeepMind 发布了全新编程智能体 AlphaEvolve。不同于传统的编程 Agent,它专注于通用算法的...……更多
首个AI高考全卷评测结果发布:数学全都不及格
6月19日,上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型Qwen2-72B排名第一,在语数外三科420分的满分中获得303分,OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)排...……更多
复旦MOSS大模型开源了!Github和Hugging Face同时上线
...多轮对话的展示效果,具备资料追根溯源的能力:这是做数学题的示例,包括鸡兔同笼问题:也包括生成图片功能:还有近期网友热议的AI道德性问题:当然,这波里面也不乏“砸场子”的网友。例如官方GitHub问答中,有网友很...……更多
打乱/跳过Transformer层会怎样?最新研究揭开其信息流动机制
...准:ARC(科学考试问题)、HellaSwag(常识问题)、GSM8K(数学题),WinoGrande(常识推理)、LAMBADA(词汇预测)。其中LAMBADA用于测困惑度,与训练期间使用的原始token预测最接近。 对于Llama2的性能评估,提供了基准测试的标准化...……更多
...语言模型的短板,GPT-3.5发布后,也被指出过做不了简单数学题。记者在现场“调取”了一页数学题,要求“商量”解答其中一道“判断题:求商的近似值时,要保留三位小数,就要除到商的百分位。”“商量”给出的答案为:...……更多
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
...SimpleBerry有关的账号和官网中,只能看出性质是一个研究实验室,也并未透露更多研究方向信息。其他o1复刻项目进展除LLaMA-O1之外,另一个公开进展的o1复刻项目O1-Journey来自上交大团队。团队在十月初发布了第一份进展报告,其...……更多
...,Q*除了能合成数据,更本质的,可能是对一些有难度的数学题、逻辑题做了重新采集、标注。或在之前基础上,或没有用transformer方式,而是直接输入所有东西再输出,且加了一个值的评估。他认为,基于类似某种价值评估和...……更多
杭州男生董镇宇进国家队!幼儿园开始接触数学,小学直接跳级,曾一周5个奥数班并乐在其中
...就连我们全家开车出去玩,路上他也会央求我们多出几道数学题,让他做一做。”镇宇小学进入崇文实验学校后,家里在学校附近租了房,离杭州图书馆很近,周末母子俩经常泡在图书馆。镇宇很喜欢看书,妈妈就买了李毓佩数...……更多
共同的理想  共同的事业(新时代画卷)
...少喋喋不休地严格管教,“高中时,有一次我问父亲一道数学题,他却说,‘你要靠自己解决问题,这样才更有价值。’”田中群说,从此他逐渐养成了独立思考、刻苦钻研的习惯。曾经有人对田中群说:“你可能永远无法摆脱...……更多
小米手机的这些隐藏功能,你都了解吗?
...到陌生,当我们在日常生活中遇到一些用心算解决不了的数学题时,很多小伙伴就会打开小米手机计算器帮我们进行数学运算。不仅可以运算数学题,小米计算器还可以帮我们计算亲戚称呼、单位换算、计算税贷等等,而且我们...……更多
2022-12-15 09:05:00小米,功能,手机
人工智能已经可以解决复杂的数学问题了,还有哪些工作无法被取代
...。在简短的训练之后,Codex给出了来自高中比赛的近4000道数学题目的自然语言陈述。起初,Codex准确率略低于30%。当它失败时,它创造了一些术语来填补翻译词典的空白。在此研究之前,Codex从未尝试在自然语言和形式数学代码...……更多
更多关于科技的资讯:
厦门抢占具身智能产业新赛道
第十四届中国创新创业大赛——首届具身智能专业赛成果在厦发布。厦门网讯(文/厦门日报记者 吴晓菁 通讯员 高菲 康潇潇 图/厦门日报记者 卢剑豪)昨日的厦门国际会议中心酒店
2025-09-26 08:38:00
具身智能孵化加速器在厦正式揭牌第十四届中国创新创业大赛首届具身智能专业赛昨日发布成果东南网9月26日讯(海峡导报记者 黄奕琳)昨日
2025-09-26 10:17:00
全国26家实验室参与!由雷沃支持的这场“田间论剑”举行
日前,2025年农业机械检测实验室间比对活动在山东潍坊举行。该活动由中国农业机械化协会主办、农机鉴定检测分会承办、潍柴雷沃智慧农业协助开展
2025-09-26 07:05:00
人们依托脑力开展思维活动,而人工智能则依赖算力进行“思考”。“十四五”期间,中国在算力建设上的投入力度相当大,发展成效显著
2025-09-26 07:31:00
王灿:以笔为犁 深耕“城事”
王灿。 臧翔宇 摄□胡欣玥芮天舒祁绩外出采访结束后,王灿轻轻推开南京报业传媒集团融媒中心时政新闻部的门。工位上屏幕亮起
2025-09-26 07:41:00
560余家企业携4.8万余个岗位来东大揽才“AI+”岗位热度不减,实战经验是核心指标□南京日报/紫金山新闻记者何洁 实习生黄佳琪杨久久9月25日
2025-09-26 07:41:00
厦门网讯(厦门日报记者 沈彦彦 应洁)明日,厦门岛外首家永辉“胖东来模式”调改店将在杏林万科里正式开业。作为厦门第二家
2025-09-25 08:53:00
9月24日,“青春华章・向西而歌”网络大思政课活动上,西安交通大学微电子学院集成电路工程专业博士研究生魏上杰介绍,集成电路是“国之重器”的“心脏”
2025-09-25 09:44:00
杜建英一持股公司被吊销,名下关联60家企业其中8家已注销或吊销
企查查APP显示,近日,杜建英持股的杭州芸台文化创意有限公司被吊销,原因是公司成立后无正当理由超过6个月未开业,或者开业后自行停业连续6个月以上
2025-09-25 11:20:00
雷军“五十来岁正是闯的年纪”,出生于1969年,和余承东、陈明永同龄
9月25日,雷军发文:这5年,小米一路摸爬滚打、跌宕起伏,依然启动了造车、芯片和高端化……没什么好犹豫的,五十来岁,正是闯的年纪
2025-09-25 11:20:00
贵州国企“智”变攻坚推动数实融合
赤水河畔,国内首台高温复合型仿生压曲机稳定运转,物联网实时优化发酵参数……这场酿酒的“数字革命”,也是贵州习酒公司以全链数智革新推动产业跃迁的生动缩影
2025-09-25 11:57:00
近8成职场人每周都会用AI工具 “人机互信”仍在磨合期
在人工智能技术日臻成熟的2025年,AI已是深度融入职场生态的“数字同事”,在AI辅助下的2025年职场迎来了哪些变化
2025-09-25 13:30:00
9月23日下午,2025北京文化论坛“破界共生:科技激发文化原创力”平行论坛在京举办。本场论坛由中国文联、中国作协指导
2025-09-25 13:38:00
国庆前夕,房山区物美超市“胖改店”、居然之家房山店、瑞莱广场分别于9月26日、27日、28日开业,进一步丰富了房山区消费场景
2025-09-25 13:38:00
OPPO杭州研发总部项目易主,山子高科接手公司95%股权
企查查APP显示,近日,负责OPPO项目的杭州逗酷软件科技有限公司发生工商变更,新增山子高科旗下浙江山子超影科技有限公司为股东
2025-09-25 16:25:00