• 我的订阅
  • 头条热搜
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...到,人类大脑生成和解析语言的神经网络并不负责形式化推理,而且提出推理并不需要语言作为媒介。这篇论文声称「语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式都不是必需的」,引发了科技...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...M) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用智能的发展产生帮助?LLM 为什么会犯...……更多
...智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕:它们犯下前后不一致的错误,而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明,大语言模型所依赖的语料库往往反...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过海量语料学会生成文本,那...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...专门解决难题。这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。OpenAI 称,今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型,而且还只是预览...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...地,也一定要对时间、数字和逻辑敏感,无论让它做多跳推理,还是逻辑规则数字计算,而这些恰好是大语言模型所不擅长的,包括前一段时间热议的 9.9 和 9.12 比大小的例子。基于此,我们认为在垂直领域落地的时候,大语言...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...交视觉-语言-动作建模框架RevThink:使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术分享群」。SwiftEdit:50 倍速文本引导图像...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了……更多
智汇金陵 共探AI未来:开发者圈层沙龙·南京站圆满举行
...专家骆秀韬深度解析了DeepSeek R1,其通过强化学习具备强推理和“自我反思”能力。他建议企业根据需求选择推理类模型,并利用小模型蒸馏降本增效,同时介绍了星河社区提供的DeepSeek R1 API服务及免费模型部署资源。 百度飞桨...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...ta 提出“可持续思维链”:让大语言模型在连续潜空间中推理GameArena:通过实时电脑游戏评估 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术...……更多
科学家竞相破解大型语言模型背后的谜团
...复杂行为。面对复杂问题,人类在潜意识里会进行分步骤推理。受此启发,谷歌团队2022年引入了“思维链提示”,以描述一种让LLM展示其“思维”的方法。简单来说,思维链提示是一种特殊的上下文学习。不同于标准提示只给...……更多
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...本质的不同。其不仅进入到复杂的领域,还表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果,二者差异显著,其中,前者正确解决问题的准确率是 13.4%,而 o1 的准确率...……更多
业界首款!中国联通发布元景思维链大模型:性能比肩OpenAI
...大慢思考能力,又具备不限于数学的多学科、多场景通用推理能力,且能做到针对不同任务和难度的自适应慢思考,大幅降低资源消耗。中国联通表示,主流榜单的测评结果显示,元景思维链大模型的表现超过了目前最好的通用...……更多
谷歌最新自然语言推理算法
谷歌发布全新反向推理算法LAMBADA,无惧搜索空间爆炸!自动推理绝对算是自然语言处理领域的一大难题,模型需要根据给定的前提和知识推导出有效且正确的结论。尽管近年来NLP领域借着大规模预训练语言模型在各种「自然语...……更多
谷歌大模型推理范式,主要分为两个阶段
...新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40。核心策略其实很简单:千人千面。...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...小尺寸版o1-mini。OpenAI官方发文称,新模型旨在解决复杂推理问题,训练模型在响应之前花更多时间思考,类似于人类的思考方式。“新模型在推理能力上代表了AI能力的新水平。”OpenAI称,该模型可以解决科学、编程和数学等更...……更多
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
...ion模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。新模型具体如何推理,直接上实例,比如问题是:减去所有的小亮球和紫...……更多
郑小林:建立思维链的AI 具有里程碑意义
...段即对话式AI,AI能解决语言交互问题;第二阶段是具备推理阶段;第三阶段,AI能感知物理世界并与物理世界实现交互;第四阶段,AI将进入创新领域,具备开创新想法和技术的能力;到了第五阶段,AI将具备战略思维和自我管...……更多
...律事实,并根据云端海量法律数据,结合运算模型,进行推理决策,一键生成咨询意见书、民事诉状、仲裁申请、报案材料等法律文书。吴怡表示,法律大模型能为当事人提供专业、便捷、免费的法律咨询,帮助解决人们日常生...……更多
ChatGPT大流行的思考-解析篇
...器人的本质区别。2. ChatGPT如何实现知识的获取、存储、推理及实时更新那究竟GPT如何有如此优秀的表现呢?我们不妨从人类学习思路入手,我们学习一般可分为获取知识-存储知识-推理知识-更新知识,而这也是GPT发展及学习的...……更多
超越ChatGPT:人类特有的思维要强化
...据驱动学习机制不可避免存在不可解释、数据依赖和逻辑推理弱等不足。忽略这些不足,可能会给全面认识ChatGPT带来一定的困扰。虚假关联带来隐患尽管ChatGPT可以“写”出人机莫辨的论文、诗歌,但当你尝试问它类似这样的问...……更多
人工智能已经可以解决复杂的数学问题了,还有哪些工作无法被取代
...决数学问题的系统,它是一个组合了自然语言处理和数学推理的系统。这个系统的作用是帮助计算机理解自然语言中的数学问题,从而能够通过推理和计算得出问题的答案。具体来说,这个系统包括多个子系统,包括自然语言处...……更多
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
姚期智院士领衔,推出大模型新推理框架,CoT“王冠”戴不住了。提出思维图(DiagramofThought),让大模型思考更像人类。团队更是为这种推理过程提供了数学基础,通过拓扑斯理论(Topos Theory)正式化(formalize)DoT,确保其逻...……更多
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
...,大模型能根据任务复杂度进行不同时间的思考。不限于推理性的逻辑或数学任务,一般问答也能思考的那种。最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究,被网友们齐刷刷码住了。论文一作为华人学者Tian...……更多
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
...模型的短板,此前行业也多次讨论过大模型的数学和复杂推理能力较差,即便是目前最好的大模型GPT-4也仍然有很大进步空间。最近的一次,第一财经曾在6月报道过,根据司南评测体系OpenCompass的高考全卷测试,包括GPT-4在内,7...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等技术正是由此产生的灵感。然而,可能很多人并没有意识到,很多对人类来说很简单的认知任务也往往伴随着非常复杂...……更多
...大模型加入数学领域的解题算法。“OpenAI说GPT-4有强大的推理能力,我感觉主要指的是它的数学水平高。”赵海告诉记者,“其实,推理能力包含逻辑推理能力和数学抽象思维能力,这两种能力是有区别的,前者侧重寻找因果关系。相...……更多
AI发展变慢了?几位AI头部创业者并不赞同
...月份发布的GPT-4o(多模态语言大模型),9月份发布的o1(推理大模型),质量都可圈可点。与去年相比,他认为,今年AI行业的特色是,之前只有OpenAI一家独大,现在已经变成了群雄并起、你追我赶的状态,各家公司都在提速。...……更多
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...-preview和o1-mini模型已经可以使用。OpenAI宣布,“新模型在推理能力上代表了人工智能能力的新水平,因此,计数器将重置为1”。根据OpenAI的自测,o1在竞赛编程问题(Codeforces)中排名第89个百分点,在美国数学奥林匹克竞赛(AIM...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...中的表现,研究者们提出了各种提示策略来提升大模型的推理和规划能力,比如思维链、思维树和思维图谱。这些进步与工具集成一起,推动着通用 AI 智能体的发展,让它们现在已经能够用 LLM 输出的决策策略来解决序列决策问...……更多
更多关于科技的资讯:
在城市公交的庞大体系里,有这样一支队伍,他们隐于大众视野之外,却牢牢掌控着公交智能出行的“命门”,这就是车载电子设备维修组
2025-05-10 20:34:00
奋战二季度 拼抢上半场丨新产品新设计 浙江外贸企业“出海”忙
海关总署发布的最新数据显示,今年前四月,我国货物贸易出口总值同比增长7.5%,延续平稳增长态势。面对复杂多变的国际经贸环境
2025-05-10 22:04:00
京东助力山东企业外贸转内销,力争年内销售200亿元
齐鲁晚报·齐鲁壹点 主余凤5月9日,“外贸优品 云购齐鲁”重点电商平台走进外贸产业带专场对接活动(京东专场)在临沂举办
2025-05-10 14:35:00
水泥能发电还能储电!我国科学家全球首创仿生自发电-储能混凝土
快科技5月10日消息,近日,中国工程院院士、东南大学教授缪昌文团队发布全球首创的仿生自发电-储能混凝土。该技术直击建筑行业高能耗痛点
2025-05-10 14:42:00
五一彩电销量破100万台:线下平均尺寸首次突破70英寸
快科技5月10日消息,奥维云网(AVC)推总数据显示,2025年五一促销期彩电市场销量规模为101万台,同比增长3.9%
2025-05-10 14:42:00
不老魔女查理兹·塞隆再续《永生守卫2》
网飞新片《永生守卫2》定于7月2号上线,最大的看点是两位高挑美女抱团摔跤,预告片在此。除查理兹·塞隆(1米77)领衔的原班人马外
2025-05-10 14:42:00
微信官方确认:手机放铁盒里真能加快数据迁移速度
快科技5月10日消息,换手机是开心的,但转移数据是痛苦的,尤其是微信数据迁移,动辄十多个小时的时间令人苦恼。近期一位汽车博主陈文俊晒视频提到
2025-05-10 14:42:00
24.99万起售的合资插混MPV卖爆了!别克GL8陆尚开启交付
快科技5月10日消息,就在今日,别克全新插混MPV车型GL8陆尚正式开启交付!该车于上月22日正式上市,共推出三款车型
2025-05-10 14:42:00
“你可以永远相信孝感”!近日,一位网友在社交媒体上激动留言。这份信任,源自孝感在第十一届王者荣耀全国大赛总决赛期间的精彩表现
2025-05-10 14:48:00
1米摔10次毫发无损!三星Galaxy S25 Edge将配康宁第二代大猩猩玻璃陶瓷
快科技5月10日消息,三星电子与康宁公司宣布,即将推出的Galaxy S25 Edge将采用Corning®Gorilla®Glass Ceramic 2(第二代大猩猩)玻璃陶瓷
2025-05-10 15:12:00
5年免费换电!蔚来四款新车正式预订:ES6、EC6、ET5、ET5T
快科技5月10日消息,今天,蔚来四款新车正式开启预订,包括:智能电动全能SUV 新ES6、智能电动轿跑SUV 新EC6
2025-05-10 15:12:00
RTX 5070只要6399元!机械革命蛟龙16 Pro 2025上架
快科技5月10日消息,机械革命蛟龙16 Pro RTX 5070版本首发到手6399.2元起,将于5月12日20:00开抢
2025-05-10 15:42:00
CMAvatar3.0首发!青瞳视觉携原力重新定义AI动捕
在数字娱乐内容创作领域,动作捕捉技术已成为影视、游戏及动画制作的核心生产力工具。 近年来,这一领域内已涌现出众多现象级作品
2025-05-10 15:45:00
对标Ultra!三星Galaxy Watch8系列手表将采用圆角矩形外观
快科技5月10日消息,三星Galaxy Watch8系列智能手表将采用全新的圆角矩形外观,这一设计风格与去年发布的Galaxy Watch Ultra相似
2025-05-10 16:12:00
纯电中大型轿车满意度TOP3出炉:小米SU7 Ultra夺亚军
快科技5月10日消息,中汽中心信息科技发布了2024-2025年度中国汽车行业客户满意度调研结果。其中在纯电中大型轿车满意度方面
2025-05-10 16:42:00