• 我的订阅
  • 头条热搜
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...到,人类大脑生成和解析语言的神经网络并不负责形式化推理,而且提出推理并不需要语言作为媒介。这篇论文声称「语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式都不是必需的」,引发了科技...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...M) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用智能的发展产生帮助?LLM 为什么会犯...……更多
...智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕:它们犯下前后不一致的错误,而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明,大语言模型所依赖的语料库往往反...……更多
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
...办?CMU清华团队提出了Lean-STaR训练框架,在语言模型进行推理的每一步中都植入CoT,提升了模型的定理证明能力,成为miniF2F上的新SOTA。如果想训练LLM证明定理的能力,你会怎么做?既然模型可以通过海量语料学会生成文本,那...……更多
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
...专门解决难题。这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。OpenAI 称,今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型,而且还只是预览...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...地,也一定要对时间、数字和逻辑敏感,无论让它做多跳推理,还是逻辑规则数字计算,而这些恰好是大语言模型所不擅长的,包括前一段时间热议的 9.9 和 9.12 比大小的例子。基于此,我们认为在垂直领域落地的时候,大语言...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了……更多
科学家竞相破解大型语言模型背后的谜团
...复杂行为。面对复杂问题,人类在潜意识里会进行分步骤推理。受此启发,谷歌团队2022年引入了“思维链提示”,以描述一种让LLM展示其“思维”的方法。简单来说,思维链提示是一种特殊的上下文学习。不同于标准提示只给...……更多
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...本质的不同。其不仅进入到复杂的领域,还表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果,二者差异显著,其中,前者正确解决问题的准确率是 13.4%,而 o1 的准确率...……更多
谷歌最新自然语言推理算法
谷歌发布全新反向推理算法LAMBADA,无惧搜索空间爆炸!自动推理绝对算是自然语言处理领域的一大难题,模型需要根据给定的前提和知识推导出有效且正确的结论。尽管近年来NLP领域借着大规模预训练语言模型在各种「自然语...……更多
谷歌大模型推理范式,主要分为两个阶段
...新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40。核心策略其实很简单:千人千面。...……更多
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性
...小尺寸版o1-mini。OpenAI官方发文称,新模型旨在解决复杂推理问题,训练模型在响应之前花更多时间思考,类似于人类的思考方式。“新模型在推理能力上代表了AI能力的新水平。”OpenAI称,该模型可以解决科学、编程和数学等更...……更多
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
...ion模型打造,超越传统思维链提示,实现自主“慢思考”推理。在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。新模型具体如何推理,直接上实例,比如问题是:减去所有的小亮球和紫...……更多
郑小林:建立思维链的AI 具有里程碑意义
...段即对话式AI,AI能解决语言交互问题;第二阶段是具备推理阶段;第三阶段,AI能感知物理世界并与物理世界实现交互;第四阶段,AI将进入创新领域,具备开创新想法和技术的能力;到了第五阶段,AI将具备战略思维和自我管...……更多
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
姚期智院士领衔,推出大模型新推理框架,CoT“王冠”戴不住了。提出思维图(DiagramofThought),让大模型思考更像人类。团队更是为这种推理过程提供了数学基础,通过拓扑斯理论(Topos Theory)正式化(formalize)DoT,确保其逻...……更多
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
...,大模型能根据任务复杂度进行不同时间的思考。不限于推理性的逻辑或数学任务,一般问答也能思考的那种。最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究,被网友们齐刷刷码住了。论文一作为华人学者Tian...……更多
9.11和9.9哪个大?实测12个大模型8个都答错,ChatGPT也翻车了
...模型的短板,此前行业也多次讨论过大模型的数学和复杂推理能力较差,即便是目前最好的大模型GPT-4也仍然有很大进步空间。最近的一次,第一财经曾在6月报道过,根据司南评测体系OpenCompass的高考全卷测试,包括GPT-4在内,7...……更多
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...型开发的关键指导之一便是如何让机器像人类一样思考和推理。诸如注意力机制和思维链(Chain-of-Thought)等技术正是由此产生的灵感。然而,可能很多人并没有意识到,很多对人类来说很简单的认知任务也往往伴随着非常复杂...……更多
AI发展变慢了?几位AI头部创业者并不赞同
...月份发布的GPT-4o(多模态语言大模型),9月份发布的o1(推理大模型),质量都可圈可点。与去年相比,他认为,今年AI行业的特色是,之前只有OpenAI一家独大,现在已经变成了群雄并起、你追我赶的状态,各家公司都在提速。...……更多
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...-preview和o1-mini模型已经可以使用。OpenAI宣布,“新模型在推理能力上代表了人工智能能力的新水平,因此,计数器将重置为1”。根据OpenAI的自测,o1在竞赛编程问题(Codeforces)中排名第89个百分点,在美国数学奥林匹克竞赛(AIM...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...中的表现,研究者们提出了各种提示策略来提升大模型的推理和规划能力,比如思维链、思维树和思维图谱。这些进步与工具集成一起,推动着通用 AI 智能体的发展,让它们现在已经能够用 LLM 输出的决策策略来解决序列决策问...……更多
商汤科技与金山办公达成商业合作,“日日新”大模型补强办公软件理科大脑
...直是大模型的痛点,理科领域需要高度的抽象思维和逻辑推理能力,并且要求非常精准的答案,作为计算机科学和信息技术领域的重要工具,代码能力被视作衡量大模型智慧的关键维度。事实上,在过去一年国产大模型如火如荼...……更多
知乎 AI 革命:智能搜索与实时问答的融合
...生成,将这些答案里的有价值信息提炼出来,进行有效的推理,就能为一个 " 新鲜出炉 " 的专业问题提供一个立等可取的答案,提问的用户就可以能为快,然后再等其它的专业答主陆续赶到,下场答题。 在灰度测试这个功能的...……更多
o1带火的CoT到底行不行?新论文引发了论战
...To CoT or not to CoT?OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链(CoT)的兴趣。一时之间,似乎思维链很快就会成为所有 LLM 的标配,但思维链并非万能,就连 OpenAI 自己也提到 o1 在某些任务上的表现并不比 GPT-4o 强...……更多
OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力
...爆火,利用纯提示方法让普通LLM摇身一变,成为具备复杂推理能力的OpenAI o1。九月份,OpenAI o1正式登场。作为新一代的老大哥,o1系列专注于复杂的推理任务,一经推出也是直接屠榜了大模型竞技场。在下面这些难度较大的数学...……更多
Meta首款多模态Llama 3.2开源!1B羊驼宝宝,跑在手机上了
...I正在壮大。 能力一览11B和90B这两款模型,不仅支持图像推理场景,包括图表和图形在内的文档级理解、图像描述以及视觉定位任务,而且还能基于现有图表进行推理并快速给出回答。比如,你可以问「去年哪个月销售业绩最好...……更多
人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度...……更多
刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本
... Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此,Meta 还正式发布了 Llama Stack Distribution,其可……更多
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...-Vision-11B 既准确地识别出了餐厅,还提供了细致的思考与推理过程。 在 Meta 并未披露 Llama-3.2-11B-Vision-Instruct 对齐技术细节情况下,北大对齐小组愿开源数据、训练、模型、评估的全流程,为全模态对齐研究贡献力量。对齐框架...……更多
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...73.56的高分,并在数理逻辑维度取得第一,体现其强大的推理能力。 SenseChat-Vision5.5基础能力突出,数理逻辑维度超越GPT-4o本次SuperCLUE-V涵盖了国内外最具代表性的11个开源/闭源多模态理解大模型,聚焦多维度能力评估,包括基...……更多
更多关于科技的资讯:
2025年京津冀机器人产业链配套需求和供给能力征集工作启动京津冀共同做优做强机器人产业集群河北日报讯(记者米彦泽)从省工信厅获悉
2025-09-23 19:22:00
2025世界制造业大会|超聚变全栈数智化方案,为安徽建设“制造强省”贡献力量
大皖新闻讯 9月20日至23日,以“智造世界 创造美好”为主题的2025世界制造业大会主在合肥举行。记者在采访中注意到
2025-09-23 13:16:00
新品首销,烟台联通胜利路营业厅人气火爆
9月19日上午8时,iPhone 17系列新品在烟台联通胜利路营业厅正式首销,现场人气火爆,众多消费者一早前来,共同体验新一代旗舰产品的魅力
2025-09-23 13:36:00
PITAKA自研PitaTap™拍照按键,重新定义手机壳交互体验
近日,在2025年德国柏林IFA展会上,PITAKA凭借其自研的PitaTap™拍照按键的创新突破,一举夺得两家国际权威科技媒体SlashGear与BGR颁发的Innovation Awards奖项
2025-09-23 11:40:00
MOVA生态链企业获数千万融资,瞄准海外电动工具赛道、预计2025年营收破亿|硬氪首发
作者|黄楠编辑|袁斯来硬氪获悉,沃庭科技(苏州)有限公司(以下简称“沃庭科技”)近日完成数千万元天使轮融资,本轮资金将用于加大技术研发投入
2025-09-23 06:51:00
刘强东,正悄悄孕育“山姆杀手”
前不久,刘强东现身宿迁,又给老家人送上了一份大礼:四家京东折扣超市。有人问,这不是赚老乡钱吗,算什么礼物?因为这些超市主打的
2025-09-22 10:23:00
近日,合众人寿秦皇岛中支开展“鎏金岁月,匠心相伴”主题金箔手作沙龙活动,通过沉浸式手工体验,为参加客户呈现了一场融合艺术鉴赏与情感联结的特别回馈
2025-09-22 10:32:00
东港股份转型科技先锋 AI具身机器人深耕为民服务
海报新闻记者 宋嵩 张彤彤“您好,我是小智,有什么可以帮助您?”在政务大厅、大型展馆、学校可以看到忙碌的“小家伙”,它们各司其职
2025-09-22 10:33:00
“人拉肩扛”到“云端挖矿” 山东黄金的数智蜕变
海报新闻记者 张彤彤三山岛金矿的井下巷道里,5G信号正穿梭于岩壁之间,中控室的大屏上,矿石流动的情况与千米深的矿洞数据实时变化
2025-09-22 10:33:00
从莱阳田野到国际餐桌 春雪食品引领鸡肉调理品行业高质量发展
海报新闻记者 宋嵩故事的起点,要追溯到2012年。彼时,山东春雪食品有限公司在莱阳设立莱阳春雪食品有限公司,最初只是一家区域性的鸡肉加工企业
2025-09-22 10:37:00
大窑饮品重磅推出“宜养说” 植物蛋白赛道再添“实力派”
当下消费者正变得前所未有的理性,这一趋势在饮品市场尤为明显:“好喝”是基础,“健康”已成为新门槛。基于对“轻养生”需求的深度洞察
2025-09-22 10:38:00
近日,西贝创始人贾国龙与网红企业家罗永浩就预制菜价值展开的公开论战,将这一话题推向了舆论漩涡。这场争论背后,折射的正是全社会对食品安全认知的深化——从单纯的“无害”向更高层次的“真实
2025-09-22 10:38:00
从鼓房到健身房:无人值守场景重塑消费体验
本报记者 胡 静 □ 陈跃佳中午十二时,李先生步入街角的24小时无人便利店,扫码开门、自选商品、刷脸支付,全程耗时不足两分钟
2025-09-22 10:39:00
鱼竿里的“大国重器” 光威复材以碳纤维技术书写国产突围之路
海报新闻记者 宋嵩 张彤彤“以前用玻璃纤维竿,钓条十斤的鱼就胳膊酸,这碳纤维的又结实又轻,真是材料不一样了!” 威海的老钓手王师傅喜欢“炫耀”他的新鱼竿
2025-09-22 10:40:00
南山智尚:纤维经纬织就智造之路
大众网·海报新闻记者 康洁一条条线可以让提线木偶惟妙惟肖的表演,而一根根强度高、耐磨损的纤维可以实现机器人手部灵巧的运动
2025-09-22 10:41:00