• 我的订阅
  • 头条热搜
o1带火的CoT到底行不行?新论文引发了论战
To CoT or not to CoT?OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链(CoT)的兴趣。一时之间,似乎思维链很快就会成为所有 LLM 的标配,但思维链并非万能,就连 OpenAI 自己也提到 o1 在某些任务上的表现并不比 GPT-4o 强...……更多
Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控
Claude操控电脑,究竟可以做到什么程度?新加坡国立大学团队在20多个场景下做了全面测试,其中最引人瞩目的是:AI可以自动玩手游清日常任务了!研究中选用了米哈游《崩坏:星穹铁道》,可以跟它说”帮我完成今天的模拟...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
苹果新论文:AI 大模型可能不会推理。AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。这篇题为「GSM-Symb...……更多
谷歌最新自然语言推理算法
谷歌发布全新反向推理算法LAMBADA,无惧搜索空间爆炸!自动推理绝对算是自然语言处理领域的一大难题,模型需要根据给定的前提和知识推导出有效且正确的结论。尽管近年来NLP领域借着大规模预训练语言模型在各种「自然语...……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
ChatGPT的出现,彻底将生成AI推向爆发。但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——图像、视频、代码、3D模型、音频、文本、科学知识……尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta...……更多
算力直降97%,GPT-3存储只用20MB?!这篇新论文火了
好家伙!1750亿参数的GPT-3只需20MB存储空间了?!基于1.58-bit训练,在不损失精度的情况下,大幅节省算力(↓97%)和存储(↓90%)。最近,从事机器学习的Will小哥发了一篇论文,直接引来几十万网友or同行围观。他提出了一项...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷
...中的商业周期、物理学中的电磁波,以及数学运算和逻辑推理等。因此,在许多任务和场景中,人们希望对周期进行建模,以便根据以往的经验进行推理。尽管以 MLP 和 Transformer 为代表的基础模型已经取得了显著的成功,但是它...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...地,也一定要对时间、数字和逻辑敏感,无论让它做多跳推理,还是逻辑规则数字计算,而这些恰好是大语言模型所不擅长的,包括前一段时间热议的 9.9 和 9.12 比大小的例子。基于此,我们认为在垂直领域落地的时候,大语言...……更多
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。尽管……更多
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
...的文本,则展示了娴熟而准确的技能应用。表6呈现了,新论文所提出的方法,在4个案例中实现了最高准确率。总之,作者提出一个LLM提取元认知知识框架,其形式是根据解决问题所需的概念,对数学数据集中的问题进行分类的...……更多
谷歌大模型推理范式,主要分为两个阶段
...新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40。核心策略其实很简单:千人千面。...……更多
让AI管理大型代码库,开发者福音 | 阿里/新加坡国立/西安交大
...。原论⽂的分析进⼀步指出,CodexGraph在处理不同难度的推理任务时,单⼀查询与多重查询策略的效果存在差异。在CrossCodeEval中,多重查询策略更有效;⽽在SWE- bench中,单⼀查询策略表现更佳。此外 ,去除Cypher LM agent会显著增...……更多
CPU,正在被AI时代抛弃?
...以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所等业务场景中,律师通过大模型对...……更多
大模型不会推理,为什么也能有思路?有人把原理搞明白了
...——从许多文档中综合程序性知识并进行类似的推理。 新论文的一作、UCL 在读博士 Laura Ruis 表示,该研究是基于对 5M 预训练文档(涵盖 25 亿个 token)对事实问题、算术、计算斜率和线性方程的影响的分析。总而言之,他们为...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
【新智元导读】TS-Reasoner是一个创新的多步推理框架,结合了大型语言模型的上下文学习和推理能力,通过程序化多步推理、模块化设计、自定义模块生成和多领域数据集评估,有效提高了复杂时间序列任务的推理能力和准确性...……更多
智谱AI CEO张鹏:大模型更聪明了 开发者门槛降低
...百页的上下文窗口长度,具备更强的多模态能力,更快的推理以及更高并发,还大大降低了推理成本。 “一直以来,普通用户甚至是开发者,需要用像魔法咒语一样的提示词,或者机器才能解读执行的代码,来调用大模型的各...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...《给小学数学题加句「废话」,OpenAI o1 就翻车了,苹果新论文质疑 AI 推理能力》)。这种现象被归结为「当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤」。然而,事实真的是这样吗...……更多
阿里云全面升级GPU云服务:AI大模型推理性能可提升100%
...云推出全面升级的GPU云服务,通过全新优化GPU套件,多GPU推理服务性能可最大提升100%。针对调用GPU算力最常用的容器技术,阿里云推出ACK云原生AI套件,帮助开发者及企业更高效地开发和部署AI应用,加速大模型应用落地。随着A...……更多
推动大模型自我进化,北理工推出「流星雨计划」
...我进化的方式,解决代码模型在处理复杂问题时缺少中间推理过程。核心观点:自我进化的力量跟随上述自我进化的思想,在 SRA-MCTS(Self-guided MCTS-based data generation for Reasoning Augmentation)方法中,作者无需借助额外的任何监……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...中的表现,研究者们提出了各种提示策略来提升大模型的推理和规划能力,比如思维链、思维树和思维图谱。这些进步与工具集成一起,推动着通用 AI 智能体的发展,让它们现在已经能够用 LLM 输出的决策策略来解决序列决策问...……更多
...具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。以代码功能为例,它既可以让代码“小白”也具备技术能力、为女友写一段能呈现爱心图样的代码,也可以成为程序员的帮手,让它帮助生成...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...例如,OCRBench)的性能,但与低分辨率版本模型相比,在推理相关任务(例如,MMMU)上的准确率却会下降。此外,虽然开源的多模态大模型在视觉-语言任务上取得了非常亮眼的基准测试结果,但在纯文本任务上的性能却有显著...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建和部署成本过高。改善成本 - 性能的一种方法是使...……更多
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...本质的不同。其不仅进入到复杂的领域,还表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果,二者差异显著,其中,前者正确解决问题的准确率是 13.4%,而 o1 的准确率...……更多
【多彩新论】十年|⑨一种传承激荡文化新活力
编者按:十年,是时间的刻度,也是发展的年轮。十年,是笃行不辍的征途,也是奋楫争先的征程。这十年,万桥飞架,天堑变通途,高铁疾驰、航道畅达,建成大西南交通枢纽,开放格局豁然开朗;这十年,“中国数谷”算...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...码仓库 Trending Research 第一位。为了赋予机器人端到端的推理和操纵能力,本文创新性地将视觉编码器与高效的状态空间语言模型集成,构建了全新的 RoboMamba 多模态大模型,使其具备视觉常识任务和机器人相关任务的推理能力,...……更多
“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?
...市场瞬息万变,需要实时数据处理和决策支持,大模型的推理涉及到大量的矩阵乘法计算,对硬件的矩阵乘法计算能力提出较高要求,计算复杂性可能导致响应时间延迟,不利于实时应用。加之大模型训练和推理过程需要大量的...……更多
更多关于科技的资讯:
厦门半导体显示产业孵化器揭牌
天马微电子已在厦建设5条先进生产线,助推厦门形成主流显示技术全覆盖的布局。图为参会代表参观天马微电子的展出产品。(厦门日报记者 林铭鸿 摄)厦门网讯(厦门日报记者 林露虹 通讯员 管轩 雷飏)打造新型显示产业高地
2025-12-11 08:18:00
Meta使用阿里千问优化其最新AI模型
12月10日晚间消息,据彭博社报道,美国科技巨头Meta在训练其代号为“牛油果”的新模型时,使用了阿里巴巴Qwen模型进行蒸馏优化
2025-12-11 08:34:00
当iPhone屏幕突然冻结在苹果标志上无法启动,或是在系统更新后陷入无限重启的循环,很多用户的第一反应是连接电脑使用iTunes恢复
2025-12-11 08:38:00
鲁网12月9日讯深耕新能源与电力装备产业20余年的制造业单项冠军企业——特锐德集团,顺应国家“双碳”战略与产业转型升级需求
2025-12-11 08:39:00
近日,华夏基金旗下股权投资平台——华夏股权宣布完成对杭州云深处科技的联合领投。此次投资不仅是华夏股权在机器人及智能装备产业链的关键战略布局
2025-12-11 09:42:00
纵览宠粉计划丨集福卡赢好礼!纵览新闻宠粉活动放大招啦~
纵览宠粉计划第四轮来啦!12月11日至18日福利拉满集齐八张福卡超多好礼带回家点击上图直达活动不管你是纵览的老粉还是刚加入的新朋友这场专属活动千万别错过在前两场活动广受欢迎的演出票
2025-12-11 09:48:00
近日,记者调查发现,美颜生鲜灯并未完全退出市场,而是以隐蔽姿态继续“发光”。在沿街商铺、小区周边门店内,有不少商家使用明令禁止的红罩红光生鲜灯
2025-12-11 09:53:00
以时光炼技能,以热爱赴荣光:华润万家第二届“万家工匠”全国技能大赛总决赛颁奖典礼温暖落幕
聚光灯照亮领奖台,掌声致敬每一份坚守,12月8日下午,第二届“万家工匠”全国技能大赛总决赛颁奖典礼圆满落幕。历经赛场的激烈角逐与专业的层层考量
2025-12-11 10:51:00
在心理健康日益受到全社会重视的背景下,广州勤圣伊科技有限公司(以下简称“勤圣伊科技”)凭借其“科技融合专业”的创新模式
2025-12-11 11:02:00
近日,专注于心理健康领域的广州勤圣亦科技有限公司(以下简称“勤圣亦科技”)宣布,其通过“科技+专业服务”的创新模式,在心理咨询服务数字化与普惠化方面取得显著进展
2025-12-11 11:04:00
12月9日,云深处科技宣布完成超5亿元人民币C轮融资。本轮融资由招银国际和华夏基金联合领投,中国电信、中国联通旗下基金参与战略投资
2025-12-11 11:15:00
以融资租赁之力,赋能产业升级 ——2025 PA“租赁节”拉开帷幕
2025年是“十四五”规划收官之年,我国产业结构转型进入深化攻坚阶段,融资租赁作为服务实体经济、产业转型升级中的重要力量
2025-12-11 11:22:00
依靠学习 走向未来——好书推荐书单:以书为帆 智行致远
01、《电动中国》作者:杨旭东、黄郑出版社:新华出版社书中将中国新能源科技发展置于能源革命与国际竞争的双重视角下,分析动力电池
2025-12-11 12:43:00
近年来,AI驱动的修复视频清晰度软件逐渐普及,无论是老旧的VHS录像、噪点明显的夜间视频,还是压缩导致的画质损失,都有机会被修复
2025-12-11 11:06:00
二手平台价格水涨船高 便利带来隐私权限风险商报讯 今年最火的行业是什么?无疑就是AI。现在不仅仅是下载AI App
2025-12-11 11:46:00