• 我的订阅
  • 头条热搜
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...,随着 OpenAI o1 模型的推出,关于大型语言模型是否拥有推理能力的讨论又多了起来。比如苹果在前段时间的一篇论文中指出,只要给模型一些干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「废话」,OpenAI ...……更多
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...到,人类大脑生成和解析语言的神经网络并不负责形式化推理,而且提出推理并不需要语言作为媒介。这篇论文声称「语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式都不是必需的」,引发了科技...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...M) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用智能的发展产生帮助?LLM 为什么会犯...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
苹果新论文:AI 大模型可能不会推理。AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。这篇题为「GSM-Symb...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...很多不同的GPU型号和显存大小。再加上,目前广泛应用于推理阶段的量化技术,比如可以用FP16或FP8精度,这会改变推理和训练/微调成本的比重。以上这些限制因素,都让模型规模的选择成为一个非常具有挑战性的问题。总体而...……更多
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...本质的不同。其不仅进入到复杂的领域,还表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果,二者差异显著,其中,前者正确解决问题的准确率是 13.4%,而 o1 的准确率...……更多
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
...科学家Denny Zhou拿出一篇ICLR 2024论文称:CoT可以让Transformer推理无极限。但随即他就遭到了田渊栋和LeCun等的质疑。最终,CoT会是通往AGI的正确路径吗?随着OpenAI o1的爆火,最近CoT也成了圈内热议的高频词。靠着CoT的强力加持,o1...……更多
百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,使模型性能迎来惊人提升。自OpenAI的Q*项目曝光后,业内相关讨论始终层出不穷。据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelli...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...一定启示。日前,相关论文以《大型语言模型评价中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)为题发在 arXiv,曾忠燊是第一作者,香港中文大学教授贾佳亚担任通讯作者 [1]。图……更多
昇思MindSpore 2.3全新发布
...级实现脚本、分布式策略,运行时的统一,Baichuan2-13B的推理部署只需1天。在大模型推理上,通过LLMServing实现推理吞吐提升2倍多;升级模型压缩工具金箍棒2.0实现千亿大模型压缩至十倍。 为降低开发门槛,昇思持续升级MindSpore...……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
新智元报道编辑:乔杨【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种...……更多
击败GPT-4o的开源模型如何炼成?关于Llama 3.1 405B都写在论文里
...经远超计算最优的时长。结果表明,这些较小模型在相同推理预算下的表现优于计算最优模型。在后训练阶段,Meta 使用了 405B 的旗舰模型进一步提高了 70B 和 8B 模型这些较小模型的质量。3、为了支持 405B 模型的大规模生产推理...……更多
o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光
...后的贡献者。Ilya 在 o1 的作用 OpenAI o1 主打进行通用复杂推理,在输出回答之前,会在产生一个很长的思维链,以此增强模型能力。而 Ilya 此前合著的这篇论文主要就是探讨了提高大语言模型多步推理能力的方法。他们主要比较...……更多
昆仑万维重磅发布天工AI高级搜索功能,做最懂金融投资、科研学术的AI搜索
...AI高级搜索功能,具备四大亮点:·全面升级多层次分析推理能力·升级的金融投资专业AI搜索·升级的科研学术专业AI搜索·针对文档AI阅读分析的智能优化「天工AI高级搜索」不仅能提供精准的结果,更能通过多角度的专业优化,...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研发成本、训练/推理效率和整体性能之间实现最佳...……更多
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...的 agent,是关键的一步。而这篇论文就重点研究了扩展「推理期计算」(inference-time computation)这个问题。研究团队分析了扩展测试时计算的两种主要机制:(1)针对密集的、基于过程的验证器奖励模型进行搜索;(2)根据测...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...交互能力的核心是模型能够直接在语音模态上进行理解和推理,这与传统的语音对话功能有本质的不同。现有的语音对话系统中主要包含 3 个过程:首先将输入语音内容转换为文本,其次利用大语言模型进行文本推理,最后利用...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
复刻OpenAI o1推理大模型,开源界传来最新进展:LLaMA版o1项目刚刚发布,来自上海AI Lab团队。简介中明确:使用了蒙特卡洛树搜索,Self-Play强化学习,PPO,以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。在2024年6月,o1发...……更多
...AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本。研究人员说,过去18个月,这些技...……更多
科学家提出情景学习新范式,让学霸大模型向学弱大模型输送能力
...十亿左右。“做大”,能让大模型具备更强的涌现能力和推理能力,从而适用于难度更高的任务。“做小”,能让大模型获得更优秀的推理能力,从而能被部署到手机、手表、耳机、录音笔等各类小微终端之中。情景学习(ICL,...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLL……更多
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...解决复杂数学问题的能力。通过此,他们不仅提高了算法推理速度,还提高了算法搜索中间结果的质量。所新推出的数据集 TriMaster100,也更加符合算法在复杂数学问题下的评价场景。目前,赵子龙的合作者正在基于本次成果开...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建和部署成本过高。改善成本 - 性能的一种方法是使...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...码仓库 Trending Research 第一位。为了赋予机器人端到端的推理和操纵能力,本文创新性地将视觉编码器与高效的状态空间语言模型集成,构建了全新的 RoboMamba 多模态大模型,使其具备视觉常识任务和机器人相关任务的推理能力,...……更多
整合长期记忆,AI实现自我进化,探索大模型这一可能性
...也能让模型在处理长期、分散和个性化的数据时逐步提升推理和学习能力。用 LTM 数据提升模型能力,使其能够自我进化在传统 LLM 中,更新模型通常需要调整所有参数,而如果目的是处理个体数据,那这种操作明显不切实际。...……更多
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格
...面的 leaderboard 榜单。同时我们也在评测集上实验分析了推理 scaling law、模型校准、RAG、对齐税等研究问题,后续本评测集都可以作为这些方向的重要参考之一。总之,我们希望 Chinese SimpleQA 能帮助开发者深入了解其模型在中文...……更多
ChatGPT已经慢了,这是国内AI搜索新高度,免费可用
...了强化。首先面对复杂问题的解决全面升级了多层次分析推理能力,再难的问题都努力为你解答。其次细分了更明确的目标群体,升级了金融投资和科研学术专业 AI 搜索,将这些领域的解答精准度提升到了前所未有的水平。最...……更多
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
...tical Reasoning”的论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。尽管这些模型在生成人类水平的文本方面表现出色,但当处理简单的数学问题时,即使问题仅进行了微小的改动,如添加无关信息,模型的表现也...……更多
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
姚期智院士领衔,推出大模型新推理框架,CoT“王冠”戴不住了。提出思维图(DiagramofThought),让大模型思考更像人类。团队更是为这种推理过程提供了数学基础,通过拓扑斯理论(Topos Theory)正式化(formalize)DoT,确保其逻...……更多
更多关于科技的资讯:
当东明石化“EPOE”,遇上DeepSeek
大众网记者 王晓姝 济南报道在国际舞台上,中国“智”造正以前所未有的速度崛起,近日火爆全球的DeepSeek是其中代表
2025-03-01 21:17:00
震撼!一千四百年前古人竟已用上储粮黑科技
快科技3月1日消息,近日,据央视报道,一项关于古代储粮技术的发现再次引发了热议。原来,在一千四百年前,古人就已经掌握了一种堪称“黑科技”的储粮秘诀
2025-03-01 13:38:00
春晚出圈的宇树科技招人了:年薪可达百万!
快科技3月1日消息,蛇年春晚舞台上,来自杭州的宇树科技凭借出色表现刷屏热搜。而就在今日,杭州今年新春最大规模的线下人才招聘会于上午9时在杭州大会展中心盛大启幕
2025-03-01 14:08:00
凌晨退税喜提5万多!网友直呼:3月第一份快乐
快科技3月1日消息,三月第一天,许多网友卡点干的第一件事,就是退税!2024年度个人所得税综合所得汇算清缴今天开始了,汇算的时间为3月1日至6月30日
2025-03-01 14:38:00
抗病5年 知名歌手方大同去世:年仅41岁
快科技3月1日消息,今日中午,歌手方大同独立音乐厂牌@赋音乐FUMUSIC 发布消息称:以积极的态度面对顽疾5年, 方大同于2025年2月21日早晨
2025-03-01 14:38:00
董明珠回应500亿做芯片质疑:国家和企业发展都需要
快科技3月1日消息,近日,董明珠在央视频的视频中回应了外界对于格力投资500亿做芯片的质疑。此前,格力大价钱投资造芯片引发热议
2025-03-01 15:08:00
DeepSeek大胆披露:理论利润率高达545%!
快科技3月1日消息,今日,DeepSeek正式在知乎平台开设了其官方账号,并发布了一篇名为《DeepSeek-V3/R1推理系统概览》的技术文章
2025-03-01 15:08:00
同比增长62.2%:蔚来公司2月交付新车13192辆
快科技3月1日消息,在刚刚过去的2月份,蔚来公司交付新车13192台,同比增长62.2%。其中,蔚来品牌交付新车9143台
2025-03-01 16:08:00
气胸是什么病、为什么高瘦男性容易得:医生科普
快科技3月1日消息,歌手方大同因病去世,享年41岁,据报道,2010年他因操劳过度,出现(气胸)爆肺而数度住院。那么什么是气胸
2025-03-01 16:38:00
每年导致40万人截肢:这种动物被联合国列入“危险疾病名单”
在非洲肯尼亚的一个小镇,11 岁的比阿特丽斯坐在路边,用手划拉着地上的泥土打发时间。忽然,石缝中弹出一条“红线”,她还没来得及反应
2025-03-01 17:08:00
9.98万 赛力斯蓝电E5 PLUS长续航先享版上市:纯电能跑165公里
快科技3月1日消息,就在今日,蓝电E5 PLUS 165km长续航先享版车型上市,限时一口价9.98万元,限量1000台
2025-03-01 17:08:00
英特尔再度推迟“千亿美元”芯片工厂的建设!投产起码再等5年
陷入困境的芯片制造商英特尔周五(2月28日)宣布,该公司将推迟在俄亥俄州开设芯片制造工厂的进程。2022年时,英特尔曾承诺将投资高达1000亿美元
2025-03-01 17:38:00
骁龙8 Elite近乎“白菜价”!有厂商要干到2500元以内:网友担心会不会赔钱
快科技3月1日消息,博主数码闲聊站爆料,某款骁龙8 Elite机型好像要干到2500元以内。这条微博引发热议,有网友担心“厂商会不会赔钱”
2025-03-01 17:38:00
因“方向感不清晰”:车主控诉小鹏P7+智驾时撞上护栏
快科技3月1日消息,当前一切高阶智能驾驶均为辅助驾驶,使用时还需小心谨慎,时刻准备接管,以防事故发生。据“1818黄金眼”最新报道
2025-03-01 18:08:00
老了也有依靠!京东外卖骑手感谢刘强东
快科技3月1日消息,据媒体报道,近日京东首批全职外卖骑手代表正式签约,引发热议。多位外卖骑手表示,公司为其缴纳五险一金对房贷
2025-03-01 18:08:00