• 我的订阅
  • 头条热搜
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...,随着 OpenAI o1 模型的推出,关于大型语言模型是否拥有推理能力的讨论又多了起来。比如苹果在前段时间的一篇论文中指出,只要给模型一些干扰,最聪明的模型也会犯最简单的错误(参见《给小学数学题加句「废话」,OpenAI ...……更多
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...到,人类大脑生成和解析语言的神经网络并不负责形式化推理,而且提出推理并不需要语言作为媒介。这篇论文声称「语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式都不是必需的」,引发了科技...……更多
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...M) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用智能的发展产生帮助?LLM 为什么会犯...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
苹果新论文:AI 大模型可能不会推理。AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。这篇题为「GSM-Symb...……更多
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
...很多不同的GPU型号和显存大小。再加上,目前广泛应用于推理阶段的量化技术,比如可以用FP16或FP8精度,这会改变推理和训练/微调成本的比重。以上这些限制因素,都让模型规模的选择成为一个非常具有挑战性的问题。总体而...……更多
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...本质的不同。其不仅进入到复杂的领域,还表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果,二者差异显著,其中,前者正确解决问题的准确率是 13.4%,而 o1 的准确率...……更多
Transformer推理天花板被谷歌打破?DeepMind首席科学家亮出84页PPT,却遭LeCun反对
...科学家Denny Zhou拿出一篇ICLR 2024论文称:CoT可以让Transformer推理无极限。但随即他就遭到了田渊栋和LeCun等的质疑。最终,CoT会是通往AGI的正确路径吗?随着OpenAI o1的爆火,最近CoT也成了圈内热议的高频词。靠着CoT的强力加持,o1...……更多
百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,使模型性能迎来惊人提升。自OpenAI的Q*项目曝光后,业内相关讨论始终层出不穷。据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelli...……更多
港中文团队提出大模型元推理范式,革新大模型的评价体系
...一定启示。日前,相关论文以《大型语言模型评价中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)为题发在 arXiv,曾忠燊是第一作者,香港中文大学教授贾佳亚担任通讯作者 [1]。图……更多
昇思MindSpore 2.3全新发布
...级实现脚本、分布式策略,运行时的统一,Baichuan2-13B的推理部署只需1天。在大模型推理上,通过LLMServing实现推理吞吐提升2倍多;升级模型压缩工具金箍棒2.0实现千亿大模型压缩至十倍。 为降低开发门槛,昇思持续升级MindSpore...……更多
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
...ta 提出“可持续思维链”:让大语言模型在连续潜空间中推理GameArena:通过实时电脑游戏评估 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术...……更多
大模型不会推理,为什么也能有思路?有人把原理搞明白了
大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理,在今年 6 月,一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发……更多
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
新智元报道编辑:乔杨【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种...……更多
李飞飞团队“50美元”复现DeepSeek R1?真相是…
...0美元的云计算费用,成功训练出了一个名为s1的人工智能推理模型。该模型在数学和编码能力测试中的表现,据称与OpenAI的O1和DeepSeek的R1等尖端推理模型不相上下。这一消息无疑在AI界投下了一颗重磅炸弹,真相究竟如何?《科...……更多
击败GPT-4o的开源模型如何炼成?关于Llama 3.1 405B都写在论文里
...经远超计算最优的时长。结果表明,这些较小模型在相同推理预算下的表现优于计算最优模型。在后训练阶段,Meta 使用了 405B 的旗舰模型进一步提高了 70B 和 8B 模型这些较小模型的质量。3、为了支持 405B 模型的大规模生产推理...……更多
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...交视觉-语言-动作建模框架RevThink:使用逆向思维增强 LLM 推理想要第一时间获取每日最新大模型热门论文? 点击阅读原文,查看「2024必读大模型论文」合集,以及申请加入「大模型技术分享群」。SwiftEdit:50 倍速文本引导图像...……更多
o1 基石论文火爆传阅:Ilya 仍是关键先生,核心项目清北校友闪光
...后的贡献者。Ilya 在 o1 的作用 OpenAI o1 主打进行通用复杂推理,在输出回答之前,会在产生一个很长的思维链,以此增强模型能力。而 Ilya 此前合著的这篇论文主要就是探讨了提高大语言模型多步推理能力的方法。他们主要比较...……更多
昆仑万维重磅发布天工AI高级搜索功能,做最懂金融投资、科研学术的AI搜索
...AI高级搜索功能,具备四大亮点:·全面升级多层次分析推理能力·升级的金融投资专业AI搜索·升级的科研学术专业AI搜索·针对文档AI阅读分析的智能优化「天工AI高级搜索」不仅能提供精准的结果,更能通过多角度的专业优化,...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研发成本、训练/推理效率和整体性能之间实现最佳...……更多
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...ps://github.com/facebookresearch/LayerSkip研究人员开源了层跳过的推理代码和微调检查点,包括Llama 3、Llama 2和Code Llama,这些模型已经通过层跳过训练方法进行了优化,显著提高了早期层退出的准确性,层跳过的推理实现可以提升1.7倍模.……更多
OpenAI 超强 o1 智商超 120 遥遥领先于其他模型:1 小时写出 NASA 博士 1 年代码,最新编程赛超越 99.8% 选手
...的 agent,是关键的一步。而这篇论文就重点研究了扩展「推理期计算」(inference-time computation)这个问题。研究团队分析了扩展测试时计算的两种主要机制:(1)针对密集的、基于过程的验证器奖励模型进行搜索;(2)根据测...……更多
让大模型能听会说,国内机构开源首个端到端语音对话模型Mini-Omni
...交互能力的核心是模型能够直接在语音模态上进行理解和推理,这与传统的语音对话功能有本质的不同。现有的语音对话系统中主要包含 3 个过程:首先将输入语音内容转换为文本,其次利用大语言模型进行文本推理,最后利用...……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
复刻OpenAI o1推理大模型,开源界传来最新进展:LLaMA版o1项目刚刚发布,来自上海AI Lab团队。简介中明确:使用了蒙特卡洛树搜索,Self-Play强化学习,PPO,以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。在2024年6月,o1发...……更多
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...78%~90%。 检索增强(retrieval-augmented)的语言模型可以在推理时检索并集成外部知识源,从而缓解上述问题。然而,许多此类系统依赖于黑盒API或通用的LLM ,既没有针对文献综合的任务进行优化,也没有搭配适合科研的开放式...……更多
...AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本。研究人员说,过去18个月,这些技...……更多
科学家提出情景学习新范式,让学霸大模型向学弱大模型输送能力
...十亿左右。“做大”,能让大模型具备更强的涌现能力和推理能力,从而适用于难度更高的任务。“做小”,能让大模型获得更优秀的推理能力,从而能被部署到手机、手表、耳机、录音笔等各类小微终端之中。情景学习(ICL,...……更多
国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了
...去,如此自信的原因可能在于最近人们让大模型学会了「推理」的方法。就在 9 月份,OpenAI 正式公开前所未有的复杂推理大模型 o1,这是一个重大突破,新模型既具有通用的能力,也可以解决比此前的科学、代码和数学模型能...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLL……更多
推动大模型自我进化,北理工推出「流星雨计划」
...我进化的方式,解决代码模型在处理复杂问题时缺少中间推理过程。核心观点:自我进化的力量跟随上述自我进化的思想,在 SRA-MCTS(Self-guided MCTS-based data generation for Reasoning Augmentation)方法中,作者无需借助额外的任何监……更多
更多关于科技的资讯:
苹果史诗级大升级!iPhone 17系列关键信息汇总
2025年刚刚开始,今年旗舰手机的爆料消息就已经满天飞,其中最受关注的就是全新的iPhone 17系列了,毕竟近三代的苹果手机改变实在是太小
2025-02-10 07:46:00
三头六臂殷郊法相特效被吐槽 《封神第二部》辟谣找外包公司4500元制作
快科技2月10日消息,《封神第二部:战火西岐》上映后,网友吐槽最多的就是影片特效,槽点最密集的就是殷郊法相,三头六臂蓝色身体的殷郊
2025-02-10 07:46:00
“9”字辈家族再添新成员!深蓝S09首发亮相:超5米豪华6座SUV
快科技2月10日消息,2月9日,深蓝汽车全新中大型豪华SUV——深蓝S09正式发布,这是继该车型在2025年央视春晚亮相后的首次正式发布
2025-02-10 07:47:00
15.19万元起!深蓝S07/L07新增车型上市:搭载华为乾崑智驾
快科技2月10日消息,深蓝汽车宣布深蓝S07深蓝智驾AD PRO版和深蓝S07华为乾崑智驾ADS SE版正式上市。共推出7款车型
2025-02-10 07:47:00
南京数字货运平台企业做法入选“全国典型案例”——全社会物流成本,这样降下来□南京日报/紫金山新闻记者张甜甜周容璇中国物流与采购联合会日前公布首批有效降低全社会物流成本22个典型案例和38个优秀案例
2025-02-10 07:59:00
新春走基层 | 看超强“大脑”算向全国
本文转自:人民网-贵州频道人民网记者 高华“哪吒炼成肉身前,千万个碎片汇集在一起,那画面太震撼了!”“申公豹纵身一跃开启战斗时
2025-02-10 08:11:00
为什么抢购它?2025性价比超高的2款智能手表,用户高度推荐
随着科技的迅猛发展,智能手表已经成为现代生活中不可或缺的伴侣。它们不仅可以显示时间,更是健康监测、通讯、娱乐和生活助手的多功能设备
2025-02-10 10:53:00
小孩哥拿儿童手表认真拍摄小米SU7 Ultra 网友:小米潜在客户已经排到20年后了
快科技2月10日消息,有博主在小米体验店内看到,一名小孩哥透过围栏,用儿童手表认真拍摄小米SU7 Ultra漂亮的碳纤维尾翼
2025-02-10 08:17:00
中国监控摄像头2024年销量超5300万套 小米夺双第一
快科技2月10日消息,今日,研究机构洛图科技发布最新数据显示,2024年,中国监控摄像头消费级市场销量为5349万套,同比微增0
2025-02-10 08:17:00
40多万新车方程豹豹8被小孩引燃 车主又订了一辆:我就喜欢这车
快科技2月10日消息,近日,山东菏泽一网友发视频称,自己刚买不到一个月的新车,被一小孩放烟花引燃。按照这位车主的说法,自己刚买车不要一个月
2025-02-10 08:17:00
“你相信光吗?”随着近些年奥特曼IP风靡海内外,这个网络热梗同时众所周知。相信光的力量究竟有多大?春节假期前,一家成立于2014年的拼搭角色类玩具企业登陆港交所
2025-02-10 08:18:00
大模型赋能迁安钢铁“智变”全市精品钢材比重提高至45%河北日报讯(记者师源、汤润清)电脑“加料”,工人们从“炉前炼钢”变为“一键炼钢”
2025-02-10 08:43:00
刚上市就翻车 黑屏、变砖后!用户称RTX 5090运行中有烧焦味 英伟达虚惊一场
快科技2月10日消息,这RTX 5090才上市没多久,问题已经多到令人无语,什么黑屏、变砖、系统无法识别等....据外媒Tom's Hardware报道称
2025-02-10 09:17:00
男子微信用40万转账表情包套走8000元:官方呼吁警惕任何转账交易
2月10日消息,据国内媒体报道称,近日河南开封发生了一起诈骗案件,受害者牛女士在自家店内遭遇了一男一女两名嫌疑人的诈骗行为
2025-02-10 09:17:00
距全球影史票房榜1还差百亿!《哪吒2》北美区一票难求:海外博主看后强烈推荐
快科技2月10日消息,中国文化开始输出海外,并且越来越受老外的认可。《哪吒2》即将在海外上映,目前北美区真的一票难求(纽约
2025-02-10 09:17:00