• 我的订阅
  • 头条热搜
o1带火的CoT到底行不行?新论文引发了论战
To CoT or not to CoT?OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链(CoT)的兴趣。一时之间,似乎思维链很快就会成为所有 LLM 的标配,但思维链并非万能,就连 OpenAI 自己也提到 o1 在某些任务上的表现并不比 GPT-4o 强...……更多
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
苹果新论文:AI 大模型可能不会推理。AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。这篇题为「GSM-Symb...……更多
谷歌最新自然语言推理算法
谷歌发布全新反向推理算法LAMBADA,无惧搜索空间爆炸!自动推理绝对算是自然语言处理领域的一大难题,模型需要根据给定的前提和知识推导出有效且正确的结论。尽管近年来NLP领域借着大规模预训练语言模型在各种「自然语...……更多
2022生成模型进展有多快,新论文盘点9类生成模型代表作
ChatGPT的出现,彻底将生成AI推向爆发。但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——图像、视频、代码、3D模型、音频、文本、科学知识……尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta...……更多
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...异,近来Anthropic公司最新发布的Claude-3.5-Sonnet因在知识型推理、数学推理、编程任务及视觉推理等任务上设立新行业基准而引发广泛讨论:Claude-3.5-Sonnet 已经取代OpenAI的GPT4o成为世界上”最聪明的AI“(Most Intelligent AI)了……更多
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。图 | 金明宇(来源:金明宇)CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最...……更多
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...地,也一定要对时间、数字和逻辑敏感,无论让它做多跳推理,还是逻辑规则数字计算,而这些恰好是大语言模型所不擅长的,包括前一段时间热议的 9.9 和 9.12 比大小的例子。基于此,我们认为在垂直领域落地的时候,大语言...……更多
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。尽管……更多
LLM群体智能崛起,数学性能暴增11.6%!谷歌DeepMind四大机构联手新作
...的文本,则展示了娴熟而准确的技能应用。表6呈现了,新论文所提出的方法,在4个案例中实现了最高准确率。总之,作者提出一个LLM提取元认知知识框架,其形式是根据解决问题所需的概念,对数学数据集中的问题进行分类的...……更多
谷歌大模型推理范式,主要分为两个阶段
...新研究“自我发现”(Self-Discover),重新定义了大模型推理范式。与已成行业标准的思维链(CoT)相比,新方法不仅让模型在面对复杂任务时表现更佳,还把同等效果下的推理成本压缩至1/40。核心策略其实很简单:千人千面。...……更多
让AI管理大型代码库,开发者福音 | 阿里/新加坡国立/西安交大
...。原论⽂的分析进⼀步指出,CodexGraph在处理不同难度的推理任务时,单⼀查询与多重查询策略的效果存在差异。在CrossCodeEval中,多重查询策略更有效;⽽在SWE- bench中,单⼀查询策略表现更佳。此外 ,去除Cypher LM agent会显著增...……更多
CPU,正在被AI时代抛弃?
...以通过语音识别技术被录入到病例系统中,随后大模型AI推理技术辅助进行智能总结和诊断,医生们撰写病例的效率显著提高。AI推理的应用不仅节省了时间,也保护了患者隐私;在法院、律所等业务场景中,律师通过大模型对...……更多
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner
【新智元导读】TS-Reasoner是一个创新的多步推理框架,结合了大型语言模型的上下文学习和推理能力,通过程序化多步推理、模块化设计、自定义模块生成和多领域数据集评估,有效提高了复杂时间序列任务的推理能力和准确性...……更多
智谱AI CEO张鹏:大模型更聪明了 开发者门槛降低
...百页的上下文窗口长度,具备更强的多模态能力,更快的推理以及更高并发,还大大降低了推理成本。 “一直以来,普通用户甚至是开发者,需要用像魔法咒语一样的提示词,或者机器才能解读执行的代码,来调用大模型的各...……更多
大模型是否有推理能力?DeepMind数月前的论文让AI社区吵起来了
...《给小学数学题加句「废话」,OpenAI o1 就翻车了,苹果新论文质疑 AI 推理能力》)。这种现象被归结为「当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤」。然而,事实真的是这样吗...……更多
阿里云全面升级GPU云服务:AI大模型推理性能可提升100%
...云推出全面升级的GPU云服务,通过全新优化GPU套件,多GPU推理服务性能可最大提升100%。针对调用GPU算力最常用的容器技术,阿里云推出ACK云原生AI套件,帮助开发者及企业更高效地开发和部署AI应用,加速大模型应用落地。随着A...……更多
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...中的表现,研究者们提出了各种提示策略来提升大模型的推理和规划能力,比如思维链、思维树和思维图谱。这些进步与工具集成一起,推动着通用 AI 智能体的发展,让它们现在已经能够用 LLM 输出的决策策略来解决序列决策问...……更多
...具调用、代码执行、游戏、数据库操作、知识图谱搜索与推理、操作系统等复杂场景。以代码功能为例,它既可以让代码“小白”也具备技术能力、为女友写一段能呈现爱心图样的代码,也可以成为程序员的帮手,让它帮助生成...……更多
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...例如,OCRBench)的性能,但与低分辨率版本模型相比,在推理相关任务(例如,MMMU)上的准确率却会下降。此外,虽然开源的多模态大模型在视觉-语言任务上取得了非常亮眼的基准测试结果,但在纯文本任务上的性能却有显著...……更多
免训练大模型知识编辑,吸收新数据更高效|EMNLP\'24
...的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。之前的工作...……更多
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
...语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡。对于许多学者和开发人员来说,高性能的 LM 是无法访问的,因为它们的构建和部署成本过高。改善成本 - 性能的一种方法是使...……更多
思维链让大模型推理更准确?谷歌早于OpenAI押中o1模型核心原理
...本质的不同。其不仅进入到复杂的领域,还表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果,二者差异显著,其中,前者正确解决问题的准确率是 13.4%,而 o1 的准确率...……更多
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...码仓库 Trending Research 第一位。为了赋予机器人端到端的推理和操纵能力,本文创新性地将视觉编码器与高效的状态空间语言模型集成,构建了全新的 RoboMamba 多模态大模型,使其具备视觉常识任务和机器人相关任务的推理能力,...……更多
“技术故障”背刺巴菲特,金融大模型到底靠不靠谱?
...市场瞬息万变,需要实时数据处理和决策支持,大模型的推理涉及到大量的矩阵乘法计算,对硬件的矩阵乘法计算能力提出较高要求,计算复杂性可能导致响应时间延迟,不利于实时应用。加之大模型训练和推理过程需要大量的...……更多
Sam Altman或筹数十亿美元自造AI芯片,DeepMind首席科学家或将辞职创业
...比的G42和软银集团。2.能力达到奥数金牌级,DeepMind几何推理模型登上Nature,这个叫AlphaGeometry的模型在国际数学奥林匹克(IMO)的30道几何题中做出了25道,这一成就标志着AI在数学领域推理能力的史诗级升级。3.DeepMind首席科学家...……更多
无一大模型及格! 北大/通研院提出超难基准,评估长文本理解生成
...的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。而像开源模型表现就更不理想了…ChatGLM2-6B、LongLL……更多
构建数字经济新引擎:枫清科技 高雪峰解读AI技术的未来趋势
...地过程中也暴露出一系列问题,如大模型“幻觉”现象、推理能力不足、解释性差等。这些问题导致很多企业面临大模型“好玩不好用”的困境。如何真正推动大模型技术在企业场景中的深度应用,成为当前AI产业发展的重要课...……更多
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...支持128k上下文长度。Phi-3.5-mini-instruct主要面向基础快速推理任务,Phi-3.5-MoE-instruct可胜任复杂推理任务,Phi-3.5-vision-instruct则兼具文本与视觉能力。性能最强大的Phi-3.5-MoE-instruct模型有419亿个参数,……更多
百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法
...-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,使模型性能迎来惊人提升。自OpenAI的Q*项目曝光后,业内相关讨论始终层出不穷。据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelli...……更多
大模型新趋势之MoE:现状、挑战及研究方向
...,MoE在训练过程通过门控模型实现“因材施教”,进而在推理过程实现专家模型之间的“博采众长”。 图1MoE架构原理示意图1MoE的特征优势是专家化、动态化、稀疏化,在模型研发成本、训练/推理效率和整体性能之间实现最佳...……更多
更多关于科技的资讯:
在数字经济浪潮奔涌、国企改革持续深化的时代背景下,绵阳安鼎元作为四川安州发展集团旗下专业的国有资产管理平台,勇立潮头,以深刻的变革意识和前瞻的战略视野
2025-11-27 10:07:00
厦门网讯(厦门日报记者 沈彦彦 王元晖)“政策一出台,咨询电话就没停过!”厦门厦旅国际旅行社有限公司湖滨东营业部负责人谢晓燕放下手中的咨询电话
2025-11-27 08:12:00
“脑”力全开!江西抢滩脑机接口新蓝海
当好莱坞经典电影《盗梦空间》描绘的人类通过脑机接口潜入他人意识的场景,从科幻照进现实,一场关乎未来产业格局的竞赛已悄然启幕
2025-11-27 07:13:00
专利技术遭盗用,创新成果被侵犯,专利权人该如何维权?11月24日,市知识产权纠纷调委会通过一起实用新型专利侵权的调解案例释法
2025-11-26 08:11:00
感恩节“心”守护:灵动生活集团全链条心理服务破局,让3000万用户听见温暖的回响
当感恩节的暖意在街头巷尾流转,“守护”与“感恩”成为叩击人心的关键词。在心理健康已从“小众需求”转变为“全民刚需”的今天
2025-11-26 08:35:00
省发展改革委近日批复了山西省教育科技人才一体化服务产业云平台项目可行性研究报告,建设地址位于中北大学校内。作为山西聚焦“产学研用深度融合”的关键信息化基建项目
2025-11-26 08:41:00
为推动智能建造落地应用,搭建行业交流平台,近日,“晋塔”智能装备观摩活动在太原市多个施工项目同步启动。“晋塔”智能施工升降机
2025-11-26 08:42:00
经济热力站|绿色转型为基 金融创新为翼 科技赋能为核——助推首都经济高质量发展再上新台阶
11月19日,“京彩不设限・经济热力站”月度主题走访活动再度启程,记者跟随采访团先后走进北京绿色交易所、中国邮政储蓄银行北京分行及北京银行顺义科技研发中心
2025-11-26 10:06:00
赞皇县:AI赋能“一网通办” 业务办理效率提升70%
河北新闻网讯(次柳静)近日,石家庄市赞皇县数据和政务服务局依托DeepSeek大模型与智能算法,创新打造AI“智能填报”平台
2025-11-26 10:07:00
河北师范大学金融学院举行“产品经理人才共创培养体系”主题培训
河北新闻网讯 近日,河北师范大学金融学院邀请北京来学吧信息技术有限公司相关负责人到校,开展了主题为“产品经理人才共创培养体系”主题培训
2025-11-26 10:09:00
南京生物医药:研发“拔节孕穗”,产业新星闪耀
第91届全国药交会在宁落幕南京生物医药:研发“拔节孕穗”,产业新星闪耀□南京日报/紫金山新闻记者张甜甜连续3天,南京国际博览中心人流如织
2025-11-26 10:26:00
2025年两院院士增选结果揭晓 南京地区7人入选 在宁院士总数达102人
南报网讯(记者何洁张安琪)11月21日,2025年两院院士增选结果正式揭晓,选举产生中国科学院院士73人、中国工程院院士71人
2025-11-26 10:27:00
隐风文化:锚定四大理念,以精品力穿越短剧周期
由北京隐风文化科技有限公司出品的奇幻爱情短剧《岁岁怀安》延续预约150万的热度,上线后迅速跃居红果站内热播榜高位,这也是今年团队继《咬清梨》《怎敌她动人》之后
2025-11-26 11:06:00
视源股份荣获2024年度广东省科技进步一等奖
2025年11月20日,广东省人民政府正式发布《2024年度广东省科学技术奖通报》(粤府〔2025〕50号)。视源股份牵头完成的“高自然度智能交互显示终端关键技术及产业化”项目
2025-11-26 11:06:00
视源股份成为英特尔首批尊享级合作伙伴 合作再升级
近日,英特尔合作伙伴联盟完成战略升级,联盟最高等级“钛金级”正式更迭为“尊享级”。视源股份凭借其在计算机领域的深厚积累
2025-11-26 11:06:00