• 我的订阅
  • 科技

罗格斯大学团队提出思想链概念,提高大模型的算数推理能力

类别:科技 发布时间:2024-03-15 10:41:00 来源:DeepTech深科技

日前,美国罗格斯大学博士生金明宇和所在团队,通过引入思想链(CoT,Chain of Thought)的概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等。

罗格斯大学团队提出思想链概念,提高大模型的算数推理能力

图 | 金明宇(来源:金明宇)

CoT 的原理是通过提供推理过程的示例,来教会模型处理推理,详细说明导致最终答案的每个步骤。这种提示方法能够有效地教会模型不要匆忙完成推理过程,而是逐步地解决问题。

这符合人类自然解决问题的方式,也就是将复杂的任务分解为更简单、更易于管理的步骤。

与直接将输入映射到输出的指令跟踪模型不同,CoT 将中间推理步骤合并到导致最终输出的提示中。这种方法在涉及常识、算术和符号推理的任务中表现出显著的性能改进。

CoT 通过将复杂的推理分解为逐步的过程来促进工作流程,从而帮助模型按顺序解决问题的每个部分,而这对于需要深思熟虑的推理任务是至关重要的。

研究发现,CoT 提示对于较大的模型特别有效,当模型参数达到至少 100 亿时,性能开始显著提高,在 1000 亿参数时能观察到最明显的好处。

但是,较小的模型似乎没有从 CoT 中获益那么多,通常会产生流畅但不合逻辑的推理链,从而导致错误的结果。

研究中,课题组还发现了大模型推理能力和推理步骤数量有着绝对的线性关系,在示范里推理步骤越多,最后模型做推理题或者逻辑题的正确率越高。

这一能力可以解决一些问题,比如大家设计 prompt 的时候不会注意到步骤的问题,而本次方法可以让大家更加规范地设计 prompt,从而提高大模型推理步骤。

CoT 的工作原理是将复杂的推理任务分解为更小、更易于管理的步骤,即模仿人类解决问题的方式。

这种循序渐进的过程,对于需要详细和细致理解的任务特别有益,例如算术推理、常识推理和符号推理。

它鼓励模型不仅要得出答案,而且要展示得出该结论所采取的路径,从而提供决策过程的透明度。

此外,模型的推理能力与 CoT 示例中提供的推理步骤数之间的线性关系是一个至关重要的发现。

这种关系表明,随着提示中推理步骤数量的增加,模型在推理或逻辑任务中的准确性也会增加。

这会给提示的设计方式带来一定影响,也表明更加结构化和更加逐步的方法,可以提高法学硕士在复杂推理中的表现。

不过,CoT 的应用并非没有挑战。虽然它在任务性能方面提供了相当大的改进,但它需要仔细的平衡。另外,使用太多步骤重载模型可能会导致模型混乱或导致收益递减。

同时,CoT 的有效性还部分取决于所提供示例的质量。推理步骤越清晰、越符合逻辑,模型就能更好地学习并将这种推理应用于新问题。

而这不仅有助于更准确地解决问题,还有助于以人类可以理解的方式解释模型的推理。

研究中,该团队还发现增加推理步骤的数量,可以线性提高性能。这一发现解决了该领域之前的一个问题:缺乏提示设计的标准化方法。

借助 CoT,人们现在拥有了一个框架来创建更有效的提示,从而可以完成复杂的推理任务。

而这种增强解数学题的能力,能帮助用户更好地解数学题。此外,CoT 还可以通过搜索引擎理解和处理多步骤查询,来增强搜索引擎的功能,这样一来不仅能为用户提供答案,还能为用户提供这些答案背后的推理。

日前,相关论文以《推理步长对大型语言模型的影响》(The Impact of Reasoning Step Length on Large Language Models)为题发在 arXiv[1],金明宇是第一作者,美国新泽西理工学院 Du Mengnan 教授担任通讯作者。

罗格斯大学团队提出思想链概念,提高大模型的算数推理能力

图 | 相关论文(来源:arXiv)

金明宇表示:“但是我们需要搞清楚 cot 的一些基本性质,以便确认是否能够帮助他人的研究。目前我们关于 cot 研究还不太成体系,我们觉得应该多给出一些基础的见解。”

未来,课题组准备针对这个问题研究大模型的内部,即分析 LLM 推理的长推理步骤和短推理步骤、以及大模型内部的神经元过程。

他们的终极目标是:希望可以确定较长的推理步骤是否与更广泛的神经元参与相关。因此,他们打算使用可视化技术来分析长推理和短推理之间的激活模式。

参考资料:

1.https://arxiv.org/abs/2401.04925

运营/排版:何晨龙

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-15 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...间4月15日报道,美国新泽西州州长菲尔·墨菲当日宣布,罗格斯大学与其教职员工已经达成协议,罗格斯大学将向其教职员工提供公平的工资、福利和工作条件。这项协议的达成结束了该校为期
2023-04-17 09:23:00
零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR
...布更新。为了解决上述问题,来自UNC ,芝加哥大学,UMD和罗格斯大学的研究团队提出了Calibrated Self-Rewarding(CSR)
2024-06-21 09:21:00
哈登二代!天赋完爆布朗尼!NBA顶级星二代
...-哈珀出生于2006年3月2日,身高1米98,臂展2米08。哈珀是罗格斯大学的大一新生,截至目前,本赛季打了16场
2025-01-15 11:53:00
欧洲“超级高铁”技术试车成功,目标时速 700 公里 / 小时
...士对此持怀疑态度。当超级高铁测试设施于 3 月启用时,罗格斯大学布劳斯坦规划与公共政策学院的杰出教授罗伯特・诺兰告诉美联社,建设必要的基础设施成本太高,称其为“政策制定者追逐
2024-09-11 09:27:00
TA专家谈选秀:雄鹿或成抽签爆冷的赢家 9-15顺位是控卫死亡区间
...第二名。多数球探认为他甚至能独占第二档,明显领先于罗格斯大学队友埃斯-贝利、贝勒大学后卫VJ-埃奇库姆、杜克锋线孔-克尼佩尔以及德克萨斯大学侧翼特雷-约翰逊。不过,迪伦-哈珀
2025-05-22 19:48:00
评2025届五大新秀 弗拉格是状元秀热门吗?
...。艾瑞欧斯-“Ace”-拜利(Airious ‘Ace’ Bailey),SG/SF,罗格斯大学成为状元秀概率:25%就在球场上取得的成就相比
2024-10-05 11:52:00
任泽平的富勒烯还能治帕金森病?首先你得是只小老鼠
...以论证。2022年7月,美国微生物科学院院士、新泽西州立罗格斯大学讲席教授赵立平在接受《知识分子》采访时表示,理论上,肠道菌群作为一个整体的生态系统,其结构被破坏以后可以引起
2023-08-18 17:30:00
...研究》由郁建兴教授领衔撰写,作者团队分别任教于美国罗格斯大学纽瓦克分校、浙江工商大学、浙江大学和华东政法大学等教育科研机构。该书是郁建兴及其团队10年追踪历程的缩影,是对桐乡
2024-02-20 16:21:00
...生命的行星科技日报北京3月14日电 (记者张梦然)美国罗格斯大学的一个致力于探明新陈代谢原始起源的科学家团队,已确定了一种关键蛋白质,其参与为地球原始生命提供动力的核心化学反
2023-03-15 02:46:00
更多关于科技的资讯:
赵光辉 沈佳奇:“投物”与“投人”并重
一方面,将资金资源投向人力资本质量的提升,增强“投资于人”的投资比重,确保投资既要见“物”更要见“人”。要以提高人的综合素质为重点
2025-09-05 22:29:00
AI竞技场,河南加速度!
大河网讯 在2025世界人形机器人运动会上,“行者二号”在1500米项目中勇夺小组第一;内乡县牧原肉食产业综合体通过24小时巡检机器人与AI算法
2025-09-05 19:46:00
河北新闻网讯(王杨、曹莹莹)河钢集团张宣科技聚焦“近零碳排”冶炼全流程,通过持续优化生产工艺,充分释放设备效能。近日,该公司成功开发的高品质汽车用材料
2025-09-05 18:00:00
Baseus倍思强强联合Bose发布三大年度旗舰新品,高端专业音频迈入全民化时代
2025 年 9 月 5 日 14:00,全球新生活移动数码品牌 Baseus倍思举办线上新品发布会, 正式发布其年度旗舰音频新品——倍思 Inspire系列
2025-09-05 18:31:00
引领健康储鲜,澳柯玛风冷变频冷柜斩获“云鼎奖”
鲁网9月5日讯近日,奥维云网2025数字生态大会在杭州闭幕。作为家电行业极具影响力的年度盛会,现场汇聚了众多家电领军品牌
2025-09-05 13:38:00
周黑鸭携四大产品线矩阵破局全场景消费,构建卤味行业新范式
齐鲁晚报·齐鲁壹点 记者 张召旭在近期举办的行业展会上,周黑鸭凭借前瞻性战略布局引发行业广泛关注——品牌首次系统推出针对多元消费需求与渠道特性开发的四大产品线
2025-09-05 11:00:00
当“保温杯里泡枸杞”从段子变成日常,当“中药房下午茶”取代美式咖啡成为年轻人新宠,老字号品牌们逐渐发现:年轻人不是在买一杯饮料
2025-09-05 11:02:00
本报记者 魏 静 □ 忽 艳在国内鼓励创新、倡导在世界舞台展示中国实力产品与个人实力的大环境下,越来越多中国品牌凭借创新精神与卓越品质
2025-09-05 11:02:00
近日,阳光人寿秦皇岛中支在益寿园开展“银发课堂”特色活动,为老年群体送上内容丰富的金融知识。活动现场,工作人员通过生动的案例
2025-09-05 09:36:00
36氪首发|掘金“微醺”社交经济,精酿品牌「TAGSIU」获近千万 Pre-A 轮融资
作者 | 李小霞36 氪获悉,精酿品牌「TAGSIU 醍宿酿造」(下称“TAGSIU”)已完成近千万 Pre-A轮融资
2025-09-04 22:09:00
从形态突破到生态跃迁:华为三折叠的「鸿蒙时刻」
三折叠这个赛道,或许只有华为能够超越华为。华为Mate XT 非凡大师发布一年之后,三折叠这片“无人区”,仍然只有华为的身影
2025-09-05 00:13:00
大众网记者 张田夏荫 实习记者 张智尧 报道海信集团总裁、海信视像科技股份有限公司董事长于芝涛正式以大赛形象大使与推介大使的身份
2025-09-04 10:04:00
第26届GOPS全球运维大会落幕,AI Infra赋能运维转型
2025年6月28日,为期两天的第26届GOPS全球运维大会暨研运数智化技术峰会在北京市圆满落幕。作为国内首个运维行业盛会
2025-09-04 11:33:00
三联家电“伙拼9.12”权益全解析!三重补贴省心省钱嗨购金秋
鲁网9月4日讯金秋家装季撞上三联家电第十一季“伙拼9.12”大型内购福利会!这场被万千家庭期待的消费盛宴即将引爆全城!多重补贴
2025-09-04 11:33:00
灵动集团旗下欢米粒心理:新学期,为青少年心理护航——以专业体系构建成长防护网
在青少年心理健康服务需求进入 “刚性增长期” 的当下,资质与专业双轮驱动成为行业发展的核心支撑。灵动生活集团作为《互联网心理服务・心理测评服务通用规范》国家标准制定委员单位
2025-09-04 11:55:00