• 我的订阅
  • 科技

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

类别:科技 发布时间:2024-06-26 09:19:00 来源:新智元

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

新智元报道

编辑:好困

【新智元导读】近日,一篇出自中国团队之手的AI论文在外网引发热议。论文中,研究团队提出了Q*模型算法,帮助Llama-2-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,使模型性能迎来惊人提升。

自OpenAI的Q*项目曝光后,业内相关讨论始终层出不穷。

据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(英伟达科学家Jim Fan、图灵奖得主Yann LeCun等参与讨论OpenAI的Q*实现方式)

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(Meta科学家田渊栋则认为Q*是Q-learning和A*的结合,且天然地适合推理任务,尤其在数学推理方面)

不过迄今为止OpenAI没有公开关于Q*算法的具体细节,其效果究竟如何我们并不得而知。

然而就在近日,一篇名为《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》的论文在AI圈内引发了不小的震荡。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

论文链接: https://arxiv.org/abs/2406.14283

论文中提出的Q*算法不仅能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,大幅提升了小模型的性能,还显著降低了计算资源的需求。

最值得关注的是,这篇论文竟然出自中国团队之手—— 由颜水成教授团队携手新加坡南洋理工大学团队共同发布!

根据实验结果,Q*成功帮助现有开源模型在GSM8K、MATH和MBPP数据集上取得性能飞跃,评分分别超越了ChatGPT和Gemini Ultra。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(Q*在AI圈内引发热议)

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(外网网友直呼「中国AI赶上来了!」)

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中,研究人员首先将大语言模型的推理轨迹分解为若干个状态。

对于每一个状态,参考DeepCubeA中的设计,通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内,实现了对历史状态收益和未来期望收益的综合考虑。

最后利用A*搜索算法对状态进行最佳优先搜索,实现了对复杂推理任务的全盘规划,从而提升开源模型在推理任务上的性能。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

其中g(s_t)表示当前轨迹中的多个历史状态,既{s1,...,s_t},的聚合收益。

具体g(s_t)的函数形式可以通过人为定义,例如判断当前代码是否符合语法规则等,或者通过构建 Process Reward Model(PRM)进行监督学习得到;g(s_t)中的聚合方式可以为求和,最大值,最小值等。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

为了获得状态-动作对(s_t, a_t)的最优Q值以实现规划,研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型 。

训练过程中的真实标签 可以由三种不同的方式得到,包括离线强化学习,蒙塔卡罗采样估计和利用更强大的语言模型补全。

实验结果表明,颜水成团队本次所提出的Q*框架,可以显著地提升LLM的推理能力:

在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;

在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;

在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率,缩小了与GPT-4的编程水平差距。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

研究证明,Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力,大幅提升模型的性能,并显著降低了计算资源的需求。

颜水成团队表示,目前,Q*的研究尚在初级阶段,算法在各个环节还有进一步的改进空间。未来,团队会继续深入此项研究,不断提升国产开源模型推理能力,打破OpenAI闭源封锁,为人工智能前沿技术发展带来全新可能。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-26 13:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

昆仑万维上半年收入25亿,AI应用加速落地,商业化成果显著
...一步推动生态建设。公司与新加坡国立大学、新加坡南洋理工大学团队联合发布了Vitron通用像素级视觉多模态大语言模型
2024-08-23 21:16:00
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
...院士、欧洲科学院外籍院士、IEEE Fellow陶大程,现任南洋理工大学杰出教授;新加坡工程院院士、IEEE Fellow文勇刚
2024-10-26 09:48:00
ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型
....com;zhaoyunfeng@jiqizhixin.com该论文作者均来自于新加坡南洋理工大学 S-Lab 团队
2024-08-13 09:36:00
新加坡AI困局:靠山,狭窄空间与Web3泡沫
...道德框架。同时,文勇刚教授(新加坡工程院院士、南洋理工大学计算机科学与工程学院教授,研究主要集中在大规模分布式计算机系统的研发和相关核心技术的创新)告诉虎嗅,新加坡能源较为匮
2024-07-01 09:16:00
传音与新加坡南洋理工大学达成战略合作
...12日消息,传音旗下科技品牌TECNO今日宣布与新加坡南洋理工大学亚洲传播研究中心(AsianCommunicationResearchCentre
2024-06-13 11:14:00
专访新加坡南洋理工大学校长何德华:新中教育合作大有可为,南大多措并举建设知识枢纽
...rClose新华网新加坡9月12日电(方瑄)日前,在新加坡南洋理工大学(以下简称“南大”)第十五届中国毕业典礼期间,校长何德华接受了新华网专访,围绕新中教育交流合作、教育可持
2023-09-12 17:28:00
...)撤回一篇虚构作者的研究论文。因捏造一名新加坡南洋理工大学研究人员作为署名作者,江南大学环境与土木工程学院8篇论文被撤回
2023-07-04 14:33:00
科学家阐释纯量子AI算法理论,或极大提升生化及图文领域模型性能
...。”针对自己和武汉大学团队合作的新成果,新加坡南洋理工大学杜宇轩博士表示。图 | 杜宇轩(来源:杜宇轩) 论文中,他和武汉大学罗勇教授课题组描述了预测误差和纠缠程度,所涉及
2024-06-14 09:55:00
...李志贤、黄贤强、钱继伟、周陶沫、黄彦杰等教授,南洋理工大学华裔馆助理馆长张慧梅博士,及NUS、NTU数十位研究生、博士后等出席会议。新加坡前国会议员成汉通先生也出席了会议,并
2025-04-07 12:01:00
更多关于科技的资讯:
人工智能不仅能分析人脸情绪,还能读取脑电波信号,为人定制香氛;恐龙变为AI数字虚拟形象,成为人们的“萌宠”——这不是科幻电影
2025-09-30 08:09:00
从线上学习到山水修行:简知文旅×简橙教育共同打造银发文旅的深度与温度
近日,长江三峡见证了一场别开生面的银发游学盛事。"三峡简橙号·年度盛典"游学项目在历时七天的精彩行程后圆满落下帷幕。该项目由简知科技旗下两大知名品牌"简知文旅"与"简橙教育"联合策划执行
2025-09-30 08:17:00
聊城智汇 链接全球丨锚定国际市场,力得汽车科技加速布局海外
齐鲁晚报·齐鲁壹点 国晓宁 崔宇晴走进山东力得汽车科技股份有限公司的生产车间,机器轰鸣声不绝于耳,一条条先进的生产线正有序运转
2025-09-30 09:20:00
国庆黄金周变身“家电焕新周”,三联家电门店人气爆棚
随着国庆与中秋双节同庆的长假来临,消费市场迎来了一年之中最炙手可热的“黄金销售季”。与以往不同的是,这个假期在旅游、探亲等传统主题之外
2025-09-30 09:22:00
壹点观察 | 蔚来城商业广场十一开业,德州商业格局再迎新变化
在商业竞争日益激烈的今天,一座全新的商业综合体——蔚来城商业广场,即将于十一正式开门迎客。它的到来,为德州商业市场增添了新的变化
2025-09-30 09:24:00
鲁网9月29日讯(记者 杨勇)秋分时节,聊城市莘县升鑫金属制品有限公司的生产车间内,员工工作紧张有序,各种机器设备高效运转
2025-09-30 10:04:00
Aritco与Dezeen联合举办设计论坛 共探\
苏州2024年9月16日 -- 近日,瑞典家用电梯品牌Aritco瑞特科与全球知名设计媒体Dezeen设志在苏州联合举办了一场主题为"摒弃风格
2025-09-30 10:18:00
小微企业在传统银行承兑汇票(简称“银承”)业务办理中常常面临诸多难题。企业需要多次往返银行网点,提交大量纸质材料,流程烦琐
2025-09-30 10:45:00
中国数据研究中心:中之杰荣膺月饼行业智造先锋奖榜首
9月28日,中国数据研究中心正式发布《2025中国月饼行业白皮书》及“2025中国月饼行业智造先锋奖”十强品牌榜单,吉林中之杰食品科技发展有限公司凭借其位于长春的智能新厂
2025-09-30 11:15:00
鲁网9月30日讯近日,省科技厅公布了2025年度科技型中小企业创新能力提升工程(先投后股类)项目名单,全市共4家企业入选
2025-09-30 11:16:00
浪潮海晏荣获2025年“数据要素×”大赛山东分赛决赛三等奖
近日,由国家数据局、山东省人民政府联合指导,山东省大数据局等21家单位联合主办的2025年“数据要素×”大赛山东分赛决赛获奖名单正式公布
2025-09-30 11:21:00
据人民日报报道,近期国家网信办指导多地网信部门,对微博、快手、小红书、今日头条等多家平台进行约谈,责令限期整改热搜热榜存在的问题
2025-09-30 12:33:00
朱琳:品牌要让Z世代体验“设计师”般的快感
齐鲁晚报·齐鲁壹点 记者 牟静萍 实习生 葛同同 当下,Z世代正在以其独特的消费观念、多元的兴趣取向和对精神体验的重视
2025-09-30 12:46:00
大皖新闻讯 算力作为数字经济时代的核心生产力,已成为城市竞争的关键赛道。“十四五”期间,芜湖紧抓“东数西算”国家战略机遇
2025-09-30 13:57:00
把握国庆中秋消费节点,三联家电双节大促开启家庭焕新计划
鲁网9月30日讯国庆中秋长假,历来是家庭消费,特别是家电消费的黄金周期。许多家庭会选择在此期间,集中完成筹划已久的家电焕新计划
2025-09-30 14:55:00