• 我的订阅
  • 科技

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

类别:科技 发布时间:2024-06-26 09:19:00 来源:新智元

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

新智元报道

编辑:好困

【新智元导读】近日,一篇出自中国团队之手的AI论文在外网引发热议。论文中,研究团队提出了Q*模型算法,帮助Llama-2-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,使模型性能迎来惊人提升。

自OpenAI的Q*项目曝光后,业内相关讨论始终层出不穷。

据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(英伟达科学家Jim Fan、图灵奖得主Yann LeCun等参与讨论OpenAI的Q*实现方式)

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(Meta科学家田渊栋则认为Q*是Q-learning和A*的结合,且天然地适合推理任务,尤其在数学推理方面)

不过迄今为止OpenAI没有公开关于Q*算法的具体细节,其效果究竟如何我们并不得而知。

然而就在近日,一篇名为《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》的论文在AI圈内引发了不小的震荡。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

论文链接: https://arxiv.org/abs/2406.14283

论文中提出的Q*算法不仅能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,大幅提升了小模型的性能,还显著降低了计算资源的需求。

最值得关注的是,这篇论文竟然出自中国团队之手—— 由颜水成教授团队携手新加坡南洋理工大学团队共同发布!

根据实验结果,Q*成功帮助现有开源模型在GSM8K、MATH和MBPP数据集上取得性能飞跃,评分分别超越了ChatGPT和Gemini Ultra。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(Q*在AI圈内引发热议)

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(外网网友直呼「中国AI赶上来了!」)

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中,研究人员首先将大语言模型的推理轨迹分解为若干个状态。

对于每一个状态,参考DeepCubeA中的设计,通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内,实现了对历史状态收益和未来期望收益的综合考虑。

最后利用A*搜索算法对状态进行最佳优先搜索,实现了对复杂推理任务的全盘规划,从而提升开源模型在推理任务上的性能。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

其中g(s_t)表示当前轨迹中的多个历史状态,既{s1,...,s_t},的聚合收益。

具体g(s_t)的函数形式可以通过人为定义,例如判断当前代码是否符合语法规则等,或者通过构建 Process Reward Model(PRM)进行监督学习得到;g(s_t)中的聚合方式可以为求和,最大值,最小值等。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

为了获得状态-动作对(s_t, a_t)的最优Q值以实现规划,研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型 。

训练过程中的真实标签 可以由三种不同的方式得到,包括离线强化学习,蒙塔卡罗采样估计和利用更强大的语言模型补全。

实验结果表明,颜水成团队本次所提出的Q*框架,可以显著地提升LLM的推理能力:

在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;

在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;

在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率,缩小了与GPT-4的编程水平差距。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

研究证明,Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力,大幅提升模型的性能,并显著降低了计算资源的需求。

颜水成团队表示,目前,Q*的研究尚在初级阶段,算法在各个环节还有进一步的改进空间。未来,团队会继续深入此项研究,不断提升国产开源模型推理能力,打破OpenAI闭源封锁,为人工智能前沿技术发展带来全新可能。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-26 13:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

昆仑万维上半年收入25亿,AI应用加速落地,商业化成果显著
...一步推动生态建设。公司与新加坡国立大学、新加坡南洋理工大学团队联合发布了Vitron通用像素级视觉多模态大语言模型
2024-08-23 21:16:00
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
...院士、欧洲科学院外籍院士、IEEE Fellow陶大程,现任南洋理工大学杰出教授;新加坡工程院院士、IEEE Fellow文勇刚
2024-10-26 09:48:00
ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型
....com;zhaoyunfeng@jiqizhixin.com该论文作者均来自于新加坡南洋理工大学 S-Lab 团队
2024-08-13 09:36:00
新加坡AI困局:靠山,狭窄空间与Web3泡沫
...道德框架。同时,文勇刚教授(新加坡工程院院士、南洋理工大学计算机科学与工程学院教授,研究主要集中在大规模分布式计算机系统的研发和相关核心技术的创新)告诉虎嗅,新加坡能源较为匮
2024-07-01 09:16:00
传音与新加坡南洋理工大学达成战略合作
...12日消息,传音旗下科技品牌TECNO今日宣布与新加坡南洋理工大学亚洲传播研究中心(AsianCommunicationResearchCentre
2024-06-13 11:14:00
专访新加坡南洋理工大学校长何德华:新中教育合作大有可为,南大多措并举建设知识枢纽
...rClose新华网新加坡9月12日电(方瑄)日前,在新加坡南洋理工大学(以下简称“南大”)第十五届中国毕业典礼期间,校长何德华接受了新华网专访,围绕新中教育交流合作、教育可持
2023-09-12 17:28:00
...)撤回一篇虚构作者的研究论文。因捏造一名新加坡南洋理工大学研究人员作为署名作者,江南大学环境与土木工程学院8篇论文被撤回
2023-07-04 14:33:00
科学家阐释纯量子AI算法理论,或极大提升生化及图文领域模型性能
...。”针对自己和武汉大学团队合作的新成果,新加坡南洋理工大学杜宇轩博士表示。图 | 杜宇轩(来源:杜宇轩) 论文中,他和武汉大学罗勇教授课题组描述了预测误差和纠缠程度,所涉及
2024-06-14 09:55:00
...李志贤、黄贤强、钱继伟、周陶沫、黄彦杰等教授,南洋理工大学华裔馆助理馆长张慧梅博士,及NUS、NTU数十位研究生、博士后等出席会议。新加坡前国会议员成汉通先生也出席了会议,并
2025-04-07 12:01:00
更多关于科技的资讯:
元旦小长假,佳节团圆之时,亦是通信保障的关键时期,太原移动全方位筑牢节日通信防线,用满格的信号、畅通的网络,送上最真挚的新年祝福
2026-01-03 07:34:00
河北新闻网讯(王杨、王雪威)近日,河钢集团张宣科技生产的2万吨绿色汽车板材料下线,经检验,产品各项性能指标均满足订单标准
2026-01-02 22:20:00
鲁南眼科自有品牌「鲁南博视」光学镜片发布会暨成人验光配镜门诊一周年成功举办
鲁网1月1日讯2025年12月31日,鲁南眼科医院成功举办自有品牌「鲁南博视」光学镜片发布会暨成人验光配镜门诊一周年庆典
2026-01-02 16:41:00
新年第一天 燕赵沐朝晖|“雄安一号”星 测试太阳翼
编者按岁序更替,华章日新。2026年是“十五五”开局之年。锐始者必图其终,成功者先计于始。新年第一天,燕赵大地欣欣向荣
2026-01-02 07:05:00
注意缺陷与多动障碍 这个疾病越来越常见 都说长大就好了 为何缠上成人?
2025年12月31日凌晨,罗永浩在微博发文回应“科技春晚”发布会迟到40分钟事件,首次公开坦承自己受注意缺陷与多动障碍(ADHD)困扰多年
2026-01-02 08:06:00
近日,湘湖首部AI动画《湘湖漫游记》第五集上线,该系列作品正式收官。本片不仅是杭州湘湖(白马湖)研究院在“文化+科技”融合上的一次重要突破
2026-01-02 06:35:00
在杭州湖滨银泰in77的B区、D区之间,复古的国王十字车站、9站台出现在现场,仿佛下一秒就有巫师推着行李箱穿墙而过;一辆编号5972的霍格沃茨特快列车静静停靠在街区中央
2026-01-02 06:35:00
2025年度票房破518亿元 动画电影成亮点 安徽全国排名第十
大皖新闻讯 国家电影局2026年1月1日公布,2025年电影票房为518.32亿元,同比增长21.95%,城市院线观影人次为12
2026-01-01 17:14:00
免费抢鲜体验!香飘飘魔芋啵啵奶茶快闪体验活动空降临沂泰盛广场 健康爆款掀起跨年打卡热潮
鲁网1月1日讯 (记者 李文静)2025年12月31日晚,国民奶茶品牌香飘飘携新品“魔芋啵啵”奶茶,在山东临沂泰盛广场开启奶茶快闪体验活动
2026-01-01 15:52:00
厦门动漫嘉年华启幕 众多热门国漫IP集中参展
厦门动漫嘉年华各项活动精彩纷呈。(记者 林铭鸿 摄)厦门网讯(厦门日报记者 林露虹)展览面积超5万平方米,汇聚众多热门国漫IP
2026-01-01 08:41:00
助力低空应急产业发展——三明市应急管理局引进低空防御项目
东南网1月1日讯 2025年12月30日,由三明市应急管理局引进,南京云麒防务科技有限公司投资的福建鹏鑫智能科技有限公司
2026-01-01 09:33:00
近日,太长高速太原收费站智慧化升级改造全面完成并投入运营。项目以数字化转型为核心,围绕高峰期通行效率低、车辆拥堵等运营痛点
2026-01-01 07:17:00
沈洁任蓟州区代理区长 扫码阅读手机版
据“掌上蓟州”微信公众号消息,天津市蓟州区第二届人民代表大会常务委员会第三十五次会议决定:沈洁为天津市蓟州区人民政府代理区长。
2025-12-31 23:10:00
东南网12月31日讯(本网记者 卢金福)元旦佳节将至,消费市场迎来新一轮热潮。面对促销活动纷至沓来、消费场景多元拓展的新形势
2025-12-31 23:29:00
皖企长鑫科技向上交所递交IPO招股书
大皖新闻讯 2025年12月30日,总部位于合肥的长鑫科技集团股份有限公司(以下简称“长鑫科技”)正式向上海证券交易所递交招股书
2025-12-31 21:33:00