• 我的订阅
  • 科技

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

类别:科技 发布时间:2024-06-26 09:19:00 来源:新智元

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

新智元报道

编辑:好困

【新智元导读】近日,一篇出自中国团队之手的AI论文在外网引发热议。论文中,研究团队提出了Q*模型算法,帮助Llama-2-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,使模型性能迎来惊人提升。

自OpenAI的Q*项目曝光后,业内相关讨论始终层出不穷。

据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(英伟达科学家Jim Fan、图灵奖得主Yann LeCun等参与讨论OpenAI的Q*实现方式)

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(Meta科学家田渊栋则认为Q*是Q-learning和A*的结合,且天然地适合推理任务,尤其在数学推理方面)

不过迄今为止OpenAI没有公开关于Q*算法的具体细节,其效果究竟如何我们并不得而知。

然而就在近日,一篇名为《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》的论文在AI圈内引发了不小的震荡。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

论文链接: https://arxiv.org/abs/2406.14283

论文中提出的Q*算法不仅能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,大幅提升了小模型的性能,还显著降低了计算资源的需求。

最值得关注的是,这篇论文竟然出自中国团队之手—— 由颜水成教授团队携手新加坡南洋理工大学团队共同发布!

根据实验结果,Q*成功帮助现有开源模型在GSM8K、MATH和MBPP数据集上取得性能飞跃,评分分别超越了ChatGPT和Gemini Ultra。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(Q*在AI圈内引发热议)

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(外网网友直呼「中国AI赶上来了!」)

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中,研究人员首先将大语言模型的推理轨迹分解为若干个状态。

对于每一个状态,参考DeepCubeA中的设计,通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内,实现了对历史状态收益和未来期望收益的综合考虑。

最后利用A*搜索算法对状态进行最佳优先搜索,实现了对复杂推理任务的全盘规划,从而提升开源模型在推理任务上的性能。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

其中g(s_t)表示当前轨迹中的多个历史状态,既{s1,...,s_t},的聚合收益。

具体g(s_t)的函数形式可以通过人为定义,例如判断当前代码是否符合语法规则等,或者通过构建 Process Reward Model(PRM)进行监督学习得到;g(s_t)中的聚合方式可以为求和,最大值,最小值等。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

为了获得状态-动作对(s_t, a_t)的最优Q值以实现规划,研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型 。

训练过程中的真实标签 可以由三种不同的方式得到,包括离线强化学习,蒙塔卡罗采样估计和利用更强大的语言模型补全。

实验结果表明,颜水成团队本次所提出的Q*框架,可以显著地提升LLM的推理能力:

在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;

在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;

在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率,缩小了与GPT-4的编程水平差距。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

研究证明,Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力,大幅提升模型的性能,并显著降低了计算资源的需求。

颜水成团队表示,目前,Q*的研究尚在初级阶段,算法在各个环节还有进一步的改进空间。未来,团队会继续深入此项研究,不断提升国产开源模型推理能力,打破OpenAI闭源封锁,为人工智能前沿技术发展带来全新可能。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-26 13:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

昆仑万维上半年收入25亿,AI应用加速落地,商业化成果显著
...一步推动生态建设。公司与新加坡国立大学、新加坡南洋理工大学团队联合发布了Vitron通用像素级视觉多模态大语言模型
2024-08-23 21:16:00
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
...院士、欧洲科学院外籍院士、IEEE Fellow陶大程,现任南洋理工大学杰出教授;新加坡工程院院士、IEEE Fellow文勇刚
2024-10-26 09:48:00
ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型
....com;zhaoyunfeng@jiqizhixin.com该论文作者均来自于新加坡南洋理工大学 S-Lab 团队
2024-08-13 09:36:00
新加坡AI困局:靠山,狭窄空间与Web3泡沫
...道德框架。同时,文勇刚教授(新加坡工程院院士、南洋理工大学计算机科学与工程学院教授,研究主要集中在大规模分布式计算机系统的研发和相关核心技术的创新)告诉虎嗅,新加坡能源较为匮
2024-07-01 09:16:00
传音与新加坡南洋理工大学达成战略合作
...12日消息,传音旗下科技品牌TECNO今日宣布与新加坡南洋理工大学亚洲传播研究中心(AsianCommunicationResearchCentre
2024-06-13 11:14:00
专访新加坡南洋理工大学校长何德华:新中教育合作大有可为,南大多措并举建设知识枢纽
...rClose新华网新加坡9月12日电(方瑄)日前,在新加坡南洋理工大学(以下简称“南大”)第十五届中国毕业典礼期间,校长何德华接受了新华网专访,围绕新中教育交流合作、教育可持
2023-09-12 17:28:00
...)撤回一篇虚构作者的研究论文。因捏造一名新加坡南洋理工大学研究人员作为署名作者,江南大学环境与土木工程学院8篇论文被撤回
2023-07-04 14:33:00
科学家阐释纯量子AI算法理论,或极大提升生化及图文领域模型性能
...。”针对自己和武汉大学团队合作的新成果,新加坡南洋理工大学杜宇轩博士表示。图 | 杜宇轩(来源:杜宇轩) 论文中,他和武汉大学罗勇教授课题组描述了预测误差和纠缠程度,所涉及
2024-06-14 09:55:00
...李志贤、黄贤强、钱继伟、周陶沫、黄彦杰等教授,南洋理工大学华裔馆助理馆长张慧梅博士,及NUS、NTU数十位研究生、博士后等出席会议。新加坡前国会议员成汉通先生也出席了会议,并
2025-04-07 12:01:00
更多关于科技的资讯:
让数字生活更美好!山东移动烟台分公司发布“爱家光网七星服务”
9月9日,山东移动烟台分公司(以下简称“烟台移动”)在凤凰大街旗舰厅正式发布“爱家光网七星服务”,旨在为万千家庭提供更快速
2025-09-09 19:53:00
超六成专精特新企业上钉钉 芜湖制造业加速“智变”
9月9日,阿里巴巴钉钉和安徽企速科技有限公司联合举办的“智赋制造·AI 领航——芜湖市制造业数智化转型推介会”在安徽芜湖召开
2025-09-09 19:54:00
山东移动烟台分公司凤凰大街旗舰厅盛大开业
9月9日,坐落于莱山区凤凰大街1188号的山东移动烟台分公司(以下简称“烟台移动”)凤凰大街旗舰厅盛大开业,旨在为广大客户提供更先进
2025-09-09 19:54:00
今年以来,肥乡联社将线上贷款营销作为零售信贷破局增长、优化信贷业务格局的关键举措,通过多维度发力,不断提升线上贷款办理效率与客户体验
2025-09-09 16:56:00
鲁网9月9日讯为深入贯彻落实市委、市政府提振消费决策部署,邮储银行滨州市分行主动对接“购在中国・精品购物齐鲁汇暨滨州活力之夏消费季”活动
2025-09-09 16:57:00
锁定10月北京 首个U宠生活方式展UPET内容大餐已就位
金秋十月,不可错过的宠物行业新概念展——Upet有宠生活展 北京首个城区宠展充满创新基因的Upet有宠生活展,将于10月24-26日
2025-09-09 11:38:00
智能制造重塑生产模式——辛集省级先进智能工厂一线观察
近日,河北省工业和信息化厅公布2025年第一批先进级智能工厂名单,辛集市澳森特钢集团有限公司、河北申科电子股份有限公司
2025-09-09 11:38:00
中国AI云市场报告:阿里云占比35.8%,高于2到4名的总和
9月9日,国际权威市场调研机构英富曼(Omdia)发布《中国AI云市场,1H25》报告,报告显示,2025年上半年,中国AI云市场规模达223亿元
2025-09-09 11:45:00
京东户外出游季正式开启 携手迪卡侬、牧高笛等带来大牌爆品不止5折
金秋时节天朗气清,正是奔赴户外探索自然的好时机。9月8日起,京东户外装备出游季正式开启,携手迪卡侬、喜德盛、牧高笛、挪客
2025-09-09 11:49:00
【宅男财经|专家面对面】9月8日,媒体获悉,小米公司发布内部公告称,中国区市场部员工王腾,泄露公司机密信息,且存在利益冲突等严重违规违纪行为
2025-09-09 12:13:00
8月12日,位于宁晋县的河北童泰电子商务有限公司内,各式各样的儿童服装整齐摆放,款式新颖,直播间的工作人员正对着镜头推介婴幼儿连体衣和包臀衣
2025-09-09 12:23:00
鲁网9月9日讯水流悄无声息地通过测量管道,水表内的换能器就能精准地发射、接收超声波信号,并对接收到的数据进行智能处理和分析
2025-09-09 13:18:00
一台绘蜡机 绘出蜡染新风采
9月5日,走进位于凯里市民族文化创意产业园的初色东方(贵州)品牌运营管理有限公司,凯里市蜡染传承人靳秀丽正在操作绘蜡设备
2025-09-09 13:24:00
2025亚太机器人世界杯青岛国际邀请赛在青举行
齐鲁晚报·齐鲁壹点 徐润杰 杨雪 通讯员 杨治峰9月6日至9日,作为2025海洋合作发展论坛的同期活动,2025亚太机器人世界杯青岛国际邀请赛在青岛西海岸新区举行
2025-09-09 09:37:00
电网运行风险防御技术与装备全国重点实验室:他们在!大停电多年未遇,“网”自岿然不动编者按科技改变世界,而位于各大高校院所
2025-09-09 07:43:00