• 我的订阅
  • 科技

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

类别:科技 发布时间:2024-06-26 09:19:00 来源:新智元

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

新智元报道

编辑:好困

【新智元导读】近日,一篇出自中国团队之手的AI论文在外网引发热议。论文中,研究团队提出了Q*模型算法,帮助Llama-2-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,使模型性能迎来惊人提升。

自OpenAI的Q*项目曝光后,业内相关讨论始终层出不穷。

据现有信息汇总,Q*项目被视作OpenAI在探索人工通用智能(Artificial General Intelligence, AGI)道路上的一次重大尝试,有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(英伟达科学家Jim Fan、图灵奖得主Yann LeCun等参与讨论OpenAI的Q*实现方式)

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(Meta科学家田渊栋则认为Q*是Q-learning和A*的结合,且天然地适合推理任务,尤其在数学推理方面)

不过迄今为止OpenAI没有公开关于Q*算法的具体细节,其效果究竟如何我们并不得而知。

然而就在近日,一篇名为《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》的论文在AI圈内引发了不小的震荡。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

论文链接: https://arxiv.org/abs/2406.14283

论文中提出的Q*算法不仅能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力,大幅提升了小模型的性能,还显著降低了计算资源的需求。

最值得关注的是,这篇论文竟然出自中国团队之手—— 由颜水成教授团队携手新加坡南洋理工大学团队共同发布!

根据实验结果,Q*成功帮助现有开源模型在GSM8K、MATH和MBPP数据集上取得性能飞跃,评分分别超越了ChatGPT和Gemini Ultra。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(Q*在AI圈内引发热议)

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

(外网网友直呼「中国AI赶上来了!」)

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中,研究人员首先将大语言模型的推理轨迹分解为若干个状态。

对于每一个状态,参考DeepCubeA中的设计,通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内,实现了对历史状态收益和未来期望收益的综合考虑。

最后利用A*搜索算法对状态进行最佳优先搜索,实现了对复杂推理任务的全盘规划,从而提升开源模型在推理任务上的性能。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

其中g(s_t)表示当前轨迹中的多个历史状态,既{s1,...,s_t},的聚合收益。

具体g(s_t)的函数形式可以通过人为定义,例如判断当前代码是否符合语法规则等,或者通过构建 Process Reward Model(PRM)进行监督学习得到;g(s_t)中的聚合方式可以为求和,最大值,最小值等。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

为了获得状态-动作对(s_t, a_t)的最优Q值以实现规划,研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型 。

训练过程中的真实标签 可以由三种不同的方式得到,包括离线强化学习,蒙塔卡罗采样估计和利用更强大的语言模型补全。

实验结果表明,颜水成团队本次所提出的Q*框架,可以显著地提升LLM的推理能力:

在GSM8K数据集上,Q*帮助Llama-2-7b提升至80.8%的准确率,超越了ChatGPT;

在MATH数据集上,Q*帮助DeepSeek-Math-7b提升至55.4%的准确率,超越了Gemini Ultra;

在MBPP数据集上,Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率,缩小了与GPT-4的编程水平差距。

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

百倍提升7B模型推理能力!颜水成团队携手新加坡南洋理工大学发布Q*算法

研究证明,Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力,大幅提升模型的性能,并显著降低了计算资源的需求。

颜水成团队表示,目前,Q*的研究尚在初级阶段,算法在各个环节还有进一步的改进空间。未来,团队会继续深入此项研究,不断提升国产开源模型推理能力,打破OpenAI闭源封锁,为人工智能前沿技术发展带来全新可能。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-26 13:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

昆仑万维上半年收入25亿,AI应用加速落地,商业化成果显著
...一步推动生态建设。公司与新加坡国立大学、新加坡南洋理工大学团队联合发布了Vitron通用像素级视觉多模态大语言模型
2024-08-23 21:16:00
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
...院士、欧洲科学院外籍院士、IEEE Fellow陶大程,现任南洋理工大学杰出教授;新加坡工程院院士、IEEE Fellow文勇刚
2024-10-26 09:48:00
ECCV 2024 | 南洋理工三维数字人生成新范式:结构扩散模型
....com;zhaoyunfeng@jiqizhixin.com该论文作者均来自于新加坡南洋理工大学 S-Lab 团队
2024-08-13 09:36:00
新加坡AI困局:靠山,狭窄空间与Web3泡沫
...道德框架。同时,文勇刚教授(新加坡工程院院士、南洋理工大学计算机科学与工程学院教授,研究主要集中在大规模分布式计算机系统的研发和相关核心技术的创新)告诉虎嗅,新加坡能源较为匮
2024-07-01 09:16:00
传音与新加坡南洋理工大学达成战略合作
...12日消息,传音旗下科技品牌TECNO今日宣布与新加坡南洋理工大学亚洲传播研究中心(AsianCommunicationResearchCentre
2024-06-13 11:14:00
专访新加坡南洋理工大学校长何德华:新中教育合作大有可为,南大多措并举建设知识枢纽
...rClose新华网新加坡9月12日电(方瑄)日前,在新加坡南洋理工大学(以下简称“南大”)第十五届中国毕业典礼期间,校长何德华接受了新华网专访,围绕新中教育交流合作、教育可持
2023-09-12 17:28:00
...)撤回一篇虚构作者的研究论文。因捏造一名新加坡南洋理工大学研究人员作为署名作者,江南大学环境与土木工程学院8篇论文被撤回
2023-07-04 14:33:00
科学家阐释纯量子AI算法理论,或极大提升生化及图文领域模型性能
...。”针对自己和武汉大学团队合作的新成果,新加坡南洋理工大学杜宇轩博士表示。图 | 杜宇轩(来源:杜宇轩) 论文中,他和武汉大学罗勇教授课题组描述了预测误差和纠缠程度,所涉及
2024-06-14 09:55:00
...李志贤、黄贤强、钱继伟、周陶沫、黄彦杰等教授,南洋理工大学华裔馆助理馆长张慧梅博士,及NUS、NTU数十位研究生、博士后等出席会议。新加坡前国会议员成汉通先生也出席了会议,并
2025-04-07 12:01:00
更多关于科技的资讯:
1月8日,贵州省商务厅发布《关于发放家电产品以旧换新、数码和智能产品购新活动补贴券相关事项的公告》(下称《公告》),明确2026年贵州家电产品以旧换新
2026-01-09 23:02:00
人工智能、物联网与5G技术的成熟迭代,让智能家居家电产品从高端小众走向大众消费,成为现代家庭标配。近日,江苏省消费者权益保护委员会发布专项调查报告
2026-01-09 17:10:00
动漫周边衍生品热销
动漫周边行业作为文化产业的重要组成部分,近年来呈现出快速发展的态势。近日,记者走访位于北京王府井的一家大型动漫主题实体店发现
2026-01-09 17:10:00
“冻鲜互变”仍保鲜 保税区进口牛肉凭啥这么牛?
大河网讯 进口冰冻牛肉,由冻转鲜,再由鲜转冻……虽经多次变身,仍然“鲜”活诱人,这里的牛肉凭啥这么牛?1月8日,记者走进郑州新郑综合保税区首个生鲜产品加工项目——省重点项目南洋优鲜超级工厂
2026-01-09 17:18:00
《文旅短剧活力城市指数》年度报告日前发布,太原和重庆、大同、东莞等8座城市入选“最具创新价值城市”榜单。《文旅短剧活力城市指数》(简称《指数》)由中国人民大学新闻学院
2026-01-09 17:58:00
张宣科技:智维创新赋能氢冶金高效运行
河北新闻网讯(郭晓通、王杨、范俊慧)全球首例120万吨氢冶金示范工程一期项目高效运行,背后有着设备维护创新硬核支撑的努力
2026-01-09 18:13:00
贵定税务:“全链条服务”点亮眼镜零售行业“睛”彩路
多彩贵州网讯 “现在付款后消费者自己在手机上动动手指就能收到发票,节省了消费者的时间,也节约了我们的人力,税务部门的管理服务让我们经营更便捷了
2026-01-09 17:23:00
【劲牌故事荟 大家谈友好】“四个友好”引领劲牌构建健康可持续新生态
□谭金山(湖北省社科联“文安平”团队、宜昌市西陵区市场监管局)企业的发展如同时代浪潮中的一叶扁舟,既需乘风破浪,更需掌舵定向
2026-01-09 14:15:00
UU远程2026远程协助重磅升级:被控免登录、自定义验证码等率先上线
引言:网易UU远程2026年即将迎来远程协助升级三连,远程协助功能实现多场景全面升级近日,网易 UU 远程迎来 2026 年首次重磅版本更新
2026-01-09 14:18:00
清华大学携手阿里巴巴共筑AI安全防线 启动大模型与智能体安全研究
近日,阿里巴巴集团与清华大学签订协议,启动智能体与多模态安全产学研深度融合专项合作。双方此次合作为期5年,聚焦中国AI用户在真实应用场景中面临的核心安全挑战
2026-01-09 14:23:00
中国故事海外热播、“泰国模式”全球复制,爱奇艺探索流媒体出海的“长期主义”
2025年,是爱奇艺海外业务进入稳定期之后,增速最高的一年。第三季度,爱奇艺国际版日均会员数创下历史新高,海外会员收入同比增长超过40%
2026-01-09 14:53:00
为进一步优化知识产权服务供给,打通创新成果转化通道,提升知识产权公共服务效能,上饶市“人工智能+”知识产权大数据服务平台(http://shr
2026-01-09 15:04:00
从五金功能件制造者到智能睡眠守护者,喜安思“守护狮”的觉醒之路!
在珠江之畔制造业奔腾的脉搏里,总有一群敢想敢干敢拼的人,让这片沃土跃动出一个又一个传奇,而喜安思智能床垫就是其中之一,喜安思创始人梁富城与陈傲鹏更是其中佼佼者
2026-01-09 15:35:00
近日,【同程商旅】联合【曹操出行】,聚焦国内企业差旅交通全景,重磅发布《2026中国企业差旅交通出行数据研究报告》。发现价值“新流向”国际出行逆势增长
2026-01-09 15:35:00
悍高集团股份有限公司接待44家机构调研,战略清晰彰显经营韧性
随着家居行业逐步从增量市场迈向存量市场,家居五金企业如何找到新的增长曲线,成为考验企业战略定力与运营能力的关键。近期,悍高集团股份有限公司(董事长为悍高欧锦锋)接受包括百嘉基金
2026-01-09 15:35:00