我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法

类别：科技发布时间：2024-06-26 09:19:00 来源：新智元

新智元报道

编辑：好困

【新智元导读】近日，一篇出自中国团队之手的AI论文在外网引发热议。论文中，研究团队提出了Q*模型算法，帮助Llama-2-7b等小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力，使模型性能迎来惊人提升。

自OpenAI的Q*项目曝光后，业内相关讨论始终层出不穷。

据现有信息汇总，Q*项目被视作OpenAI在探索人工通用智能（Artificial General Intelligence, AGI）道路上的一次重大尝试，有望在包括数学问题解决能力、自主学习和自我改进等多个层面对人工智能技术带来革新性突破。

（英伟达科学家Jim Fan、图灵奖得主Yann LeCun等参与讨论OpenAI的Q*实现方式）

（Meta科学家田渊栋则认为Q*是Q-learning和A*的结合，且天然地适合推理任务，尤其在数学推理方面）

不过迄今为止OpenAI没有公开关于Q*算法的具体细节，其效果究竟如何我们并不得而知。

然而就在近日，一篇名为《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》的论文在AI圈内引发了不小的震荡。

论文链接： https://arxiv.org/abs/2406.14283

论文中提出的Q*算法不仅能够帮助小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力，大幅提升了小模型的性能，还显著降低了计算资源的需求。

最值得关注的是，这篇论文竟然出自中国团队之手—— 由颜水成教授团队携手新加坡南洋理工大学团队共同发布！

根据实验结果，Q*成功帮助现有开源模型在GSM8K、MATH和MBPP数据集上取得性能飞跃，评分分别超越了ChatGPT和Gemini Ultra。

（Q*在AI圈内引发热议）

（外网网友直呼「中国AI赶上来了！」）

在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》论文中，研究人员首先将大语言模型的推理轨迹分解为若干个状态。

对于每一个状态，参考DeepCubeA中的设计，通过将定义Path Cost的g(s_t)函数和定义Accumulated Reward的Q*(s_t, a_t)集成到同一个f(s_t)函数内，实现了对历史状态收益和未来期望收益的综合考虑。

最后利用A*搜索算法对状态进行最佳优先搜索，实现了对复杂推理任务的全盘规划，从而提升开源模型在推理任务上的性能。

其中g(s_t)表示当前轨迹中的多个历史状态，既{s1,...,s_t}，的聚合收益。

具体g(s_t)的函数形式可以通过人为定义，例如判断当前代码是否符合语法规则等，或者通过构建 Process Reward Model（PRM）进行监督学习得到；g(s_t)中的聚合方式可以为求和，最大值，最小值等。

为了获得状态-动作对(s_t, a_t)的最优Q值以实现规划，研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型。

训练过程中的真实标签可以由三种不同的方式得到，包括离线强化学习，蒙塔卡罗采样估计和利用更强大的语言模型补全。

实验结果表明，颜水成团队本次所提出的Q*框架，可以显著地提升LLM的推理能力：

在GSM8K数据集上，Q*帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；

在MATH数据集上，Q*帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra;

在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率，缩小了与GPT-4的编程水平差距。

研究证明，Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力，大幅提升模型的性能，并显著降低了计算资源的需求。

颜水成团队表示，目前，Q*的研究尚在初级阶段，算法在各个环节还有进一步的改进空间。未来，团队会继续深入此项研究，不断提升国产开源模型推理能力，打破OpenAI闭源封锁，为人工智能前沿技术发展带来全新可能。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-06-26 13:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于南洋,水成,新加坡,理工大学,算法,推理的资讯：

昆仑万维上半年收入25亿，AI应用加速落地，商业化成果显著

...一步推动生态建设。公司与新加坡国立大学、新加坡南洋理工大学团队联合发布了Vitron通用像素级视觉多模态大语言模型

2024-08-23 21:16:00

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖

...院士、欧洲科学院外籍院士、IEEE Fellow陶大程，现任南洋理工大学杰出教授；新加坡工程院院士、IEEE Fellow文勇刚

2024-10-26 09:48:00

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩

....com；zhaoyunfeng@jiqizhixin.com该论文作者均来自于新加坡南洋理工大学 S-Lab 团队

2024-08-13 09:36:00

新加坡AI困局：靠山，狭窄空间与Web3泡沫

...道德框架。同时，文勇刚教授（新加坡工程院院士、南洋理工大学计算机科学与工程学院教授，研究主要集中在大规模分布式计算机系统的研发和相关核心技术的创新）告诉虎嗅，新加坡能源较为匮

2024-07-01 09:16:00

传音与新加坡南洋理工大学达成战略合作

...12日消息，传音旗下科技品牌TECNO今日宣布与新加坡南洋理工大学亚洲传播研究中心（AsianCommunicationResearchCentre

2024-06-13 11:14:00

专访新加坡南洋理工大学校长何德华:新中教育合作大有可为,南大

...rClose新华网新加坡9月12日电（方瑄）日前，在新加坡南洋理工大学（以下简称“南大”）第十五届中国毕业典礼期间，校长何德华接受了新华网专访，围绕新中教育交流合作、教育可持

2023-09-12 17:28:00

科学家阐释纯量子AI算法理论，或极大提升生化及图文领域模型性

...。”针对自己和武汉大学团队合作的新成果，新加坡南洋理工大学杜宇轩博士表示。图 | 杜宇轩（来源：杜宇轩）论文中，他和武汉大学罗勇教授课题组描述了预测误差和纠缠程度，所涉及

2024-06-14 09:55:00

江南大学8篇论文被撤回：虚构作者，遭新加坡南洋理工大学投诉

...）撤回一篇虚构作者的研究论文。因捏造一名新加坡南洋理工大学研究人员作为署名作者，江南大学环境与土木工程学院8篇论文被撤回

2023-07-04 14:33:00

雄安新区与海内外多所高校签署合作协议

...技·人才·创新周12日在雄安启动。雄安新区与新加坡南洋理工大学南洋公共管理研究生院、香港北京高校校友联盟签署战略合作协议，加强人才交流与合作。启动活动上，雄安新区相关负责人推

2024-05-12 20:44:00

更多关于科技的资讯：

折叠屏iPhone前瞻：书本式折叠方案定价或超2万元

2025-03-06 22:43:00

选装价4.2万！小米SU7 Ultra碳纤维双风道前舱盖受损

2025-03-06 22:43:00

豪华品牌标配！小米汽车宣布免费提供维修代步车

2025-03-06 23:13:00

顶配价格超10万！苹果新款MacBook Air/MacSt

2025-03-06 23:13:00

男子在杭州太子山意外拍到黄山：光明顶清晰可见

2025-03-06 23:13:00

【浪潮星锐】商广勇：关于我职业生涯关键词的三次进化

2025-03-06 23:27:00

超跑同款！小米SU7 Ultra主动尾部扩散器有何作用：官方

2025-03-06 23:43:00

《双人成行》团队新作《双影奇境》今日发售：国区198元全球

2025-03-07 00:43:00

中国移动董事长杨杰：正全面进行6G研发比5G有三方面升级

2025-03-07 00:43:00

替代高通！曝苹果自研基带升级版明年量产：补齐最后一块短板支

2025-03-07 00:43:00

当管理者脱离实际业务时，团队很容易出现新的问题！

2025-03-07 02:08:00

烟台高新区：抢占未来发展“智”高点

2025-03-07 03:03:00

头条订阅服务

百倍提升7B模型推理能力！颜水成团队携手新加坡南洋理工大学发布Q*算法