• 我的订阅
  • 科技

大模型靠“深呼吸”数学再涨 8 分!谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

类别:科技 发布时间:2023-09-11 10:56:00 来源:IT之家

提示词中加上“深呼吸”,AI 大模型数学成绩就能再涨 8.4 分!

谷歌 DeepMind 团队最新发现,用这个新“咒语”(Take a deep breath)结合大家已经熟悉的“一步一步地想”(Let’s think step by step),大模型在 GSM8K 数据集上的成绩就从 71.8 提高到 80.2 分。

而且这个最有效的提示词,是 AI 自己找出来的。

有网友开玩笑说,深呼吸以后,散热风扇就转速就提高了。

也有人表示,刚高薪入职的提示工程师们也应该深呼吸,工作可能干不久了

相关论文《大语言模型是优化器》,再次引起轰动。

大模型靠“深呼吸”数学再涨 8 分!谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

具体来说,大模型自己设计的提示词在 Big-Bench Hard 数据集上最高提升 50%。

也有人的关注点在“不同模型的最佳提示词不一样”。

大模型靠“深呼吸”数学再涨 8 分!谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

并且不止提示词设计这一个任务,在论文中还测试了大模型在线性回归和旅行商问题这些经典优化任务上的能力。

模型不同,最佳提示词也不同

优化问题无处不在,基于导数和梯度的算法是强大的工具,但现实应用中也经常遇到梯度不适用的情况。

为解决这个问题,团队开发了新方法 OPRO,也就是通过提示词优化(Optimization by PROmpting)。

不是形式化定义优化问题然后用程序求解,而是用自然语言描述优化问题,并要求大模型生成新的解决方案。

一图流总结,就是对大模型的一种递归调用。

大模型靠“深呼吸”数学再涨 8 分!谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

每一步优化中,以之前生成的解决方案和评分作为输入,大模型生成新的方案并评分,再将其添加到提示词中,供下一步优化使用。

大模型靠“深呼吸”数学再涨 8 分!谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

论文主要使用谷歌的 PaLM 2 和 Bard 中的 text-bison 版本作为评测模型。

再加上 GPT-3.5 和 GPT-4,共 4 种模型作为优化器。

结果表明,不光不同模型设计出的提示词风格不同,适用的提示词风格也不同。

此前在 GPT 系列上的 AI 设计出的最优提示词是“Let’s work this out in a step by step way to be sure we have the right answer.”

这个提示词使用 APE 方法设计,论文发表在 ICLR 2023 上,在 GPT-3(text-davinci-002)上超过人类设计的版本“Let’s think step by step”。

大模型靠“深呼吸”数学再涨 8 分!谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

但这次在谷歌系 PaLM 2 和 Bard 上,APE 版本作为基线就还不如人类版本。

大模型靠“深呼吸”数学再涨 8 分!谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

OPRO 方法设计出来的新提示词中,“深呼吸”和“拆解这个问题”对 PaLM 来说效果最好。

对 text-bison 版的 Bard 大模型来说,则更倾向于详细的提示词。

大模型靠“深呼吸”数学再涨 8 分!谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

另外论文还展示了大模型在数学优化器上的潜力。

线性回归作为连续优化问题的示例。

大模型靠“深呼吸”数学再涨 8 分!谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

旅行商问题作为离散优化问题的示例。

大模型靠“深呼吸”数学再涨 8 分!谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

仅仅通过提示,大模型就能找到不错的解决方案,有时甚至匹敌或超过手动设计的启发式算法。

但团队也认为大模型还无法替代传统基于梯度的优化算法,当问题规模较大(如节点数量较多的旅行商问题)时,OPRO 方法表现就不好。

对于未来改进方向,团队提出当前大模型还无法有效利错误案例,仅提供错误案例无法让大模型捕捉捕捉到错误的原因。

一个有前景的方向是结合关于错误案例的更丰富的反馈,并总结优化轨迹中高质量和低质量生成提示的关键特征差异。

这些信息可能帮助优化器模型更高效地改进过去生成的提示,并可能进一步减少提示优化所需的样本数量。

论文放出大量最优提示词

论文来自谷歌与 DeepMind 合并后的部门,但作者以原谷歌大脑团队为主,包括 Quoc Le、周登勇。

共同一作为康奈尔大学博士毕业的复旦校友 Chengrun Yang,和 UC 伯克利博士毕业的上交大校友陈昕昀。

团队还在论文中给出了大量实验中得到的最优提示词,包括电影推荐、恶搞电影名字等实用场景,有需要的小伙伴可自取。

大模型靠“深呼吸”数学再涨 8 分!谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

论文地址:

https://arxiv.org/abs/2309.03409

参考链接:

[1]https://x.com/emollick/status/1700207590607552740

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-09-11 12:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

2024阿里巴巴全球数学竞赛开考 563支AI队伍与人类挑战同一份考卷
...院所与企业的563支队伍使用AI作答。他们各显神通,使用模型调优、AI Agent、提示词工程等多种方式,推动AI构建更强大的数学能力
2024-04-15 14:08:00
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
...65届IMO大会同步揭晓。这项赛事的目的是推动发展大语言模型的数学推理能力,训练出更高数学水平的新AI模型。纯数学领域中的重大发现是推理和创造力的灵感结晶,往往意味着人类智慧
2024-06-14 11:54:00
微软华人团队发布全新基准AGIEval,专为人类考试而生
随着语言模型的能力越来越强,现有的这些评估基准实在有点小儿科了,有些任务的性能都甩了人类一截。通用人工智能(AGI)的一个重要特点是模型具有处理人类水平任务的泛化能力,而依赖于人
2023-05-13 21:28:00
...9哪个更大?一道小学生都会的数学题,却难倒了一众AI大模型。昨天,“大模型测不出9.11和9.9哪个大”还登上了微博热搜。这个难倒大多数AI大模型的数学题,其实来自于最近热播
2024-07-18 08:31:00
OpenAI o1太贵?那就自己做一个!纯提示方法让普通LLM进化出复杂推理能力
...系列专注于复杂的推理任务,一经推出也是直接屠榜了大模型竞技场。在下面这些难度较大的数学、编码、科学等任务中,o1不仅比GPT-4o强上一大截,甚至比人类专家还要凶猛。Open
2024-11-08 09:43:00
2022生成模型进展有多快,新论文盘点9类生成模型代表作
ChatGPT的出现,彻底将生成AI推向爆发。但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——图像
2023-01-30 16:34:00
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜
2024-09-13 16:42:00
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...最近,菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程,模型在最简单的题目上竟然做错了,甚至网友们发现
2024-07-01 08:58:00
56年无人解开的数学难题 被谷歌的新AI突破了
...通用的黑盒优化问题:maximize h(f)。其中,f 是由大型语言模型生成的程序,h 是衡量该程序质量的评估函数
2025-05-15 23:16:00
更多关于科技的资讯:
邀用户亲测!双11买海尔空调,享政企双补贴
以往选购空调,用户大多只能在屏幕上对比参数,实际风感是否舒适、节能效果如何,往往要等到安装使用后才知晓。今年双11,海尔空调带来全新体验方式
2025-10-13 11:45:00
青春华章丨方寸之间,用“芯”绘就星图万里
华创微系列芯片产品化在即,保障天地“对话”,筑牢算力基石 方寸之间,用“芯”绘就星图万里□南京日报/紫金山新闻记者江芬芬编者按高质量发展是“十四五”乃至更长时期我国经济社会发展的主题
2025-10-13 08:05:00
宁企为能源发电站安装“智慧大脑”“一网统管”,巡检响应时间缩短一半,停机损失降低超30% □南京日报/紫金山新闻记者孙秉印通讯员麒轩“支路电流异常
2025-10-13 08:05:00
将税务服务从“送得对”到“传得开”、从“加急办”到“秒响应”、从“被动纠错”到“主动合规”……聚焦个体工商户办税缴费需求
2025-10-13 07:23:00
算力浪潮奔涌 夯实“数字底座”——河北以数字经济赋能高质量发展(一)在中国联通(怀来)大数据创新产业园的机房内,一排排机柜昼夜不息地嗡鸣
2025-10-13 08:00:00
双11重磅福利:88VIP点外卖5折,淘宝闪购1000万份免单等你抢!
淘宝闪购推出双11重磅福利:88VIP点外卖天天享五折,免单红包数量超1000万份!10月15日至11月14日,88VIP用户进入闪购频道
2025-10-12 05:27:00
这家宁企让足球邂逅时尚
本报记者 周京震 陆春花8月17日晚,“苏超”第9轮,南京迎战盐城。聚光灯下,南京队员战衣上那簇崭新的标识格外醒目——华瑞时尚
2025-10-12 05:27:00
这支“中国笔”,国内首款!
在常州经开区潞城街道江苏德尔福医疗器械有限公司的洁净工厂内工作人员正在忙碌地装配新型“电子笔”今年该企业三个型号的预充式电子笔式注射器获得国内首张医疗器械注册证标志着该类产品正式
2025-10-12 05:27:00
山东移动5G-A护航济南地铁4号线,打通地下通信“快车道”
近日,济南轨道交通4号线彭家庄站、程家庄站、唐冶站、唐冶南站(以上站名均为工程名)已完成移动5G-A通信覆盖,标志着这条串联城市东西的“黄金线路”在通信保障上迈出关键一步
2025-10-12 08:45:00
人保财险青岛分公司:科技赋能推动农险“双精准”再升级
齐鲁晚报·齐鲁壹点记者 尚青龙近日,青岛平度的肉牛也有了自己的“数字身份证”。人保财险青岛分公司借鉴内蒙古先进经验,引入内蒙古沃付国际物联网有限公司自主研发的人工智能畜牧业数字化管理平台
2025-10-12 11:53:00
一线保障人员“时刻在岗”,烟台联通守护高铁5G网络畅通运行
国庆中秋假期期间,面对持续攀升的客运高峰,烟台联通网络保障团队坚守岗位,全力投入高铁沿线5G网络实时保障工作,通过精细化运维与快速响应
2025-10-12 11:53:00
第十九届中国(临朐)家居门窗博览会12日开幕
齐鲁晚报·齐鲁壹点 王佳潼10月11日,第十九届中国(临朐)家居门窗博览会媒体见面会在临朐召开。记者在会上获悉,第十九届中国(临朐)家居门窗博览会定于2025年10月12日至15日在临朐国际会展中心举办
2025-10-12 11:55:00
济南热力以低空智巡护航聊热入济
近日,“聊热入济”长距离供热项目施工现场传来新进展——济南能源集团所属热力集团部署的无人机智慧巡检系统,正沿这条 “供热长龙” 精准巡航
2025-10-12 15:50:00
山东移动聊城分公司圆满完成高唐一中百年校庆通信保障任务
百年薪火传,同心向未来。10月2日,聊城市高唐县第一中学建校100周年庆祝大会在高唐县隆重举行。海内外校友、各界嘉宾及在校师生欢聚一堂
2025-10-12 16:23:00
冲刺四季度 打好收官战丨湖北佳恒:以“智”提“质” 产值已超去年全年
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新锻造核心竞争力,湖北佳恒科技以智能化改造与自主研发双轮并进,推动企业高质量发展
2025-10-12 19:27:00