我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

大模型靠“深呼吸”数学再涨 8 分！谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

类别：科技发布时间：2023-09-11 10:56:00 来源：IT之家

提示词中加上“深呼吸”，AI 大模型数学成绩就能再涨 8.4 分！

谷歌 DeepMind 团队最新发现，用这个新“咒语”（Take a deep breath）结合大家已经熟悉的“一步一步地想”（Let’s think step by step），大模型在 GSM8K 数据集上的成绩就从 71.8 提高到 80.2 分。

而且这个最有效的提示词，是 AI 自己找出来的。

有网友开玩笑说，深呼吸以后，散热风扇就转速就提高了。

也有人表示，刚高薪入职的提示工程师们也应该深呼吸，工作可能干不久了

相关论文《大语言模型是优化器》，再次引起轰动。

大模型靠“深呼吸”数学再涨 8 分！谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类

具体来说，大模型自己设计的提示词在 Big-Bench Hard 数据集上最高提升 50%。

也有人的关注点在“不同模型的最佳提示词不一样”。

并且不止提示词设计这一个任务，在论文中还测试了大模型在线性回归和旅行商问题这些经典优化任务上的能力。

模型不同，最佳提示词也不同

优化问题无处不在，基于导数和梯度的算法是强大的工具，但现实应用中也经常遇到梯度不适用的情况。

为解决这个问题，团队开发了新方法 OPRO，也就是通过提示词优化（Optimization by PROmpting）。

不是形式化定义优化问题然后用程序求解，而是用自然语言描述优化问题，并要求大模型生成新的解决方案。

一图流总结，就是对大模型的一种递归调用。

每一步优化中，以之前生成的解决方案和评分作为输入，大模型生成新的方案并评分，再将其添加到提示词中，供下一步优化使用。

论文主要使用谷歌的 PaLM 2 和 Bard 中的 text-bison 版本作为评测模型。

再加上 GPT-3.5 和 GPT-4，共 4 种模型作为优化器。

结果表明，不光不同模型设计出的提示词风格不同，适用的提示词风格也不同。

此前在 GPT 系列上的 AI 设计出的最优提示词是“Let’s work this out in a step by step way to be sure we have the right answer.”

这个提示词使用 APE 方法设计，论文发表在 ICLR 2023 上，在 GPT-3（text-davinci-002）上超过人类设计的版本“Let’s think step by step”。

但这次在谷歌系 PaLM 2 和 Bard 上，APE 版本作为基线就还不如人类版本。

OPRO 方法设计出来的新提示词中，“深呼吸”和“拆解这个问题”对 PaLM 来说效果最好。

对 text-bison 版的 Bard 大模型来说，则更倾向于详细的提示词。

另外论文还展示了大模型在数学优化器上的潜力。

线性回归作为连续优化问题的示例。

旅行商问题作为离散优化问题的示例。

仅仅通过提示，大模型就能找到不错的解决方案，有时甚至匹敌或超过手动设计的启发式算法。

但团队也认为大模型还无法替代传统基于梯度的优化算法，当问题规模较大（如节点数量较多的旅行商问题）时，OPRO 方法表现就不好。

对于未来改进方向，团队提出当前大模型还无法有效利错误案例，仅提供错误案例无法让大模型捕捉捕捉到错误的原因。

一个有前景的方向是结合关于错误案例的更丰富的反馈，并总结优化轨迹中高质量和低质量生成提示的关键特征差异。

这些信息可能帮助优化器模型更高效地改进过去生成的提示，并可能进一步减少提示优化所需的样本数量。

论文放出大量最优提示词

论文来自谷歌与 DeepMind 合并后的部门，但作者以原谷歌大脑团队为主，包括 Quoc Le、周登勇。

共同一作为康奈尔大学博士毕业的复旦校友 Chengrun Yang，和 UC 伯克利博士毕业的上交大校友陈昕昀。

团队还在论文中给出了大量实验中得到的最优提示词，包括电影推荐、恶搞电影名字等实用场景，有需要的小伙伴可自取。

论文地址：

https://arxiv.org/abs/2309.03409

参考链接：

[1]https://x.com/emollick/status/1700207590607552740

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-09-11 12:45:05

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于深呼吸,模型,人类,提示,效果,数学的资讯：

2024阿里巴巴全球数学竞赛开考 563支AI队伍与人类挑战

...院所与企业的563支队伍使用AI作答。他们各显神通，使用模型调优、AI Agent、提示词工程等多种方式，推动AI构建更强大的数学能力

2024-04-15 14:08:00

AI表现直逼国际奥数优秀选手，它要 “征服”数学了吗？

...65届IMO大会同步揭晓。这项赛事的目的是推动发展大语言模型的数学推理能力，训练出更高数学水平的新AI模型。纯数学领域中的重大发现是推理和创造力的灵感结晶，往往意味着人类智慧

2024-06-14 11:54:00

微软华人团队发布全新基准AGIEval，专为人类考试而生

随着语言模型的能力越来越强，现有的这些评估基准实在有点小儿科了，有些任务的性能都甩了人类一截。通用人工智能（AGI）的一个重要特点是模型具有处理人类水平任务的泛化能力，而依赖于人

2023-05-13 21:28:00

9.11大还是9.9大？为什么一道小学数学题难倒了大多数A

...9哪个更大？一道小学生都会的数学题，却难倒了一众AI大模型。昨天，“大模型测不出9.11和9.9哪个大”还登上了微博热搜。这个难倒大多数AI大模型的数学题，其实来自于最近热播

2024-07-18 08:31:00

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LL

...系列专注于复杂的推理任务，一经推出也是直接屠榜了大模型竞技场。在下面这些难度较大的数学、编码、科学等任务中，o1不仅比GPT-4o强上一大截，甚至比人类专家还要凶猛。Open

2024-11-08 09:43:00

2022生成模型进展有多快，新论文盘点9类生成模型代表作

ChatGPT的出现，彻底将生成AI推向爆发。但别忘了，AI生成模型可不止ChatGPT一个，光是基于文本输入的就有7种——图像

2023-01-30 16:34:00

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

大模型领域的技术发展，今天起再次「从 1 开始」了。大语言模型还能向上突破，OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜

2024-09-13 16:42:00

菲尔兹奖得主亲测GPT-4o，经典过河难题破解失败！最强Cl

...最近，菲尔兹奖得主Timothy Gowers分享了实测GPT-4o的过程，模型在最简单的题目上竟然做错了，甚至网友们发现

2024-07-01 08:58:00

56年无人解开的数学难题被谷歌的新AI突破了

...通用的黑盒优化问题：maximize h(f)。其中，f 是由大型语言模型生成的程序，h 是衡量该程序质量的评估函数

2025-05-15 23:16:00

更多关于科技的资讯：

金湖农商银行办理首笔不动产在线抵押业务

江南时报讯近日，金湖农商银行与金湖县自然资源和规划局深化合作，通过展业平台成功办理淮安地区不动产在线抵押业务。金湖农商银行龙港支行作为首家试点单位

2026-02-25 22:30:00

全球设计视野：胡予彤女士的国际影响力

在这个品牌必须跨越国界与受众自如对话的时代，胡予彤女士（Ms. Hu）已不仅是一名设计师，更是一股备受瞩目的创意力量，其作品的辨识度已从纽约延伸至广阔的国际舞台

2026-02-25 20:01:00

助力中国硅光通信产业高质量发展，引领产业协同与技术突破

在算力需求爆发式增长的数字时代，硅光通信技术正成为数据中心互联的关键基石。作为测试测量领域的资深专家，Kevin Pan凭借其前瞻性的产业布局和卓越领导力

2026-02-25 17:40:00

福建6家医疗器械企业8个项目入围国家级“揭榜挂帅”

中国消费者报福州讯（记者张文章）2月24日，记者从福建省药监局获悉，近日，工业和信息化部、国家药监局联合发布了《关于公布生物医用材料创新任务揭榜挂帅（第二批）入围揭榜单位的通知》

2026-02-25 18:00:00

数字经济时代，企业如何抢占数据资产价值先机

数字经济浪潮下，数据资产化已从政策导向转向价值兑现的关键阶段，成为企业抢占未来的核心竞争力。但面对国家政策红利与市场巨大机遇

2026-02-25 18:14:00

硬核数据勾勒假期出游新图景浙江文旅市场红红火火活力足

据浙江文旅，2026年春节假期，浙江省累计接待全域游客4604.3万人次，同比增长24.7%。全域旅游综合收入679.5亿元

2026-02-25 19:28:00

河北日报贺新春｜AI河北新春创意系列海报：燕赵古韵，冀遇新机

作者：邝英武

2026-02-25 17:15:00

百亿ED市场转向：从价格战到价值战的底层逻辑

在中国医药市场的细分赛道中，抗ED药物领域正经历一场静默而深刻的变革。市场规模突破90亿元，年增长率保持在近20%的高位

2026-02-25 17:05:00

浙江长兴：服务暖人心提质促共赢

长兴县烟草专卖局秉持“服务暖人心、提质促共赢”理念，以零售户服务需求为核心，通过“定制化服务+纠纷化解赋能”双轮驱动，聚焦卷烟经营全链条服务痛点难点

2026-02-25 17:06:00

从流量到认知资产：品牌增长顾问贺大亿的商业观察

过去几年，中国消费市场正在经历一轮明显变化。一方面，流量成本持续上升，单纯依赖推广带动销量越来越难；另一方面，大量新品牌快速出现

2026-02-25 16:30:00

【新春走基层】春节长假与多种促消费政策叠加汇川区消费市场活

多彩贵州网讯今年春节，长达九天假期与政府消费券的不期而遇，为汇川区消费市场注入了强劲动力。连日来，笔者走访遵义国贸春天百货购物中心

2026-02-25 16:53:00

方程豹钛7，城区智能辅助驾驶实测来了

视频制作：陈希河北新闻网讯（记者王嵩）方程豹钛7作为一款兼具颜值与性能的方盒子，其智能辅助驾驶系统以及云辇C+路面预瞄技术表现如何呢？本期视频，我们将通过一场28公里的实测一

2026-02-25 15:43:00

最高免首月房租！我爱我家相寓推出“返工季”租房优惠活动

2月25日（正月初九），正值返工返岗高峰期，大量新市民、青年人陆续返程就业，租房需求集中释放。为积极响应各地返工季惠民租房号召

2026-02-25 12:09:00

春节新茶饮观察：书亦烧仙草乡镇店日均杯量1000杯，家庭聚会

春节假期历来是观察新消费趋势的重要窗口。近日,书亦烧仙草对外公布新春假期战报:平均每天售出招牌烧仙草26万杯、水果奶绿25万杯

2026-02-25 11:06:00

从“渠道战”到“心智战”：白酒春节营销背后的竞争新格局

春节作为国人最重要的传统节日，历来是白酒行业消费与品牌竞争的关键节点。从早期依靠渠道铺货和价格竞争，到如今注重文化内涵与情感联结

2026-02-25 11:06:00

头条订阅服务

大模型靠“深呼吸”数学再涨 8 分！谷歌 DeepMind 发现 AI 自己设计提示词效果胜人类