• 我的订阅
  • 科技

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

类别:科技 发布时间:2024-09-21 09:45:00 来源:量子位

OpenAI o1的横空出世,开启了大模型演化的新范式——Inference law(推理定律)。

正如英伟达AI科学家Jim Fan所说,o1的出现标志着大模型研发者开始把集中在训练阶段的投入,开始转移到了推理过程。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

Jim还引用了机器学习先驱Rich Sutton的经典文章《苦涩的教训》中的话说,只有两种技术可以让(AI)计算的潜能无限扩展——学习和搜索。

而现在,是时候把目光聚焦在后者了。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

在推理侧投入更多资源,模型也就有了更完备的思考过程,投入的增加换来的是质的提升。

在国内,360创始人周鸿祎的理念与之不谋而合,而且360更早就提出了“慢思考”的理念,并在技术架构和产品中都付诸了应用。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

同时,360还在其AI产品中强调多模合作,让来自不同厂商的大模型“抱团取暖”,为国内模型追赶OpenAI,找到了一条可行的道路。

从o1看大模型“慢思考”

虽然o1的具体思考过程始终是OpenAI的至高机密,但可以肯定的是,思维链(Chain of Thought, CoT)在其中扮演了重要角色。

OpenAI在关于o1的报告中表示,思维链能让模型学会认识并纠正错误,学会将棘手的步骤分解为更简单的步骤,甚至学会尝试不同方法,极大地提高了模型的推理能力。

今年的AI顶会ICLR上,谷歌大脑推理团队创建者Denny Zhou,清华姚班校友、斯坦福助理教授、斯隆奖得主马腾宇等人的一篇论文,更是揭开了思维链的无限潜能。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

透过现象看本质,从某种程度上看,思维链的本质就是2002年诺贝尔经济学奖得主卡尼曼在《思考快与慢》中提出的“系统2”,也就是“慢思考”系统。

所谓“系统2”或“慢思考”,是指复杂、有意识的推理,与之相对的是“系统1”或“快思考”,即简单无意识的直觉。

而o1的表现证明,这种适用于人类的“慢思考”理念,对大模型来说同样适用。

但应当注意的是,这两种系统在人脑中是同时存在、相互配合的,在大模型当中也不应被割裂开来。

周鸿祎认为,o1遵循的可能就是“双系统理论(Dual Process Theory)”,其核心在于快慢两种系统的协同运作。

作为“百模大战”的选手,周鸿祎和360,也是“慢思考”以及“多系统协同”的思考者和先行者。

7月底的ISC.AI大会上,周鸿祎就宣布,要“打造慢思考系统,从而增强大模型的慢思考能力”。

基于“多系统协同”机制,360利用多个模型组成的智能体框架,实现了大模型从“快思考”到“慢思考”的转变,并打造出了两款明星AI产品——360AI搜索和360AI浏览器。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

让不同大模型“抱团取暖”

360AI搜索一共有简洁回答、标准回答和深入回答三种模式,其中一次深入回答会可能就要涉及7-15次的大模型调用。

比如可能会涉及1次意图识别模型调用,1次搜索词改写模型调用,5次搜索调用,1次网页排序调用,1次生成主回答调用,1次生成追问调用……

在多个模型的协同配合下,360AI搜索形成了这样的工作链路:

首先利用意图分类模型,对用户的问题进行意图识别; 接着用任务路由模型对问题进行拆解,不同的问题可以划分成“简单任务”、“多步任务”和“复杂任务”,对多个模型进行调度; 最后构建AI工作流,使多个大模型协同运作。

比如面对一道古诗词中译英题目,路由模块就会调用起翻译、反思等多个模型,让这些模型分工配合、共同完成任务。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

而且最新版本还在生成答案过程中进一步加强了多模型协作,将其作为了一种独立的回答模式。

三个不同模型分别扮演生成初步答案的专家、检查回答的反思者和最终给出答案的总结者。

例如在这个案例中,作为专家的Kimi提到了问题的关键,但表述不够鲜明,在反思模型360智脑的建议下,豆包进行了重新总结,形成了直击问题的解答。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

这样的工作模式不仅将快慢思考协同和反思机制引入了AI应用,更通过不同模型的交叉验证,进一步提高了整体表现。

在另一款AI产品——360AI浏览器当中,16家厂商的54款大模型也已齐聚一堂,可以实现多种传统浏览器所不具备的能力。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

AI浏览器可以10秒钟总结上万字英文学术论文,针对其中的细节也可以尽情发问。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

可以沉浸式翻译pdf文档,原文和译文同步滚动、随时对照。

还能化身“AI省流侠”,分分钟帮忙总结在线视频内容并划出重点,还能根据视频架构绘制脑图,甚至分析创作风格……

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

不仅在线文档和视频可以解析,这一系列分析功能,对于本地文件也同样适用。

更为方便的是,360AI浏览器还有移动端版本,在手机上也能随时利用AI辅助上网冲浪。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

已经入驻360AI浏览器、同样基于CoE架构的AI助手(bot.360.com),则可根据任务类型和模型特长自动调度最合适的大模型。

无需切换平台,就能直接对话54款大模型,或者对话更加强大混合大模型,想选哪个就选哪个。

AI助手同样支持「多模型协作」,用户可以从54款模型中任选3款,分别做专家、反思者和总结者。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

未来,360还会推出由五个甚至更多模型协作完成任务的版本。

还是在360AI浏览器中,AI助手还上线了“模型竞技场”(bot.360.com),支持54款大模型产品的“同台竞技”,最新版本中还上线了“组队较量”、“匿名比拼”、“随机对战”等功能。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

总的来说,360AI搜索还是360AI浏览器虽然侧重点有所不同,但背后体现的还是那个核心理念——

在进行“慢思考”的同时,不卷单一模型的能力,而是让模型“抱团取暖”,博采众长,形成“众人拾柴火焰高”的局面。

当然,这样做的意义,也不仅仅是为用户带来了更好的AI体验,对各大模型的开发者而言同样是一种激励。

我们知道,大模型研发投入巨大,唯有足够多的用户才能够收回成本。

而依托360AI搜索、浏览器、安全卫士等入口,360将能够触达10亿用户的入口开放给了大模型开发者。

这也是阿里、腾讯、百度等大厂,以及大模型六小虎纷纷加入360AI架构的重要原因。

所以,360与这十多家厂商双向奔赴,实现了模型与AI应用相互促进、彼此发展的良性循环。

模型竞技场更是给国产大模型提供了一个在竞争中学习的平台,以及获得用户评价的绝佳机会,塑造了更加积极进取的氛围。

“消灭”Prompt工程

从技术层面上看,在理念与产品之间架起桥梁的,是360独创的CoE(Collaboration-of-Experts,专家协同)架构。

CoE架构集合了数量更多的大模型和专家模型,通过思维链和“多系统协同”的方式实现了“快思考”和“慢思考”的有机结合。

在思路上,CoE与o1选择了相近的路线,但是在深度上走得更远——

o1无论再怎么融合,也无外乎是OpenAI的自家模型,CoE却是海纳百川,集合了数量更多的大模型和专家模型。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

△CoE架构原理图

而且,CoE架构中还接入了很多十亿甚至更小参数的专家模型,使得整个系统更加智能,在获得高质量回答的同时,节约推理资源、提升响应速度。

早在CoE架构刚发布的时候,基于CoE集各家所长的混合大模型能力就超过了(当时最强的)GPT-4o。

该混合大模型在翻译、写作等12项指标的测试中取得了80.49分的综合成绩,超越了GPT-4o的69.22分;而且除了代码以外,其余11项指标均优于GPT-4o。

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

而且CoE架构对所有模型都敞开怀抱,比OpenAI在开放协作的道路上走的更远……

另外,无论是OpenAI的o1,还是360的CoE,都将让大模型的发展走向一个新的趋势——

复杂的人工环节将实现自动化,具体到大模型当中,就是“消灭”Prompt工程。

乍一看有些反直觉,因为在我们使用大模型时,提示词的好坏对生成内容有着决定性的影响,其重要性不言而喻。

但仔细想想又并不矛盾——大模型等AI应用,归根结底是要为了人类而服务;

而提示工程却是让人类去适应模型的工作方式,简直“倒反天罡”。

所以,提示工程固然重要,但不该成为普通用户使用大模型的“绊脚石”。

解决的思路就是将提示词的设计工作,像其他任务一样,作为思维链中的一环,交给大模型来做。

这样的模式下,提示工程的灵魂依然被保留,但在用户的视野当中逐渐淡化,形成一种“消亡”的感观。

这种模式背后所反映的,也是360对AI未来发展的一点期许——

实现AI向着更多人的普惠,让大模型不再“高居庙堂”,而是成为万家灯火。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-21 11:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

智谱AI“中国版Sora”实测:6秒视频排队2分钟,猫猫很可爱,人手很翻车
智东西7月26日报道,今天一早,大模型独角兽智谱AI正式发布视频生成工具清影,可支持文生、图生6秒时长的视频,即日起在PC端、手机App端以及小程序端面向所有C端用户免费开放。先
2024-07-27 09:18:00
国内第一款AI搜索来了!首发实测:0广告、自动总结成文
AI大模型搅局搜索这事,又热闹起来了。谷歌除了推出Bard,也开始在传统搜索上实验AI增强;微软必应悄悄增加GPT-4启用开关
2023-08-25 10:42:00
视频大模型Vidu发布3个月后正式全球上线 记者实测
7月30日,曾于3个月前亮相中关村论坛的AI生成视频大模型Vidu正式上线,开放给全球用户使用。Vidu是文生视频大模型Sora爆火之后
2024-07-31 16:06:00
智谱AI视频大模型上线排队30秒生成6秒视频 记者现场实测
Sora引爆公众对大模型生成视频能力的期待后,国内企业也纷纷开启了文生视频领域的探索,继短视频企业快手推出视频模型可灵之后,专注于大语言模型的智谱AI也官宣进军视频模型领域。7月
2024-07-27 16:43:00
...公司动态|上海建工四建集团发布建筑业首个百亿字符大模型;海外市场|德勤中国与亚马逊云科技成立生成式AI联合实验室;行业政策 | 四川算力调度服务平台正式启动建设 华为、亚信科
2023-11-22 17:03:00
\
...直播活动中,CTO田密宣布好未来自研的数学领域千亿级大模型MathGPT开启内测。好未来介绍,MathGPT是面向全球数学爱好者和科研机构
2023-08-28 15:17:00
IDC权威评测:文心快码位居国内代码生成产品评估第一
...品能力实测总分第一在代码生成实测维度,当企业调用大模型能力来辅助编码时,可能在对话问答、搜索、代码生成工具等多个网页、客户端、APP的应用服务中展开,IDC 围绕专门为开发人
2025-06-04 15:12:00
Midjourney地位不稳?AI绘图又一黑马出现,附4款产品一手实测
...称表现优于DALL-E 3、Midjourney v6、Stable Diffusion 3等一众绘图模型。或许是受刺激了(doge)
2024-08-26 09:56:00
MIT最新研究:多个AI协作有助提高大模型推理能力和准确性
...科学与人工智能实验室(CSAIL)研究团队发现,多个语言模型协同工作胜过单一模型,多个AI协作有助于提高大型语言模型的推理能力和事实准确性。·每个语言模型都生成对给定问题的回
2023-09-20 13:42:00
更多关于科技的资讯:
聚焦2025中国国际数字经济博览会·访谈|沈昌祥:发挥优势,不断筑牢人工智能安全底座
发挥优势,不断筑牢人工智能安全底座——访中国工程院院士沈昌祥中国工程院院士沈昌祥。 河北日报记者 李东宇摄2025中国国际数字经济博览会的主题为“可信数据赋能产业发展”
2025-10-18 08:25:00
10月17日,2025中国国际数字经济博览会,一款AI绘画机器人精准识别人脸神态,快速绘画出人脸素描,被这只机械臂画得心服口服。(摄制:苏畅、白中豪、朱泊宇)
2025-10-18 08:27:00
深化开发利用,让高质量数据“动”起来——2025中国国际数字经济博览会探新之一机器人亮绝活、大模型总动员、虚拟空间沉浸体验……10月17日
2025-10-18 08:37:00
厦门网讯(厦门日报记者 薛尧)苹果iPhone17 Air昨日正式开启预售,这款取消实体卡槽、仅支持eSIM(嵌入式虚拟SIM卡)的新机
2025-10-18 08:59:00
近日,建设银行正式启动“‘享趣’玩·惠游中华”信用卡活动,为客户提供涵盖景区票务、特色餐饮、文创消费等多方面的用卡优惠
2025-10-18 10:41:00
海信贾少谦:AI重塑企业管理模式,打法要快,生意要慢
10月17日,第十五届中国管理·全球论坛暨首届“中国企业管理最佳实践榜”发布盛典在青岛举办。作为C50+2025年度轮值企业家召集人
2025-10-18 10:57:00
竹溪县数字经济产业链招商签约超亿元
十堰广电讯(全媒体记者 白孟尧 通讯员 付延峰)竞逐数字经济新赛道,孕育产业链招商硕果。10月18日,湖北十堰竹溪县竹溪数字经济产业链招商暨2025“国芯一号”生态合作伙伴大会在桃花岛夯土小镇举行
2025-10-18 13:47:00
东南网龙岩10月17日讯(通讯员 陈碧霞)近日,工行龙岩漳平支行组织青年志愿者主动深入当地企业园区,精心开展集“个人金融产品精准营销”与“金融反诈知识普及”于一体的“一站式”综合服务活动
2025-10-18 16:32:00
烟台银行荣登2025上半年度高质量数字化转型十大典型案例榜单
近日,由中国信通院主办的以“洞见十五五”为主题的2025数字生态发展大会暨“铸基计划”年中会议在北京盛大召开。会上,烟台银行联合长亮科技申报的《DataOps赋能烟台银行建设高质量智能数据中枢》案例
2025-10-18 17:45:00
视源股份广交会展示AI全场景创新实力,机器人机器人系列产品亮相成焦点
在第138届中国进出口商品交易会(广交会)上,视源股份以“AI+未来教育、AI+企业服务、AI+机器人、AI+生活”为主线
2025-10-18 18:18:00
本土智造重磅升级,医科达将八度亮相进博
第八届中国国际进口博览会(进博会)进入倒计时,作为八年“全勤生”,全球精准放疗先锋医科达将以“共建本土生态,共筑抗癌未来”为主题
2025-10-18 18:42:00
不用等到20号了!现在来京东11.11 iPhone 17 Pro系列可领300元惊喜券
每年11.11对于广大果粉而言无疑是换新的绝佳时机,无论是追求最新款还是预算有限入手上一代机型都能享受到极具吸引力的价格
2025-10-18 18:43:00
破局重构引领前行,联众优车持续锻造二手车服务新基建
近年来,在国内汽车消费结构持续升级的背景下,二手车市场已成为拉动汽车消费的重要引擎。特别是随着国家一系列利好政策的推出
2025-10-18 18:43:00
从龙虎到鹤年堂 京东七鲜十月品牌日再造下一个老字号联名爆款
随着“养生年轻化”与“即食化养生”成为主流,当代消费者愈发青睐“轻松养生、即时进补”。如何让传统养生智慧通过自有品牌融入日常
2025-10-18 18:43:00
全时段畅飞 全年不限次:长龙航空“365畅飞卡”10月19日在京东旅行限时开售
国内随心飞历史新低,全时段畅飞、全年不限次!在推出海航随心飞,并创下2天超25万用户下单、2亿销售额的纪录之后,京东11
2025-10-18 18:45:00