• 我的订阅
  • 科技

11项指标击败GPT-4o!360攒局让16家大模型联手作战

类别:科技 发布时间:2024-08-06 09:27:00 来源:量子位

终于,国产大模型能在综合能力上也能与GPT-4o一决雌雄了。

在12项指标的测试中,这个模型有11项都超过了GPT-4o,综合能力则高出了10个百分点。

而且在诗词赏析等中文特色领域优势更加明显,“最难中文Benchmark”弱智吧也有重大突破。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

不过,这并不是一家大模型厂商单打独斗的结果,而是由16家厂商组成的“联合战队”。

战队的发起者是360,除了自己参与外,包括BAT在内的大厂有百度、字节跳动、腾讯、阿里巴巴、华为,国产大模型“五小虎”,智谱AI、月之暗面、MiniMax、百川智能、零一万物,还有五家头部垂类厂商,商汤科技、科大讯飞、好未来、幻方量化、面壁智能,总计16家厂商都已悉数到齐。(注:以上排名不分先后)

现在,这个“联合战队”已经被请进了产品——在AI助手当中,所有用户都能免费使用。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

十多个大模型给你打工

在 AI助手当中,16家厂商的大模型已齐聚一堂,可以在同一平台直接对话,想选哪个就选哪个。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

而且中途还可以随时切换模型,系统会记住前面的上下文,让后面的模型继续完成对话。

比如在下面这个对话窗口中,我们问了智谱9.11和9.8哪个大,然后就把模型切换成了星火,直接问是怎么比的。

从对话中可以看出,后面换上来的星火准确地得知了“怎么比的”这四个字问的是小数大小的比较。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

当然,针对同一问题,也可以直接召唤出另一家的模型现场PK。

在模型PK的同时,我们也能看到更多的信息或答案,不仅可以让答案更详尽,还能交叉验证。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

举个例子,我们提出了关于电视剧《雍正王朝》中两个角色关系的问题,问题首先提给了智谱。

接着我们又让文心一言也来回答一下,看看能不能获取到更多的信息,结果智谱的回答没有错,文心一言则给出了更为详细的补充。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

更关键的是360 AI助手针对选择困难症患者,或者不清楚哪个模型更合适的用户也极为友好。

只要选择“AI助手”本体作为对话模型,系统就会根据对话内容判断你的意图,然后根据任务类型自动匹配最合适的模型。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

比如在完成写作类任务的时候,AI助手就会给我们分配擅长文案的豆包。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

遇到编程问题,就会召唤代码能力较强的DeepSeek。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

以逻辑推理为主的问题,可能会让智谱来应对。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

当然界面中所展示的任务分类比较具有概括性,实际运行过程中AI助手还对任务进行了更细粒度的划分。

另外,在选择模型的同时,AI助手还会先进行联网搜索。

所以,使用AI助手的另一个好处就是可以获得最新的信息,而不必担心模型的知识库更新时间。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

针对一些常见任务,AI助手平台还准备了专用的助手,能够更好地实现这些功能。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

除了在网页中使用,AI助手还有另外两大入口——桌面和360安全浏览器。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

比如在360安全浏览器中,安装好AI助手插件,在浏览网页时就会在右下角看到一个悬浮球。

点击一下就可以在右侧边栏中召唤出AI助手,写作时也可以在同一个窗口中快速和AI对话了。

另外在鼠标划过悬浮球时,上方还会出现一个新的按钮,点击之后就可以对当前浏览的页面进行一键总结。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

页面里的细节内容,也可以向AI助手提问。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

而且还支持总结英文内容。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

另外就是针对页面中的个别词句,选中后会出现AI助手的工具条,可以对选中部分进行翻译、解释,或联网检索更多相关信息。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

桌面端则依托360安全卫士实现,功能与浏览器相似,但把划词召唤的范围从网页扩展到了整个系统。

那么在AI助手的背后,又运用了什么样的技术呢?

独创“专家协同”架构

实际上,这种根据需求调度大模型的用法,也刚好是360推出的一项新技术——CoE(Collaboration-of-Experts),即专家协同架构。

我们知道,很多国产模型在单项指标上都打平甚至超越了OpenAI,但论综合实力,差距就显现出来了。

而360的思路,是改变这种“单打独斗”的模式,构建大模型“专家集群”,组成混合大模型,从而各取所长,以“联合战队”的方式迎战GPT-4o。

结果,基于360 CoE架构的、由16家国产大模型组成的混合大模型在12项指标的测试中取得了80.49分的综合成绩,超越了GPT-4o的69.22分。

而且除了代码以外,其余11项指标均优于GPT-4o。

特别是在“弱智吧”和诗词赏析这类比较具有中文特色的问题上,CoE的领先优势更加明显。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

相比于MoE(Mixture-of-Experts,混合专家)架构,360的CoE模型在速度、智能和成本三个层次上都拥有显著的优势。

CoE通过意图识别和任务调度,最优化推理资源分配,提升效率,降低成本,推理成本下降90%。

为了能够以最高效的方式对CoE架构中的模型进行调度,至少有两方面的工作不可或缺。

一是对这些模型能力的全面评估,只有这样,才能了解每个模型所擅长的领域,知道应该给模型分配什么样的任务。

为此,360对专家库中的模型在12个领域的表现进行了全方位测试,摸清了模型的特色能力。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

△除GPT-4o外,其余模型名称已隐去

另一个方面,就是用户意图的解读了——对任务需求的理解,显然是分配模型不可或缺的基础。

基于过去10年在做搜索引擎时积累的技术和数据,360训练出了能识别超过1亿种意图分类的专用模型。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

让AI更加普惠

除了技术功底,我们不禁还想问,360是如何组局,让15家大模型厂商“尽入毂中”的呢?

360公司创始人兼董事长周鸿祎介绍,众厂商愿意合作的出发点在于大模型投资巨大,只有有人用才有可能覆盖成本,才能不断改进产品。

而360拥有大量用户,可以开放桌面和浏览器两大明星场景,可以给这些模型带来庞大的用户群体。

相比于插件,这两个入口让用户离大模型的能力非常近,而大模型今天最大的需求恰恰就是接近场景和用户,用户才能使用。

另外,集成式的AI助手规避了单个大模型的能力短板,各取所长能够超过GPT-4o,这就给了厂商一个让用户接触使用的机会,未来还会释放出更多的场景。

可以说,360 AI助手的这种模式,是AGI到来前一种很好的提升模型水平的方案,对提高AI渗透率也有所裨益。

11项指标击败GPT-4o!360攒局让16家大模型联手作战

最近,国内的大模型厂商开始形成共识,变得更加开放,纷纷提供的更便宜的Token API。

所以,360对桌面和浏览器这两个入口的开放,不仅是为了“聚天下英才”,也是在顺应这种走向开放的大趋势。

站在更高的层次上,360还希望实现AI向着更多人的普惠。

周鸿祎认为,AI并不是会不淘汰人,而是会淘汰不懂得用AI的人;而对于会用的人来说,AI将是强有力的工具。

但同时,AI本身也不应该居高临下,而是应该让愿意学习它的人都有机会掌握。

这就是360所讲的AI普惠——让所有人能够享受AI带来的能力,避免落后于AI时代。

AI助手传送门:https://bot.360.com

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-06 11:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

“华米OV”的新战场:手机大模型
...模型,“华米OV”的新战场中国的手机厂商们喜欢“抱团作战”,在进军大模型上也不例外。“华米OV”各就各位后,大模型在手机上的落地到底怎么样?即将进入到“实践检验真理”的时刻。
2023-10-26 18:02:00
一年投入数十亿,手机厂商抢滩大模型 | 焦点分析
作者丨邱晓芬编辑丨苏建勋当产业链还在为大模型如何落地苦恼时,手机厂商早已抢占了先机。大模型的战火烧到了手机厂商。11月2日,vivo发布十亿、百亿、千亿级别三个参数量级的五个大模
2023-11-03 11:31:00
金山办公陈波:携手联想加速与AI PC适配,打造智能办公新体验
...,今年4月推出了国内首个智能办公应用——基于大语言模型的智能办公助手WPS AI,并陆续接入金山办公旗下办公组件轻文档、文字、表格、演示文稿、PDF应用。陈波介绍道,智能办公
2023-12-08 16:09:00
让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻
【新智元导读】o1大火背后,最关键的技术是CoT。模型通过一步一步推理,恰恰是「慢思考」的核心要义。而这一观点,其实这家国内大厂早就率先实现了。OpenAI的理念,居然被国内公司
2024-09-21 09:50:00
思迈特:大模型加持下,智能BI如何引领行业变革?
...业逐步实现场景驱动价值,最终走向奥特曼的预言。以大模型为代表的AI与BI结合的智能BI,成为这其中的典型代表、注解。以聊天式BI(ChatBI)为主要外在表现形式,智能BI正
2024-10-16 11:00:00
把大模型装进手机,还要等多久?
...且昂贵。如何在手机、PC等终端侧实现对于生成式AI、大模型能力的支持成为业界期待。近期,移动连接,智能边缘计算领军企业高通所进行一系列创新演示,让业界看到,生成式AI实现在终
2023-07-15 10:00:00
手机厂商集体奔向大模型,但应用场景仍局限于语音助手?
出品 | 搜狐科技作者 | 张雅婷“未来大模型对手机行业来说可能是一个颠覆性的变革,AI让手机真正实现理解用户的大跨越。”在8月17日的小米沟通会上,小米向搜狐科技等媒体透露,小
2023-08-18 22:01:00
把大模型装进手机,总共分几步?
...去上海参加华为春季新品发布会,用一页keynote提到了大模型技术与手机硬件的结合。虽然只有短短的一两分钟,但我专门发了一条朋友圈,看好自然语言交互能力在手机上的应用。当时我
2023-11-15 14:47:00
数势携手百川发布大模型联合解决方案,推动中国大模型价值落地
...创科技有限公司(以下简称“数势科技”)和国内通用大模型厂商北京百川智能科技有限公司(以下简称“百川”)联合发布大模型数据分析垂直领域应用解决方案。此联合解决方案是双方能力耦合
2024-02-26 16:21:00
更多关于科技的资讯:
南报网讯(通讯员胡晓靓记者夏思宇)走进南京绿叶制药有限公司制冷站,冷水机组、冷冻水泵、冷却水泵、冷却塔等设备稳定运转,维持药品生产GMP车间的恒温恒湿环境
2025-10-17 08:13:00
聚焦2025中国国际数字经济博览会•现场|打卡数字展馆 体验未来生活
10月16日,2025中国国际数字经济博览会展区工作人员在调试机器人。 河北日报记者 史晟全摄借助VR设备沉浸在古城往事中
2025-10-17 08:23:00
我从事科技研发工作,出生在一个三代从商的家庭。我的祖父是一名民营企业家,在枣强县这片土地上开启了玻璃钢产业创业之路;我的父亲骑着一辆摩托车闯荡天津
2025-10-17 09:11:00
博物馆“抢票”成第一关,中轴线打卡、汉服妆造让历史游玩出沉浸新花样……音乐节、演唱会与国际顶级体育赛事一票难求,“为一场演出赴一座城”成为常态
2025-10-17 09:15:00
新闻纵深·县域特色产业新力量|借力京津,机器人产业双链融合
阅读提示唐山市高新技术产业开发区在机器人新赛道上频频发力,已形成以工业机器人为引领、特种机器人为亮点、服务机器人为特色
2025-10-17 09:19:00
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新最近在金华街头,不少人注意到一组频繁穿梭的出租车广告:“住旭客民宿
2025-10-17 09:25:00
AI EMPOWERS ALL丨神州泰岳亮相中国移动全球合作伙伴大会
碳硅共生,合创AI+时代——第13届中国移动全球合作伙伴大会于今日在广州保利世贸博览馆盛大启幕。神州泰岳作为中国移动长期重要合作伙伴
2025-10-17 09:25:00
内容觉醒·生态共创 | 2025瑞派短视频大赛职人组培训圆满落幕
金秋时节,硕果盈枝。由瑞派股份市场营销中心倾力打造的“2025年度瑞派短视频大赛职人专属赛道培训”在热烈氛围中圆满收官
2025-10-17 09:55:00
市场销售疲软,高档卷烟销售增速放缓,中低档卷烟却因消费需求旺盛出现供应紧张的问题,这是当前卷烟销售工作面临的瓶颈。受计划经济体制影响
2025-10-17 10:02:00
浪潮科技三款平台产品或升级认可
近日,山东省工业和信息化厅公布了拟入选第九批山东省首版次高端软件产品公示名单。浪潮科技研发的“焱宇行业大模型服务平台 V1
2025-10-17 10:03:00
旅服会媒体开放日:全产业链盛会引关注
16日,由中国旅行社协会、中国旅游集团主办的2025首届国际旅行服务大会暨交易展(以下简称“旅服会”)迎来媒体开放日。来自30余家主流媒体
2025-10-17 10:04:00
把听劝搬到线下!海尔智家双11邀500+达人发起智慧科技众测
今年双11,海尔智家把“听劝”从线上搬到了线下,在黄岛东方影都打造了一场规模空前的“智慧科技众测”现场,让“用户声音”与“产品研发”真正零距离对话
2025-10-17 10:07:00
微光照公信:32 名贵州师生北京研学,解码体彩阳光密码
多彩贵州网讯 10月13日,为期三天的“2025微光行动·希望工程”体彩旭日研学实践活动正式拉开帷幕。来自贵州民族大学
2025-10-17 10:15:00
“绽放杯”区域赛获佳绩,5G融合应用助力产业智变升级
10月15日,第八届“绽放杯”5G应用征集大赛山东区域赛决赛及颁奖典礼在济宁落下帷幕。本次大赛以“5G扬帆再启航,智绘齐鲁新篇章”为主题
2025-10-17 10:34:00
小米SU7事故后雷军首度发声!呼吁共同抵制网络水军、黑公关
据澎湃新闻消息,雷军在小米汽车成都事故后首次公开露面演讲。10月16日,世界智能网联汽车大会,小米CEO雷军在演讲中表示
2025-10-17 10:34:00