• 我的订阅
  • 科技

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

类别:科技 发布时间:2024-06-14 09:18:00 来源:量子位

字节跳动的扣子(coze.cn),给国产大模型们组了个大局——

在同一个“擂台”上,两个大模型为一组,直接以匿名的方式PK效果!

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

例如我们对两位参赛“选手”同时提问今年高考的题目:

阅读下面的材料,根据要求写作。(60分)随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?以上材料引发了你怎样的联想和思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

点击问题的一瞬间,两位“选手”便立刻开始作答:

不难看出,两个大模型不论是在生成答案的速度,或是内容的侧重上均有所不同。

直到有一方作答完毕,这时候我们就可以开始投票了,一共有四个选项可选:

A表现更好 两个都好 两个都差 B表现更好

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

在这个case中,因为生成速度相似,我们姑且以个人文字审美为标准,先将票投给大模型A。

投票结束后,两位“选手”的庐山真面目也就揭晓了,分别是通义千问(A)和智谱(B)。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

这便是字节跳动的AI应用开发平台扣子上新的玩法——模型广场。

这种打擂台的模型,与此前国外极具权威性的大模型擂台Chatbot Arena类似。

它同样是通过用户的参与,匿名两个模型,根据生成内容的表现来打分。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

而且这种模式还得到了AI大神Karpathy的高度认可:

是我唯二信任的测试基准之一。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

不过有一说一,扣子能让自家“院子”里的大模型们玩这种模式,也是实属罕见。

那么模型广场具体又该如何操作?是否能够hold住脑洞大开的问题?

我们这就来实测一波。

匿名PK,够直接,够刺激

我们现在打开扣子的官网(coze.cn),点击左侧的导航栏“探索”列表中“模型广场”,便可开始体验了

整体来看,对战的模式一共分为三大类:

随机Bot对战 指定Bot对战 纯模型对战

刚才我们所展示的PK案例,就是点击“随机开始”按钮而来,也就是随机Bot对战。

具体而言,扣子会从已经上架的Bot中随机挑选一个,然后选择匿名的两个大模型进行PK。

这个模式考验的便是大模型们在任意业务场景下的文本生成、技能和知识调用等能力。

例如我们再来体验一番,这一次的场景就变成了数学老师,我们选择的问题:

某班30人中有15人参加数学建模竞赛,有8人参加数学竞赛,有6人参加英语竞赛,有3人三科竞赛都参加,请问三科竞赛都不参加的至少有多少人?

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

我们按照生成结果的简洁性,这次把票投给模型B,可以看到这次参赛的“选手”分别是通义千问(A)和MiniMax(B)。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

而指定Bot对战,则是需要我们先在模型广场下方的众多Bot中挑选一个要测试的场景,然后扣子再从系统中选择匿名的两个大模型来PK。

这个模式在业务场景方面就会更加聚焦和细分。

例如我们在茫茫Bot中,一眼就相中了“弱智吧十年练习生”:

这一次我们自己来提问:

被门夹过的核桃,还能补脑吗?

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

从答案中不难看出,两位“选手”都没有get到这句话里隐藏的“你脑袋被门夹了”的梗,因此——两个都差。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

最后一个模式便是纯模型对战——

忽略编排等各种Bot配置的影响,直接评估大模型的文本生成能力。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

我们依旧“弱智吧Style”:

高考满分才750,怎么才能考985?

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

两个大模型都精准get到了985是什么意思,因此依旧是——两个都好。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

值得一提的是,无论在哪种模式之下,“选手”如果在回答问题过程中暴露了自己的身份,那么用户所投出的票将被视为无效。

以上便是扣子给国产大模型们打擂台匿名PK的三种模式了。

而纵观扣子此次的新发布,除了大模型本身之外,另外一个关键要素便是Bot。

并且若是亲身体验一番下来,在扣子中创建Bot这件事,最为直接的感受就是够简单、够丰富。

小朋友都能搭建的Bot

其实模型广场是一个名叫“扣子AI工坊”(Coze AI Factory)活动的内容之一,是由扣子和英特尔联合推出的主题 Bot征集活动。

聚焦的是图文创作、实用工具、互动创意三个赛道。

但如果来到扣子的“Bot商店”,就不难发现,这里的Bot们并非是一尘不变的那种;相反,倒是非常紧跟热点,非常fashion。

例如正值刚刚高考完,Bot商店首页的“头条位置”留给的就是一个名叫“高考专业指南”的Bot,可以说是相当的应景。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

除此之外,像“国内高校百科”和“测测你的本命粽子”等Bot,也是紧跟热点和节假日。

而且Bot的数量之多,简直是刷不到底:

但比起数量来说,更重要的还是在扣子中创建复杂的Bot,仅需鼠标“点点点”,就连小朋友都能完成。

第一大步,点击创建Bot,简单填写基本信息:

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

第二大步,选择自己想要用的大模型:

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

目前可选的大模型包括豆包、通义千问、智谱、MiniMax、月之暗面和百川。

第三大步,给Bot添加“技能点”,同样是“点点点”的操作,就能在扣子已经拥有的海量插件、工作流等内容里pick自己想要的那一个。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

最后,一键“发布”,就可以上线想要拥有的Bot。

操作之简单,也就不难理解为何扣子上Bot的数量会如此惊人了。

字节的扣子在下一步什么棋?

我们再回到这次扣子新发布的模型广场,也正如我们在文章最开始提到的,这种把擂台玩法嵌入到自家大模型应用开发平台的,目前在业界算是少见。

那么,字节为什么要这么做?

首先从效果层面来看,从刚才我们创建Bot的过程中不难发现,它所依赖的能力最根本的就是来自扣子生态中所集成的大模型们。

而也正如业界已达成的共识那样——没有一个大模型能够“一统天下”,每个大模型都有自己的擅长之处。

加之每个Bot也都是在细分场景里各有侧重,因此合适的Bot遇到合适大模型,势必将产生1+1>2的效果。

其次从操作层面来看,模型广场的出现着实是为Bot开发者节省了挨个模型比对、试错的成本。

这无疑是给本就操作简易的扣子在操作上锦上添花。

最后是在可信度层面上,扣子所pick的类似Chatbot Arena的擂台模式,已然成为业界对大模型性能认可度的标杆。

毕竟除了前文提到的Karpathy之外,Jeff Dean和李开复也对这种模式给予过高度的认可。

一言蔽之,字节要做的,就是把AI应用开发门槛打下去,把生态壮大起来,让AI应用能“多快好省”地用起来。

扣子地址:coze.cn

模型广场地址:https://www.coze.cn/model/arena?bid=6cqlieuqs1019

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-14 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

字节扣子模型广场,给AI大模型搭了一座擂台
...代表性的是ChatGPT、字节豆包、文心一言。(图源:字节扣子)大模型将重构人机交互方式,应用的终极形态可能不一定再是基于触控点按GUI(图形交互界面)的App
2024-06-14 11:40:00
快手“可灵”意外走红,字节紧急追赶,AI文生视频赛道竞争加剧
...更是一项综合命题。近日,据“光子星球”报道,字节“扣子”平台的大量使用者,正寻求如何将创建的智能体、bot接入微信公号或小程序,讨论十分活跃。去年12月,字节在海外推出了AI
2024-08-01 09:32:00
字节跳动豆包大模型发布,火山引擎全栈AI服务助力企业智能化转型
...客户释放独有数据价值,让企业大模型应用轻松落地。 扣子产品经理 潘宇扬除了好的模型效果、便捷的插件、强劲的系统性能,还需要提供简单易用开发平台,才能让所有人都能成为 AI
2024-05-15 16:16:00
字节跳动发布豆包大模型 日均处理千亿级Tokens
...包大模型打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等AI创作工具,并把大模型接入抖音、番茄小说、飞书、巨量引擎等50余个业务,
2024-05-15 11:30:00
字节“扣子”加入AI战场,2024大模型能搞到钱吗?
...静默”状态的字节跳动终于有了新动作,其上线了“Coze扣子”AI Bot开发平台;与过往聊天机器人的形式不同,“扣子”更像是2023年11月Open AI发布的GPTs
2024-02-04 14:00:00
火山引擎ai大模型赋能千行百业成趋势
...包大模型打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等AI创作工具,并把大模型接入抖音、番茄小说、飞书、巨量引擎等50余个业务,
2024-05-17 11:56:00
揭秘字节AI版图:调集多位高管参战,数款重磅产品内测
...擎等业务部门,其中动作最大的Flow部门除了上线豆包、扣子等AI产品外,还将推出AI角色互动APP“话炉”,以及一款或为图片方面的AI产品“PicPic”
2024-02-18 13:00:00
视觉理解、3D生成,豆包这次又玩出了什么新花样?
...面向诸多企业用户,火山引擎这次特地升级了火山方舟、扣子和HiAgent三款平台产品,帮助企业构建好自身的AI能力中心,高效开发AI应用。(图源:雷科技) 其中,火山方舟发布
2024-12-18 22:49:00
联合实验室的科研将基于字节跳动豆包大模型展开
...推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。今年5月,字节跳动在2024春季火山引擎Force原动力大会上宣布自家
2024-12-14 01:07:00
更多关于科技的资讯:
东南网2月23日讯(福建日报记者 黄筱菁 通讯员 吴火招)这个春节,位于清流氟新材料产业园福宝片区的福建中欣氟材高宝科技有限公司(以下简称“中欣高宝”)
2026-02-24 00:07:00
新春佳节,当千家万户沉浸在团圆的喜悦中时,在宁波,有这样一群人,他们为了赶订单、保交付,选择坚守生产一线。据统计,今年春节期间
2026-02-23 17:31:00
定义AI数字化增长服务新模式 数织沅码亮相多地春晚舞台
2026年春节,AI驱动企业全球数字化增长的专业服务平台——数织沅码登陆江苏卫视、浙江卫视等多地春晚舞台,完成首次公开亮相
2026-02-23 11:47:00
中国科技品牌绿联推进充电宝品质升级,让充电更安心
对用户而言,充电宝早已不是偶尔应急的配件,而是通勤、差旅、校园与户外场景中的常备装备。行业也普遍认为,当快充普及、多设备协同成为日常
2026-02-23 13:11:00
引言:腥风血雨已至,智能体元年全面爆发2026年的春天,人工智能领域正经历一场前所未有的变革。当全球科技巨头仍在为生成式AI的迭代速度激烈竞逐时
2026-02-23 13:12:00
以武会春,宇树春晚机器人马年秀出“赛博真功夫”
新春启序,万象更新。在中央广播电视总台2026年春晚舞台上,宇树科技作为春晚机器人合作伙伴第三次登台亮相,携G1与H2人形机器人献上全球首次全自主人形机器人集群武术表演(带集群快速跑位)
2026-02-23 11:47:00
大年初六,位于余杭区“中国飞谷”的重隼智能科技(浙江)有限公司马力全开,以开局即冲刺的姿态,奋力跑出新年发展第一棒。“作为一家深耕无人机具身智能集成创新的科技型企业
2026-02-23 07:58:00
2月20日上午9时,太原武宿综合保税区A座环球优选品牌店的大门准时开启,300余款新春礼盒整齐排列,品类丰富,琳琅满目
2026-02-23 07:29:00
“十五五”开局看河北|淡季不淡,冀东普天产销两旺
新年首月销售额近8000万元,同比增长14.3%淡季不淡,冀东普天产销两旺1月26日,冀东普天线缆有限公司工人正在优化生产设备
2026-02-23 07:37:00
河北日报讯(记者孙也达)2月14日,秦皇岛晟成自动化设备有限公司生产的全球首台套出口型电磁加热多层层压机完成拆解,运往美国
2026-02-23 07:48:00
双轮驱动,智启未来:刘晓春与AI智能体×机器人“姊妹组合战略”的全球布局
2026,智能时代的分水岭2026年的春天,马年春晚的舞台上,一场科技盛宴惊艳了全球观众——30多台国产机器人协同起舞
2026-02-22 12:05:00
新春走基层丨厦企加快数字化转型步伐 提前返岗忙生产赶订单
明翰电气的工人春节期间坚守岗位。(记者 林铭鸿 摄)厦门网讯(厦门日报记者 林露虹)放置材料、调试机台……正月初五,厦门明翰电气股份有限公司(以下简称“明翰电气”)已忙碌起来
2026-02-22 08:50:00
新春走基层 | 森一量子为赶订单全员在线 生产线满负荷运转
昨日记者走进森一量子,这一企业春节期间全员加班加点。厦门网讯(厦门日报记者 李晓平)长晶、 切割、减薄、抛光、镀膜……当大多数人还沉浸在春节的喜庆中
2026-02-22 08:50:00
我带着一款AI眼镜回家过年
记者带回家的AI眼镜二伯买的宇树机器狗Go2今年的春晚有一个格外醒目的变化——“AI含量”明显提升。年夜饭桌上,亲戚们都在聊各自手机里的各种“AI”App
2026-02-22 07:49:00
中国科大实现碳化硅改性双空位色心的电荷态调控
大皖新闻讯 2月21日,大皖新闻记者从中国科学技术大学获悉,该校郭光灿院士团队在碳化硅改性双空位色心电荷态调控的研究中取得了新进展
2026-02-21 16:48:00