• 我的订阅
  • 科技

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

类别:科技 发布时间:2024-06-14 09:18:00 来源:量子位

字节跳动的扣子(coze.cn),给国产大模型们组了个大局——

在同一个“擂台”上,两个大模型为一组,直接以匿名的方式PK效果!

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

例如我们对两位参赛“选手”同时提问今年高考的题目:

阅读下面的材料,根据要求写作。(60分)随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?以上材料引发了你怎样的联想和思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

点击问题的一瞬间,两位“选手”便立刻开始作答:

不难看出,两个大模型不论是在生成答案的速度,或是内容的侧重上均有所不同。

直到有一方作答完毕,这时候我们就可以开始投票了,一共有四个选项可选:

A表现更好 两个都好 两个都差 B表现更好

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

在这个case中,因为生成速度相似,我们姑且以个人文字审美为标准,先将票投给大模型A。

投票结束后,两位“选手”的庐山真面目也就揭晓了,分别是通义千问(A)和智谱(B)。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

这便是字节跳动的AI应用开发平台扣子上新的玩法——模型广场。

这种打擂台的模型,与此前国外极具权威性的大模型擂台Chatbot Arena类似。

它同样是通过用户的参与,匿名两个模型,根据生成内容的表现来打分。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

而且这种模式还得到了AI大神Karpathy的高度认可:

是我唯二信任的测试基准之一。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

不过有一说一,扣子能让自家“院子”里的大模型们玩这种模式,也是实属罕见。

那么模型广场具体又该如何操作?是否能够hold住脑洞大开的问题?

我们这就来实测一波。

匿名PK,够直接,够刺激

我们现在打开扣子的官网(coze.cn),点击左侧的导航栏“探索”列表中“模型广场”,便可开始体验了

整体来看,对战的模式一共分为三大类:

随机Bot对战 指定Bot对战 纯模型对战

刚才我们所展示的PK案例,就是点击“随机开始”按钮而来,也就是随机Bot对战。

具体而言,扣子会从已经上架的Bot中随机挑选一个,然后选择匿名的两个大模型进行PK。

这个模式考验的便是大模型们在任意业务场景下的文本生成、技能和知识调用等能力。

例如我们再来体验一番,这一次的场景就变成了数学老师,我们选择的问题:

某班30人中有15人参加数学建模竞赛,有8人参加数学竞赛,有6人参加英语竞赛,有3人三科竞赛都参加,请问三科竞赛都不参加的至少有多少人?

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

我们按照生成结果的简洁性,这次把票投给模型B,可以看到这次参赛的“选手”分别是通义千问(A)和MiniMax(B)。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

而指定Bot对战,则是需要我们先在模型广场下方的众多Bot中挑选一个要测试的场景,然后扣子再从系统中选择匿名的两个大模型来PK。

这个模式在业务场景方面就会更加聚焦和细分。

例如我们在茫茫Bot中,一眼就相中了“弱智吧十年练习生”:

这一次我们自己来提问:

被门夹过的核桃,还能补脑吗?

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

从答案中不难看出,两位“选手”都没有get到这句话里隐藏的“你脑袋被门夹了”的梗,因此——两个都差。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

最后一个模式便是纯模型对战——

忽略编排等各种Bot配置的影响,直接评估大模型的文本生成能力。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

我们依旧“弱智吧Style”:

高考满分才750,怎么才能考985?

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

两个大模型都精准get到了985是什么意思,因此依旧是——两个都好。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

值得一提的是,无论在哪种模式之下,“选手”如果在回答问题过程中暴露了自己的身份,那么用户所投出的票将被视为无效。

以上便是扣子给国产大模型们打擂台匿名PK的三种模式了。

而纵观扣子此次的新发布,除了大模型本身之外,另外一个关键要素便是Bot。

并且若是亲身体验一番下来,在扣子中创建Bot这件事,最为直接的感受就是够简单、够丰富。

小朋友都能搭建的Bot

其实模型广场是一个名叫“扣子AI工坊”(Coze AI Factory)活动的内容之一,是由扣子和英特尔联合推出的主题 Bot征集活动。

聚焦的是图文创作、实用工具、互动创意三个赛道。

但如果来到扣子的“Bot商店”,就不难发现,这里的Bot们并非是一尘不变的那种;相反,倒是非常紧跟热点,非常fashion。

例如正值刚刚高考完,Bot商店首页的“头条位置”留给的就是一个名叫“高考专业指南”的Bot,可以说是相当的应景。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

除此之外,像“国内高校百科”和“测测你的本命粽子”等Bot,也是紧跟热点和节假日。

而且Bot的数量之多,简直是刷不到底:

但比起数量来说,更重要的还是在扣子中创建复杂的Bot,仅需鼠标“点点点”,就连小朋友都能完成。

第一大步,点击创建Bot,简单填写基本信息:

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

第二大步,选择自己想要用的大模型:

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

目前可选的大模型包括豆包、通义千问、智谱、MiniMax、月之暗面和百川。

第三大步,给Bot添加“技能点”,同样是“点点点”的操作,就能在扣子已经拥有的海量插件、工作流等内容里pick自己想要的那一个。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

最后,一键“发布”,就可以上线想要拥有的Bot。

操作之简单,也就不难理解为何扣子上Bot的数量会如此惊人了。

字节的扣子在下一步什么棋?

我们再回到这次扣子新发布的模型广场,也正如我们在文章最开始提到的,这种把擂台玩法嵌入到自家大模型应用开发平台的,目前在业界算是少见。

那么,字节为什么要这么做?

首先从效果层面来看,从刚才我们创建Bot的过程中不难发现,它所依赖的能力最根本的就是来自扣子生态中所集成的大模型们。

而也正如业界已达成的共识那样——没有一个大模型能够“一统天下”,每个大模型都有自己的擅长之处。

加之每个Bot也都是在细分场景里各有侧重,因此合适的Bot遇到合适大模型,势必将产生1+1>2的效果。

其次从操作层面来看,模型广场的出现着实是为Bot开发者节省了挨个模型比对、试错的成本。

这无疑是给本就操作简易的扣子在操作上锦上添花。

最后是在可信度层面上,扣子所pick的类似Chatbot Arena的擂台模式,已然成为业界对大模型性能认可度的标杆。

毕竟除了前文提到的Karpathy之外,Jeff Dean和李开复也对这种模式给予过高度的认可。

一言蔽之,字节要做的,就是把AI应用开发门槛打下去,把生态壮大起来,让AI应用能“多快好省”地用起来。

扣子地址:coze.cn

模型广场地址:https://www.coze.cn/model/arena?bid=6cqlieuqs1019

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-14 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

字节扣子模型广场,给AI大模型搭了一座擂台
...代表性的是ChatGPT、字节豆包、文心一言。(图源:字节扣子)大模型将重构人机交互方式,应用的终极形态可能不一定再是基于触控点按GUI(图形交互界面)的App
2024-06-14 11:40:00
快手“可灵”意外走红,字节紧急追赶,AI文生视频赛道竞争加剧
...更是一项综合命题。近日,据“光子星球”报道,字节“扣子”平台的大量使用者,正寻求如何将创建的智能体、bot接入微信公号或小程序,讨论十分活跃。去年12月,字节在海外推出了AI
2024-08-01 09:32:00
字节跳动豆包大模型发布,火山引擎全栈AI服务助力企业智能化转型
...客户释放独有数据价值,让企业大模型应用轻松落地。 扣子产品经理 潘宇扬除了好的模型效果、便捷的插件、强劲的系统性能,还需要提供简单易用开发平台,才能让所有人都能成为 AI
2024-05-15 16:16:00
字节跳动发布豆包大模型 日均处理千亿级Tokens
...包大模型打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等AI创作工具,并把大模型接入抖音、番茄小说、飞书、巨量引擎等50余个业务,
2024-05-15 11:30:00
字节“扣子”加入AI战场,2024大模型能搞到钱吗?
...静默”状态的字节跳动终于有了新动作,其上线了“Coze扣子”AI Bot开发平台;与过往聊天机器人的形式不同,“扣子”更像是2023年11月Open AI发布的GPTs
2024-02-04 14:00:00
火山引擎ai大模型赋能千行百业成趋势
...包大模型打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等AI创作工具,并把大模型接入抖音、番茄小说、飞书、巨量引擎等50余个业务,
2024-05-17 11:56:00
揭秘字节AI版图:调集多位高管参战,数款重磅产品内测
...擎等业务部门,其中动作最大的Flow部门除了上线豆包、扣子等AI产品外,还将推出AI角色互动APP“话炉”,以及一款或为图片方面的AI产品“PicPic”
2024-02-18 13:00:00
视觉理解、3D生成,豆包这次又玩出了什么新花样?
...面向诸多企业用户,火山引擎这次特地升级了火山方舟、扣子和HiAgent三款平台产品,帮助企业构建好自身的AI能力中心,高效开发AI应用。(图源:雷科技) 其中,火山方舟发布
2024-12-18 22:49:00
联合实验室的科研将基于字节跳动豆包大模型展开
...推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。今年5月,字节跳动在2024春季火山引擎Force原动力大会上宣布自家
2024-12-14 01:07:00
更多关于科技的资讯:
中国蓝新闻讯 前不久,浙江省公布首批96家“科技新小龙”企业名单,涵盖新一代信息技术、生物医药、新材料等前沿领域。这些企业虽年轻
2026-01-08 20:27:00
中国蓝观察丨杭州也要造火箭!看商业航天在浙江开启新篇
中国蓝新闻讯 今天(1月7日),北京箭元科技有限责任公司(以下简称“箭元科技”)中大型液体运载火箭生产试验及总装总测基地正式落地浙江
2026-01-08 20:57:00
多彩贵州网讯鼠标轻点,数十公里外企业的用电异常数据实时呈现,以往需耗时多日现场排查的风险隐患,如今在几分钟内便可被系统自动识别与锁定
2026-01-08 21:59:00
江南时报讯 近年来,丹阳农商银行以“变中求进、守正创新”为主线,加快推进数字化转型,有力促进了数字金融协同发展,为普惠金融服务注入新动力
2026-01-08 22:32:00
合肥“机器人大学”新增“家庭课”:VR手把手教学,三个月“毕业”上岗
大皖新闻讯 家里乱了,谁来整理?这些日常家务,未来可能交给机器人。近日,合肥市具身智能机器人数据采集训练场在原有场景基础上
2026-01-08 18:05:00
三国何以“常青”?灵犀互娱发起游戏行业首个三国文化论坛
1月5日,中国游戏行业首个聚焦三国题材的文化论坛——“常青三国:重构、创新与全球化”在广州举行。论坛由南方周末报社与阿里巴巴灵犀互娱联合主办
2026-01-08 17:01:00
都匀佳速健诊所招新媒体运营 五险一金+弹性工作制
多彩贵州网讯(记者雷小露 裘金鉴) 为进一步扩大品牌影响力,推动科技医疗技术的广泛传播,都匀市佳速健健康管理有限公司(都匀佳速健诊所)现面向社会公开招聘新媒体运营专员1名
2026-01-08 17:05:00
【宅男财经|专家面对面】中新经纬1月7日报道称,蔚来创始人、董事长李斌表示,汽车行业和AI行业都在抢铜、银等原材料,原材料涨价还没有传导到终端售价
2026-01-08 14:13:00
中新经纬1月8日电 (谢婧雯)8日,“全球大模型第一股”智谱在港交所主板挂牌上市,发行价为每股116.20港元。智谱开盘价报120港元/股
2026-01-08 14:13:00
记者昨日从中国科学院获悉,“面向空间应用的锂离子电池电化学光学原位研究”项目已在中国空间站内开展,神舟二十一号航天员乘组共同在轨操作该项目实验
2026-01-08 15:08:00
上海晶珩ED-HMI3120:树莓派让工业控制可视化更简单
HMI3120工业人机界面是上海晶珩(EDATEC)最新推出的产品系列,内置树莓派CM5计算平台,融合了高性能处理能力
2026-01-08 15:23:00
26年深耕·千万青年共创:学院奖,链接青年力量与商业未来
当茅台王子酒的“王子音乐节”在高校掀起青春热潮,当可比克实践赛涌现出上千份青年创意实战方案,当江中健胃消食片通过校园共创唤醒品牌年轻记忆——中国大学生广告艺术节学院奖早已超越单纯的赛事维度
2026-01-08 15:25:00
确权破局护品牌,明远领航“大朴”启新程
随着国货家居品牌进入高质量发展阶段,维护品牌核心资产的唯一性已成为企业发展的重中之重。近日,家纺领军企业明远集团正式宣布
2026-01-08 15:26:00
百年守护 因AI而“声”动
2025年,故宫博物院迎来建院百年。 这一百年,是实物守护的百年——从战火中南迁万里护送国宝,到一代代匠人在红墙内对《五牛图》的精心修复
2026-01-08 16:39:00