• 我的订阅
  • 科技

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

类别:科技 发布时间:2024-06-14 09:18:00 来源:量子位

字节跳动的扣子(coze.cn),给国产大模型们组了个大局——

在同一个“擂台”上,两个大模型为一组,直接以匿名的方式PK效果!

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

例如我们对两位参赛“选手”同时提问今年高考的题目:

阅读下面的材料,根据要求写作。(60分)随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?以上材料引发了你怎样的联想和思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

点击问题的一瞬间,两位“选手”便立刻开始作答:

不难看出,两个大模型不论是在生成答案的速度,或是内容的侧重上均有所不同。

直到有一方作答完毕,这时候我们就可以开始投票了,一共有四个选项可选:

A表现更好 两个都好 两个都差 B表现更好

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

在这个case中,因为生成速度相似,我们姑且以个人文字审美为标准,先将票投给大模型A。

投票结束后,两位“选手”的庐山真面目也就揭晓了,分别是通义千问(A)和智谱(B)。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

这便是字节跳动的AI应用开发平台扣子上新的玩法——模型广场。

这种打擂台的模型,与此前国外极具权威性的大模型擂台Chatbot Arena类似。

它同样是通过用户的参与,匿名两个模型,根据生成内容的表现来打分。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

而且这种模式还得到了AI大神Karpathy的高度认可:

是我唯二信任的测试基准之一。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

不过有一说一,扣子能让自家“院子”里的大模型们玩这种模式,也是实属罕见。

那么模型广场具体又该如何操作?是否能够hold住脑洞大开的问题?

我们这就来实测一波。

匿名PK,够直接,够刺激

我们现在打开扣子的官网(coze.cn),点击左侧的导航栏“探索”列表中“模型广场”,便可开始体验了

整体来看,对战的模式一共分为三大类:

随机Bot对战 指定Bot对战 纯模型对战

刚才我们所展示的PK案例,就是点击“随机开始”按钮而来,也就是随机Bot对战。

具体而言,扣子会从已经上架的Bot中随机挑选一个,然后选择匿名的两个大模型进行PK。

这个模式考验的便是大模型们在任意业务场景下的文本生成、技能和知识调用等能力。

例如我们再来体验一番,这一次的场景就变成了数学老师,我们选择的问题:

某班30人中有15人参加数学建模竞赛,有8人参加数学竞赛,有6人参加英语竞赛,有3人三科竞赛都参加,请问三科竞赛都不参加的至少有多少人?

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

我们按照生成结果的简洁性,这次把票投给模型B,可以看到这次参赛的“选手”分别是通义千问(A)和MiniMax(B)。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

而指定Bot对战,则是需要我们先在模型广场下方的众多Bot中挑选一个要测试的场景,然后扣子再从系统中选择匿名的两个大模型来PK。

这个模式在业务场景方面就会更加聚焦和细分。

例如我们在茫茫Bot中,一眼就相中了“弱智吧十年练习生”:

这一次我们自己来提问:

被门夹过的核桃,还能补脑吗?

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

从答案中不难看出,两位“选手”都没有get到这句话里隐藏的“你脑袋被门夹了”的梗,因此——两个都差。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

最后一个模式便是纯模型对战——

忽略编排等各种Bot配置的影响,直接评估大模型的文本生成能力。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

我们依旧“弱智吧Style”:

高考满分才750,怎么才能考985?

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

两个大模型都精准get到了985是什么意思,因此依旧是——两个都好。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

值得一提的是,无论在哪种模式之下,“选手”如果在回答问题过程中暴露了自己的身份,那么用户所投出的票将被视为无效。

以上便是扣子给国产大模型们打擂台匿名PK的三种模式了。

而纵观扣子此次的新发布,除了大模型本身之外,另外一个关键要素便是Bot。

并且若是亲身体验一番下来,在扣子中创建Bot这件事,最为直接的感受就是够简单、够丰富。

小朋友都能搭建的Bot

其实模型广场是一个名叫“扣子AI工坊”(Coze AI Factory)活动的内容之一,是由扣子和英特尔联合推出的主题 Bot征集活动。

聚焦的是图文创作、实用工具、互动创意三个赛道。

但如果来到扣子的“Bot商店”,就不难发现,这里的Bot们并非是一尘不变的那种;相反,倒是非常紧跟热点,非常fashion。

例如正值刚刚高考完,Bot商店首页的“头条位置”留给的就是一个名叫“高考专业指南”的Bot,可以说是相当的应景。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

除此之外,像“国内高校百科”和“测测你的本命粽子”等Bot,也是紧跟热点和节假日。

而且Bot的数量之多,简直是刷不到底:

但比起数量来说,更重要的还是在扣子中创建复杂的Bot,仅需鼠标“点点点”,就连小朋友都能完成。

第一大步,点击创建Bot,简单填写基本信息:

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

第二大步,选择自己想要用的大模型:

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

目前可选的大模型包括豆包、通义千问、智谱、MiniMax、月之暗面和百川。

第三大步,给Bot添加“技能点”,同样是“点点点”的操作,就能在扣子已经拥有的海量插件、工作流等内容里pick自己想要的那一个。

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

最后,一键“发布”,就可以上线想要拥有的Bot。

操作之简单,也就不难理解为何扣子上Bot的数量会如此惊人了。

字节的扣子在下一步什么棋?

我们再回到这次扣子新发布的模型广场,也正如我们在文章最开始提到的,这种把擂台玩法嵌入到自家大模型应用开发平台的,目前在业界算是少见。

那么,字节为什么要这么做?

首先从效果层面来看,从刚才我们创建Bot的过程中不难发现,它所依赖的能力最根本的就是来自扣子生态中所集成的大模型们。

而也正如业界已达成的共识那样——没有一个大模型能够“一统天下”,每个大模型都有自己的擅长之处。

加之每个Bot也都是在细分场景里各有侧重,因此合适的Bot遇到合适大模型,势必将产生1+1>2的效果。

其次从操作层面来看,模型广场的出现着实是为Bot开发者节省了挨个模型比对、试错的成本。

这无疑是给本就操作简易的扣子在操作上锦上添花。

最后是在可信度层面上,扣子所pick的类似Chatbot Arena的擂台模式,已然成为业界对大模型性能认可度的标杆。

毕竟除了前文提到的Karpathy之外,Jeff Dean和李开复也对这种模式给予过高度的认可。

一言蔽之,字节要做的,就是把AI应用开发门槛打下去,把生态壮大起来,让AI应用能“多快好省”地用起来。

扣子地址:coze.cn

模型广场地址:https://www.coze.cn/model/arena?bid=6cqlieuqs1019

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代结束

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-14 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

字节扣子模型广场,给AI大模型搭了一座擂台
...代表性的是ChatGPT、字节豆包、文心一言。(图源:字节扣子)大模型将重构人机交互方式,应用的终极形态可能不一定再是基于触控点按GUI(图形交互界面)的App
2024-06-14 11:40:00
快手“可灵”意外走红,字节紧急追赶,AI文生视频赛道竞争加剧
...更是一项综合命题。近日,据“光子星球”报道,字节“扣子”平台的大量使用者,正寻求如何将创建的智能体、bot接入微信公号或小程序,讨论十分活跃。去年12月,字节在海外推出了AI
2024-08-01 09:32:00
字节跳动豆包大模型发布,火山引擎全栈AI服务助力企业智能化转型
...客户释放独有数据价值,让企业大模型应用轻松落地。 扣子产品经理 潘宇扬除了好的模型效果、便捷的插件、强劲的系统性能,还需要提供简单易用开发平台,才能让所有人都能成为 AI
2024-05-15 16:16:00
字节跳动发布豆包大模型 日均处理千亿级Tokens
...包大模型打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等AI创作工具,并把大模型接入抖音、番茄小说、飞书、巨量引擎等50余个业务,
2024-05-15 11:30:00
字节“扣子”加入AI战场,2024大模型能搞到钱吗?
...静默”状态的字节跳动终于有了新动作,其上线了“Coze扣子”AI Bot开发平台;与过往聊天机器人的形式不同,“扣子”更像是2023年11月Open AI发布的GPTs
2024-02-04 14:00:00
火山引擎ai大模型赋能千行百业成趋势
...包大模型打造了AI对话助手“豆包”、AI应用开发平台“扣子”、互动娱乐应用“猫箱”,以及星绘、即梦等AI创作工具,并把大模型接入抖音、番茄小说、飞书、巨量引擎等50余个业务,
2024-05-17 11:56:00
揭秘字节AI版图:调集多位高管参战,数款重磅产品内测
...擎等业务部门,其中动作最大的Flow部门除了上线豆包、扣子等AI产品外,还将推出AI角色互动APP“话炉”,以及一款或为图片方面的AI产品“PicPic”
2024-02-18 13:00:00
视觉理解、3D生成,豆包这次又玩出了什么新花样?
...面向诸多企业用户,火山引擎这次特地升级了火山方舟、扣子和HiAgent三款平台产品,帮助企业构建好自身的AI能力中心,高效开发AI应用。(图源:雷科技) 其中,火山方舟发布
2024-12-18 22:49:00
联合实验室的科研将基于字节跳动豆包大模型展开
...推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。今年5月,字节跳动在2024春季火山引擎Force原动力大会上宣布自家
2024-12-14 01:07:00
更多关于科技的资讯:
近年来,我国商业保险发展速度较快,产品的种类也日渐丰富,除了大家比较熟悉的车损险、医疗险、航空险等,依托宠物经济应运而生的宠物保险也受到越来越多的关注
2025-11-14 12:19:00
携程商旅设立千万级保障金,推动行业迈向\
11月9日,2025年携程集团全球合作伙伴峰会商旅分论坛暨携程商旅伙伴大会在土耳其伊斯坦布尔举办。会上,携程商旅顺应行业"高品质服务"及"全球化发展"两大趋势
2025-11-14 12:59:00
大华股份亮相全球智慧城市大会
近日,2025全球智慧城市大会在西班牙巴塞罗那会展中心盛大启幕。大华股份携全栈式智慧城市解决方案重磅亮相,围绕城市安全
2025-11-14 12:59:00
虹软科技AI视觉赋能BOLON AI Glasses重磅发布,与Rokid乐奇深度合作打造创新体验
BOLON AI Glasses正式发布,这是国内领先的 AR 眼镜制造商 Rokid 乐奇与 BOLON 眼镜联合打造的全新一代 AI 眼镜
2025-11-14 12:59:00
2025青岛虚拟现实创新大会将启,星鲨研究院探索“具身智能”前沿
鲁网11月14日讯“在这里,唯一限制你的是你自己的想象力。”科幻电影《头号玩家》中对于“绿洲”的这一描述,恰如其分地展现了虚拟现实产业的无限可能
2025-11-14 10:18:00
中新经纬11月14日电 据“网信中国”微信公众号14日消息,网信部门从严整治利用AI仿冒公众人物开展直播营销问题乱象。近期
2025-11-14 10:30:00
大麦娱乐推出全新品牌“大麦国际” 提供全球演出购票、观演服务
购买海外演出门票,现在有了新选择。11月14日,大麦娱乐宣布推出旗下全新业务品牌、全球演出服务平台“大麦国际(MAISEAT)”
2025-11-14 10:45:00
大河网讯 11月11日,全省数字影像检查“云胶片”联盟采购工作顺利开标,产生了拟中选结果,中原算力科技发展有限公司等6家企业拟中选
2025-11-14 10:53:00
鲁网11月13日讯11月13日,山东瑞程数据科技有限公司与济宁学院联合攻关的“多模态肉品AI快检系统”核心技术,在第十四届中国创新创业大赛颠覆性技术创新大赛中斩获优秀奖
2025-11-14 10:54:00
记者走基层|“黑科技”上线,让温暖精准入户
11月12日,河北邢襄热力集团邢台供热分公司二工区三班班长丁帅,在三义庙换热站查看设备运行情况。 河北日报记者 宋 平摄随着11月15日临近
2025-11-14 08:02:00
11月13日,太原公共交通控股(集团)有限公司(以下简称“太原公交”)与中车时代电动汽车股份有限公司(以下简称“中车电动”)举行框架合作协议签约仪式
2025-11-14 07:50:00
记者走基层|智能安全帽,让矿工有了AI“卫士”
11月5日,中煤张家口煤矿机械有限责任公司所属恒洋电器有限公司工作人员介绍智能安全帽产品。河北日报记者 魏 雨摄“嘀嘀
2025-11-13 08:03:00
“长与短”周期变革,“快与慢”时效重构,“热与冷”业态碰撞—— “双11”三重奏,解读消费新变局□南京日报/紫金山新闻记者黄琳燕11月12日中午
2025-11-13 08:05:00
南报网讯(记者周容璇)日前,在南京医药中央物流中心,一辆白色无人车平稳地穿梭于主仓库与宝湾库区之间,仅用15分钟便完成了一次驳货作业
2025-11-13 08:05:00
向“质”攀升,南京机器人解锁“智造”新图景
全链条持续发力,以硬核技术竞逐市场向“质”攀升,南京机器人解锁“智造”新图景□南京日报/紫金山新闻记者徐宁 实习生黄倩机器人是智能制造的核心组成部分
2025-11-13 08:05:00