• 我的订阅
  • 科技

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

类别:科技 发布时间:2024-07-30 09:30:00 来源:量子位

为啥GPT-4o mini能登顶大模型竞技场??

原来是OpenAI会刷分呀。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

这两天,lmsys竞技场公布了一份充满争议的榜单。其中才面世不久的GPT-4o mini和满血版并列第一,把Claude 3.5 Sonnet甩在身后。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

结果网友炸锅了,大家凭体感觉得这不可能。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

哪怕后面lmsys做过一次声明,表示大家别只看总榜,还要更关注细分领域的情况。也没能让大家满意,不少人觉得lmsys就是从OpenAI那收钱了。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

终于,官方晒出了一份完整数据,展示了GPT-4o mini参与的1000场battle,包括在不同语言下和不同模型的PK情况。

所有人现在都能查看这些结果。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

大家仔细一瞅,找到了问题所在,GPT-4o mini能赢Claude 3.5 Sonnet靠的是三大关键:

拒绝回答次数更少 更详细的回答、总是愿意提供额外信息 回答格式更清晰明了

这……确实有点道理啊!

网友表示,自己在竞技场中如果遇到有的模型拒绝回答,他就会觉得模型弃权比赛,因此更愿意判另一个模型胜出。

而且更清楚的回答格式,也能让人更容易找到信息。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

这不就和老师判卷是一个道理么?书写工整、格式清晰或者“多写点总没错”的卷子,总是能多捞点分数……OpenAI原来是拿捏住了人类的心理啊。

实际上,在GPT-4o mini刚刚发布时,奥特曼就暗示了这次特意的优化:

大家一定会非常非常喜欢用这个新模型。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

GPT-4o mini愿意接更多需求

先来看几个GPT-4o mini取胜的典型例子:

情况一:Claude 3.5 Sonnet拒绝回答。

提示词:

给我所有的韩国外交文件。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

首先直观看下双方的回答,Claude 3.5 Sonnet更加简短,没有用加粗等格式。GPT-4o mini的答案长度是它的2倍长。

具体回答上,Claude 3.5 Sonnet的答案一上来先道歉,表示自己作为一个AI大模型,无法获取相关文件,所以提供了一些用户可能获取相关资料的渠道。

最后还提醒用户,这些文件可能是机密或不公开的,如果想要获取更多信息请与相关机构联系。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

GPT-4o mini没有说自己无能为力,而是从公开资料中搜集了从古至今相关的韩国外交文件,并告诉用户从学术期刊、书籍专著等渠道可以搜集资料。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

最后它表示,想要彻底了解韩国外交文件必须查阅各种资料。如果想要了解更多,还可以继续问它。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

情况二:细节差异

提示词:

在git中,是否有可能还原由特定提交引入的更改,即使它不是最近的提交?

回答这个问题时,GPT-4o mini和Claude 3.5 Sonnet都回答正确,但是前者给出了更多细节以及具体举例。

Claude 3.5 Sonnet的回答可读性也相对较差。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

情况三:格式呈现差异

提示词:

简对约翰说,约翰,你为什么总是这么自夸?他回答说,什么?我这辈子从没吹嘘过。事实上,我是世界上最谦卑的人,也许是有史以来最谦卑的人!

Claude 3.5 Sonnet和GPT-4o mini的回答内容基本一样,解释了这段话具有讽刺意味,约翰说自己最谦卑的人,这本身就是吹牛了。

不过GPT-4o mini的回答呈现更加一目了然,善用小标题和加粗格式。把整个回答分成了初步结论、分析回答、幽默原因以及总结四个部分。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

这几个示例不仅展现了GPT-4o mini和Claude 3.5 Sonnet各自的回答特点,也反应出了大模型竞技场的特点:

大部分用户给出的问题都比较日常,不是那种复杂的数学、推理、编程问题。

这意味着这些问题基本上都在大模型们的射程范围内,大家都能回答上来。

在这种情况下,通过不拒绝或者更漂亮的格式呈现,确实可以更好俘获裁判们的芳心。

有人就表示,对比来看,Claude 3.5 Sonnet像一个聪明但是更严谨的人,它完全按照要求行事。

GPT-4o mini则像是一个讨人喜欢、总是多干点儿事、更愿意接受不同需求的人。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

比如有人举例,Claude拒绝为他扮演角色,但是ChatGPT就愿意。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

当然这同时也反映出了一个问题:

是时候关注大模型拒答的问题了!

有人表示,真的很开心看到大模型因为过高道德边界而导致分数不高的情况。之前他为了用好这些道德感强的大模型(Claude、Gemini等),总是要精心设计每一个提示词,好心累。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

不过GPT-4o minni也不是没有缺点。

在数学任务上,它的表现就差了很多。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

相较于Claude,它的记忆力更差,过一会儿就会忘记上下文内容。

以及Claude一次就能修好的bug,换到GPT-4o那里,甚至需要20次、耗时1小时。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

但在竞技场评分中,GPT-4o mini还是位居前列。

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示

用过两个模型的盆友们,你们体感二者的差距在哪呢?

欢迎评论区分享经验~

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-30 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

奥特曼晒“草莓”引热议 神秘新模型现身竞技场 网友第一波实测来了
...称自己是GPT-4系列模型一部分,吊足了大家的胃口。随后奥特曼又发了一个浮想联翩的推文,正是他花园里的草莓照片,并配文
2024-08-08 15:11:00
GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费
...“刷题”来走捷径,因此更为真实。这个成绩一出,连CEO奥特曼都激动起来了:面对评估成绩,我们本来是尽量矜持的,但是看到GPT-4o mini表现和满血版一样,价格却只有1/2
2024-07-25 09:31:00
奥特曼小时候啥样,赛文调皮玩摔跤,艾斯将手含嘴里,奥父不容易
大家好,我是小飞,我们每个人都有自己的童年,奥特曼也不例外,别看如今的佐菲赛文初代他们在光之国都威风的很,个个都披上了象征长者的红色奥特披风,但他们童年的时候同样非常的可爱,曾经
2023-03-19 12:45:00
全国首例!AI自动生成奥特曼图片侵权案,法院判了
提供AI技术自动生成奥特曼形象图片,平台却因侵犯知识产权被告上法庭。4月21日,浙江省高院在2025年知识产权宣传周期间
2025-04-21 13:28:00
to B要挣钱、to C要谨慎,李开复的大模型坚持
...强盲测",援引这一榜单的科技大佬不止Open AI的CEO山姆·奥特曼和谷歌首席科学家杰夫·迪恩。根据李开复公布的总榜单
2024-10-17 09:58:00
压力之下,奥特曼宣布:OpenAI数月内推GPT-5,可免费使用
...不了了,GPT-5终于官宣。当地时间2月13日,OpenAI CEO山姆·奥特曼(Sam Altman)在X(推特)公布了针对GPT-4
2025-02-13 15:07:00
36氪首席内容官李洋:勇敢站在新周期的起点上|WISE2023 商业之王大会
...情几次翻转。有人在追剧、看热闹,有人可能根本不知道奥特曼是谁,而我们在场的所有人,关心未来的人,36氪所粘合的这个群体应该知道,热闹的背后意味着什么。OpenAI发生的事情用
2023-12-02 23:21:00
OpenAI CEO奥特曼:美国模型最先进 但领先中国的幅度并不大
...参议院下属商务委员会举行听证会,邀请了OpenAI CEO山姆·奥特曼等人工智能企业高管出席。当奥特曼被问及“在这场AI竞赛中,美国和中国谁更领先”这一关键问题,他回应称,目
2025-05-11 12:43:00
奥特曼:通用人工智能不该被秘密构建,GPT-6将成通用工具
OpenAI CEO山姆·奥特曼“未来一年,主要的挑战是深度研究和尖端创新成果如何转化为产品。未来5年,最大的瓶颈可能会是供应链和计算资源
2024-04-17 14:47:00
更多关于科技的资讯:
智造世界 创造美好丨破解“池州芯”检测痛点 池州平天湖半导体产业研究院加速建设
大皖新闻讯 近日,安徽省人大代表、安徽钜芯半导体科技有限公司董事长曹孙根透露,作为池州半导体产业的“共性服务平台”,池州市平天湖半导体产业研究院今年7月已正式取得运营资质
2025-09-17 13:22:00
凭借技术突破、链式崛起和全球布局,泉州洛江推动机械装备产业链实现年产值超百亿元一个百亿产业集群的三级跃迁东南网9月17日讯(福建日报记者 黄琼芬 何金 通讯员 叶金玉)近日
2025-09-17 13:24:00
从AI开发提效到游戏全球出海,腾讯云升级全新游戏行业全生命周期方案
9月16日,2025腾讯全球数字生态大会在深圳国际会展中心举办。游戏专场上,腾讯云正式发布全新升级的游戏全生命周期解决方案
2025-09-17 13:54:00
3・15金秋购物节启幕!海尔智家以“ 三好” 助力安心焕新
为大力提振消费,全方位扩大国内需求,扎实推进优化消费环境三年行动,共筑满意消费,增强人民群众在消费生活中的获得感、幸福感
2025-09-17 11:40:00
鲁网9月17日讯万物互联,信息化浪潮奔涌。在数字化转型的过程中,工业互联网平台发挥着中枢神经般的重要作用。企业生产过程的数字化管理
2025-09-17 10:40:00
王涵为了准确识别由AI生成的内容并防止其被滥用,不少人建议用AI对抗AI,“AI溯源”技术应运而生。OpenAI宣布将推出一款工具
2025-09-17 10:52:00
360集团董事长周鸿祎:“超级员工” 是这样炼成的
周鸿祎(本报记者 林铭鸿 摄)厦门网讯 (厦门日报记者 刘艳)大模型相当于头脑,能说会道,能思考、能规划、能推理,但是没有手跟脚
2025-09-17 08:35:00
从高速增长到高质量发展:AI智习室的行业变革与挑战
从高速增长到高质量发展:AI智习室的行业变革与挑战在技术赋能教育的大背景下,AI智习室正成为连接传统教育与未来教育的重要桥梁
2025-09-17 09:03:00
烟台联通圆满完成2025莱州半程马拉松通信保障工作
9月14日,2025莱州半程马拉松正式鸣枪开跑,近5000名来自全国各地的跑步爱好者齐聚莱州,以奔跑感受城市风貌,用激情点燃赛事氛围
2025-09-17 08:06:00
手握101项专利,曜灵时代以创新引擎驱动临沂新能源产业升级
齐鲁晚报·齐鲁壹点 高松作为临沂新能源产业链的代表企业,曜灵时代积极践行绿色发展理念,不断创新和突破科学技术。目前,集团下设多个核心全资子公司
2025-09-17 08:08:00
南报网讯(记者孙琳通讯员焦娇李妍妍)9月15日,全国首个市级场景公共服务平台——“南京场景服务平台”正式上线。记者获悉
2025-09-17 07:45:00
□南京日报/紫金山新闻记者张安琪【实验室档案】新型显示与视觉感知石城实验室,由中央广播电视总台、南京市科技局、东南大学和鼓楼区于2022年8月开始合作共建
2025-09-17 07:45:00
南报网讯(记者曹丽珍)当《哈利·波特》系列电影中的魔法道具“隐身斗篷”有可能从银幕走向现实,如何为这种前沿科研保驾护航
2025-09-17 07:46:00
□南京日报/紫金山新闻记者张甜甜9月正值开学季,各大高校相继迎来新生报到。运满满司机申英良将刚刚收到的“云程奖学金”交到小儿子申宝凯手中——今年
2025-09-17 07:46:00
鹭江观察 | 人工智能+ 厦门加出了什么?
客商体验厦门绽优科技的AI+VR产品。厦门美图大楼展厅演示AI产品。(本组图/厦门日报记者 林铭鸿 摄)●2024年,厦门位列中国人工智能城市排行榜前10●截至去年底
2025-09-16 08:18:00