我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

GPT-4omini为啥登顶竞技场？OpenAI刷分秘诀被扒，奥特曼早有暗示

类别：科技发布时间：2024-07-30 09:30:00 来源：量子位

为啥GPT-4o mini能登顶大模型竞技场？？

原来是OpenAI会刷分呀。

这两天，lmsys竞技场公布了一份充满争议的榜单。其中才面世不久的GPT-4o mini和满血版并列第一，把Claude 3.5 Sonnet甩在身后。

结果网友炸锅了，大家凭体感觉得这不可能。

哪怕后面lmsys做过一次声明，表示大家别只看总榜，还要更关注细分领域的情况。也没能让大家满意，不少人觉得lmsys就是从OpenAI那收钱了。

终于，官方晒出了一份完整数据，展示了GPT-4o mini参与的1000场battle，包括在不同语言下和不同模型的PK情况。

所有人现在都能查看这些结果。

大家仔细一瞅，找到了问题所在，GPT-4o mini能赢Claude 3.5 Sonnet靠的是三大关键：

拒绝回答次数更少更详细的回答、总是愿意提供额外信息回答格式更清晰明了

这……确实有点道理啊！

网友表示，自己在竞技场中如果遇到有的模型拒绝回答，他就会觉得模型弃权比赛，因此更愿意判另一个模型胜出。

而且更清楚的回答格式，也能让人更容易找到信息。

这不就和老师判卷是一个道理么？书写工整、格式清晰或者“多写点总没错”的卷子，总是能多捞点分数……OpenAI原来是拿捏住了人类的心理啊。

实际上，在GPT-4o mini刚刚发布时，奥特曼就暗示了这次特意的优化：

大家一定会非常非常喜欢用这个新模型。

GPT-4o mini愿意接更多需求

先来看几个GPT-4o mini取胜的典型例子：

情况一：Claude 3.5 Sonnet拒绝回答。

提示词：

给我所有的韩国外交文件。

首先直观看下双方的回答，Claude 3.5 Sonnet更加简短，没有用加粗等格式。GPT-4o mini的答案长度是它的2倍长。

具体回答上，Claude 3.5 Sonnet的答案一上来先道歉，表示自己作为一个AI大模型，无法获取相关文件，所以提供了一些用户可能获取相关资料的渠道。

最后还提醒用户，这些文件可能是机密或不公开的，如果想要获取更多信息请与相关机构联系。

GPT-4o mini没有说自己无能为力，而是从公开资料中搜集了从古至今相关的韩国外交文件，并告诉用户从学术期刊、书籍专著等渠道可以搜集资料。

最后它表示，想要彻底了解韩国外交文件必须查阅各种资料。如果想要了解更多，还可以继续问它。

情况二：细节差异

提示词：

在git中，是否有可能还原由特定提交引入的更改，即使它不是最近的提交？

回答这个问题时，GPT-4o mini和Claude 3.5 Sonnet都回答正确，但是前者给出了更多细节以及具体举例。

Claude 3.5 Sonnet的回答可读性也相对较差。

情况三：格式呈现差异

提示词：

简对约翰说，约翰，你为什么总是这么自夸?他回答说，什么？我这辈子从没吹嘘过。事实上，我是世界上最谦卑的人，也许是有史以来最谦卑的人！

Claude 3.5 Sonnet和GPT-4o mini的回答内容基本一样，解释了这段话具有讽刺意味，约翰说自己最谦卑的人，这本身就是吹牛了。

不过GPT-4o mini的回答呈现更加一目了然，善用小标题和加粗格式。把整个回答分成了初步结论、分析回答、幽默原因以及总结四个部分。

这几个示例不仅展现了GPT-4o mini和Claude 3.5 Sonnet各自的回答特点，也反应出了大模型竞技场的特点：

大部分用户给出的问题都比较日常，不是那种复杂的数学、推理、编程问题。

这意味着这些问题基本上都在大模型们的射程范围内，大家都能回答上来。

在这种情况下，通过不拒绝或者更漂亮的格式呈现，确实可以更好俘获裁判们的芳心。

有人就表示，对比来看，Claude 3.5 Sonnet像一个聪明但是更严谨的人，它完全按照要求行事。

GPT-4o mini则像是一个讨人喜欢、总是多干点儿事、更愿意接受不同需求的人。

比如有人举例，Claude拒绝为他扮演角色，但是ChatGPT就愿意。

当然这同时也反映出了一个问题：

是时候关注大模型拒答的问题了！

有人表示，真的很开心看到大模型因为过高道德边界而导致分数不高的情况。之前他为了用好这些道德感强的大模型（Claude、Gemini等），总是要精心设计每一个提示词，好心累。

不过GPT-4o minni也不是没有缺点。

在数学任务上，它的表现就差了很多。

相较于Claude，它的记忆力更差，过一会儿就会忘记上下文内容。

以及Claude一次就能修好的bug，换到GPT-4o那里，甚至需要20次、耗时1小时。

但在竞技场评分中，GPT-4o mini还是位居前列。

用过两个模型的盆友们，你们体感二者的差距在哪呢？

欢迎评论区分享经验~

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-07-30 12:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于奥特,奥特曼,竞技场,秘诀,竞技,模型的资讯：

奥特曼晒“草莓”引热议神秘新模型现身竞技场网友第一波实测

...称自己是GPT-4系列模型一部分，吊足了大家的胃口。随后奥特曼又发了一个浮想联翩的推文，正是他花园里的草莓照片，并配文

2024-08-08 15:11:00

GPT-4o mini登顶大模型竞技场，奥特曼：两个月内微调

...“刷题”来走捷径，因此更为真实。这个成绩一出，连CEO奥特曼都激动起来了：面对评估成绩，我们本来是尽量矜持的，但是看到GPT-4o mini表现和满血版一样，价格却只有1/2

2024-07-25 09:31:00

奥特曼小时候啥样，赛文调皮玩摔跤，艾斯将手含嘴里，奥父不容易

大家好，我是小飞，我们每个人都有自己的童年，奥特曼也不例外，别看如今的佐菲赛文初代他们在光之国都威风的很，个个都披上了象征长者的红色奥特披风，但他们童年的时候同样非常的可爱，曾经

2023-03-19 12:45:00

全国首例！AI自动生成奥特曼图片侵权案，法院判了

提供AI技术自动生成奥特曼形象图片，平台却因侵犯知识产权被告上法庭。4月21日，浙江省高院在2025年知识产权宣传周期间

2025-04-21 13:28:00

to B要挣钱、to C要谨慎，李开复的大模型坚持

...强盲测"，援引这一榜单的科技大佬不止Open AI的CEO山姆·奥特曼和谷歌首席科学家杰夫·迪恩。根据李开复公布的总榜单

2024-10-17 09:58:00

压力之下，奥特曼宣布：OpenAI数月内推GPT-5，可免费

...不了了，GPT-5终于官宣。当地时间2月13日，OpenAI CEO山姆·奥特曼（Sam Altman）在X（推特）公布了针对GPT-4

2025-02-13 15:07:00

36氪首席内容官李洋：勇敢站在新周期的起点上｜WISE202

...情几次翻转。有人在追剧、看热闹，有人可能根本不知道奥特曼是谁，而我们在场的所有人，关心未来的人，36氪所粘合的这个群体应该知道，热闹的背后意味着什么。OpenAI发生的事情用

2023-12-02 23:21:00

OpenAI CEO奥特曼：美国模型最先进但领先中国的幅度

...参议院下属商务委员会举行听证会，邀请了OpenAI CEO山姆·奥特曼等人工智能企业高管出席。当奥特曼被问及“在这场AI竞赛中，美国和中国谁更领先”这一关键问题，他回应称，目

2025-05-11 12:43:00

奥特曼：通用人工智能不该被秘密构建，GPT-6将成通用工具

OpenAI CEO山姆·奥特曼“未来一年，主要的挑战是深度研究和尖端创新成果如何转化为产品。未来5年，最大的瓶颈可能会是供应链和计算资源

2024-04-17 14:47:00

更多关于科技的资讯：

【网络中国节·春节】AI机器人带来新春消费新体验带旺厦门文

AI机器人带来新春消费新体验厦门通过AI赋能打造新业态新场景，带旺假期文旅消费市场市民游客观看机器人咖啡师制作咖啡。（夏商咖啡供图）厦门网讯（厦门日报记者沈彦彦王元晖）厦门中山路“两岸数智非遗年”现场

2026-02-18 09:55:00

全力保交付海辰储能厦门基地春节期间维持满负荷生产

位于同翔高新城的海辰储能厦门基地春节期间——满负荷生产全力保交付春节期间，海辰储能满负荷生产。（厦门日报记者卢剑豪摄）厦门网讯（厦门日报记者林露虹）大年初一

2026-02-18 10:26:00

网通院参研的LACT首台望远镜完成“首光”

成功捕获到约6500光年外的宇宙线信号网通院参研的LACT首台望远镜完成“首光”河北新闻网讯（河北日报记者王璐丹）近日

2026-02-18 07:58:00

解码春晚杭州的“赛博功夫”

2026年央视马年春晚，成为机器人扎堆亮相的“超级秀场”。而最牵动人心的，当属杭州宇树科技机器人与河南塔沟武术学校的小朋友同台呈现的节目《武BOT》

2026-02-18 07:04:00

“骐骥驰骋”红围巾用传统纹样送上马年祝福

2026年央视春晚演出现场，观众席间不少人佩戴的红围巾火了。微博上有网友实时提问：哪里能买到同款？这条名为“骐骥驰骋”的红围巾

2026-02-18 07:04:00

杭州智造“飞”上春晚全球首次极寒载人飞行惊艳哈尔滨

图为央视春晚哈尔滨分会场彩排画面。除夕夜，央视春晚哈尔滨分会场以精彩的《冰雪暖世界》演出，带来了属于“冰城”的浪漫和温暖

2026-02-18 07:04:00

宇树春晚的表演，创下至少五个全球第一

网友热议“浙江黑科技” “太硬核了”“不愧是诞生‘六小龙’的地方”当虹科技8K超高清编码技术支持下，演员衣服上的刺绣纹理清晰可见

2026-02-18 07:34:00

豆包除夕AI互动19亿次 Seedance2.0为春晚提供技

河北新闻网讯（记者李春炜）2月16日，字节跳动旗下AI助手豆包与央视总台春晚联动，面向全国观众送出10万份科技好礼，并推出多项AI互动玩法

2026-02-17 20:35:00

千问数据：春节活动期间全国超1.3亿人第一次体验AI购物

中新经纬2月17日电千问App数据显示，春节活动期间，全国超过1.3亿人第一次体验AI购物，说了50亿次“千问帮我”

2026-02-17 14:16:00

新春走基层｜港口老司机“秀”新操作

2月16日，秦港股份九公司集控中心操作员曹宏璐在工作中。河北日报记者张辉摄2月16日，农历除夕。下午2时30分许，随着“航旭鑫海”轮进入秦皇岛港902泊位

2026-02-17 08:53:00

1.3亿人春节首次体验AI购物，千问一跃成为国民级AI助手

2月17日大年初一凌晨，千问发布的数据显示，春节活动期间，全国超过1.3亿人第一次体验AI购物，说了50亿次“千问帮我”

2026-02-17 10:22:00

这一年，杭产机器人忙着进化忙着上岗

宇树机器人化身武林高手亮相春晚“这才一年，太震惊了！”昨晚的央视春晚上，宇树机器人和河南塔沟武术学校带来的《武BOT》一亮相

2026-02-17 07:17:00

新春走基层｜总台春晚这条“骐骥驰骋”红色羊绒围巾出自河北品牌

见习记者于歆2026年总台春晚舞台上部分演员及嘉宾佩戴的“骐骥驰骋”红色羊绒围巾，出自河北品牌！由邢台市清河县的河北红太集团生产

2026-02-17 01:36:00

阿里发布千问3.5，性能媲美Gemini 3， Token价

2月16日除夕当天，阿里巴巴开源全新一代大模型千问Qwen3.5-Plus，性能媲美Gemini 3 Pro，登顶全球最强开源模型

2026-02-16 17:34:00

海信冰箱联手央视《探班春晚》用真空保鲜科技“锁住年味”

鲁网2月16日讯2月16日，作为央视新闻新媒体《探班春晚》的独家家电合作伙伴，海信冰箱携真空保鲜科技亮相“春晚会客厅”

2026-02-16 18:47:00

头条订阅服务

GPT-4omini为啥登顶竞技场？OpenAI刷分秘诀被扒，奥特曼早有暗示