• 我的订阅
  • 科技

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

类别:科技 发布时间:2024-07-25 09:31:00 来源:量子位

刚刚,GPT-4o mini版迎来“高光时刻”——

登顶了lmsys大模型竞技场,和满血版并列第一,还把Claude 3.5甩在了身后。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

不同于一般的数据集测评,大模型竞技场是用户自己出题、用脚投票的结果,无法通过“刷题”来走捷径,因此更为真实。

这个成绩一出,连CEO奥特曼都激动起来了:

面对评估成绩,我们本来是尽量矜持的,但是看到GPT-4o mini表现和满血版一样,价格却只有1/20,内心还是很激动。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

网友看到之后表示OK,但更关心的还是GPT-4o发布会上演示的“Her”到底啥时候上线。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

与此同时,OpenAI也送来了另一个好消息,将为开发者送出福利——

GPT-4o mini的微调将逐步开放,目前已开放给tier 4和tier 5用户,然后会陆续扩展范围。

而且从即日起到9月23号,每天都能免费使用2百万的训练token。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

mini与满血版平起平坐

经过80多款模型上百万轮的1v1比拼,GPT-4o mini在lmsys榜单上的成绩与满血版只差7分。

按照lmsys榜单的排法,这7分的差距没有影响名次,把两个型号算作了并列第一。

紧随其后的是Claude 3.5和Gemini家族,还有GPT-4的另外两个版本。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

如果我们查看GPT-4o mini的原始数据,会发现它0.6的平均胜率仅次于满血版本。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

单独看两者比拼的结果,同样是打得不相上下。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

之所以lmsys的成绩受到关注,在于它拥有一套独特的比拼方式——

不用数据集,而是让用户自己出题,随机拉两个模型1对1battle,然后选择哪个模型表现更好。

在给出选择之前,模型是匿名的,用户也不知道是哪两个模型正在比拼,如果模型自己说漏嘴则投票无效。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

这样得到的分数更加真实,既避免了“刷题”获取虚高分数的可能,也更加接近用户体验。

这个大模型竞技场,最近还登上了机器学习顶会ICML2024。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

而且,lmsys的评测也非常受OpenAI的青睐,GPT-4o mini正式上线之前的早期版本,就曾化名为gpt-mini在其中打榜。

当时就已经排行第4,和GPT4-Turbo处在同一水平。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

更早一些,GPT-4o上线之前也是化名gpt2-chatbot,在lmsys上搞起了测试。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

不过也有人提出质疑,表示虽然GPT-4o mini表现确实很好,但是要说它超过了Claude 3.5 sonnet就有些言过其实了。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

有人更是直言,lmsys方法的完善性已经开始瓦解,需要做出改变,否则将不再是一个有用的测试基准。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

“小模型”也卷起来了

mini版本的推出,主打的就是一个性价比。

每百万输入/输出tokens,价格分别为15美分和60美分(约1.09/4.36人民币),甚至还不到3.5 Turbo的一半。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

如果和两年前GPT-3的text-davinci-003版(当时最好的模型)相比,价格更是下降了99%。

而且除了把小模型开放给用户,OpenAI还搞出了新鲜玩法——

在“超级对齐”团队的一篇遗作中,使用了参数量为大模型千分之一或百分之一的小模型,来对大模型进行优化。

实验中,大小两个模型相互“博弈”,大模型需要不断优化调整自己的输出,让小模型相信自己说的是真话。

在这个“博弈”的过程中,大模型的能力得到了提升,在精度没有明显损失的情况下获得了大幅度的可理解性提升。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

除了OpenAI,其他公司也都纷纷搞起了小模型。

比如在GPT-4o mini之前,谷歌和Anthropic就分别推出了Gemini Flash和Claude 3-Haiku。

甚至可以说,GPT-4o mini就是OpenAI对两家的反击,无论是性能还是价格都超越了这两个模型。

GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费

在GPT-4o mini发布的同一周,抱抱脸Hugging Face,以及“欧洲OpenAI”Mistral都相继推出了小号模型。

甚至苹果也推出了自己的7B模型,而且一次性开源了全部训练过程和资源。

总之,在性能足以满足使用需求的前提下,小模型无疑是一种更经济实惠的选择。

同时,更小的规模也意味着有可能在端侧运行,在隐私保护等方面显现出优势。

这样就不难理解,“小”模型为什么也越来越卷了。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-25 12:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

GPT-4omini为啥登顶竞技场?OpenAI刷分秘诀被扒,奥特曼早有暗示
...捏住了人类的心理啊。实际上,在GPT-4o mini刚刚发布时,奥特曼就暗示了这次特意的优化:大家一定会非常非常喜欢用这个新模型
2024-07-30 09:30:00
奥特曼晒“草莓”引热议 神秘新模型现身竞技场 网友第一波实测来了
...称自己是GPT-4系列模型一部分,吊足了大家的胃口。随后奥特曼又发了一个浮想联翩的推文,正是他花园里的草莓照片,并配文
2024-08-08 15:11:00
奥特曼小时候啥样,赛文调皮玩摔跤,艾斯将手含嘴里,奥父不容易
大家好,我是小飞,我们每个人都有自己的童年,奥特曼也不例外,别看如今的佐菲赛文初代他们在光之国都威风的很,个个都披上了象征长者的红色奥特披风,但他们童年的时候同样非常的可爱,曾经
2023-03-19 12:45:00
36氪首席内容官李洋:勇敢站在新周期的起点上|WISE2023 商业之王大会
...情几次翻转。有人在追剧、看热闹,有人可能根本不知道奥特曼是谁,而我们在场的所有人,关心未来的人,36氪所粘合的这个群体应该知道,热闹的背后意味着什么。OpenAI发生的事情用
2023-12-02 23:21:00
比尔·盖茨对话OpenAI CEO奥特曼:AI如何监管?白领和蓝领谁会更先失业?
...微软创始人比尔·盖茨在个人博客上传了和OpenAI CEO 山姆·奥特曼的访谈,这场访谈发生在奥特曼去年11月底被董事会解雇风波前
2024-01-12 17:05:00
GPT-5快抢走打工人饭碗了
...却意外地成为这场发布的真实注脚。在开场介绍GPT-5时,奥特曼简单回顾了下从GPT-3到4,再到5的历程。他自己比喻说
2025-08-09 11:33:00
《蛋仔派对》&奥特曼联动火热开启
...环生。8月11日,欢乐世界休闲竞技手游《蛋仔派对》&奥特曼联动火热开启,巨大的巴尔坦星人骤然袭击蛋仔岛,危难时刻奇迹降临,迪迦、赛罗、泽塔三位奥特曼集结前来迎战强敌。
2023-08-14 23:17:00
全国首例!AI自动生成奥特曼图片侵权案,法院判了
提供AI技术自动生成奥特曼形象图片,平台却因侵犯知识产权被告上法庭。4月21日,浙江省高院在2025年知识产权宣传周期间
2025-04-21 13:28:00
to B要挣钱、to C要谨慎,李开复的大模型坚持
...强盲测",援引这一榜单的科技大佬不止Open AI的CEO山姆·奥特曼和谷歌首席科学家杰夫·迪恩。根据李开复公布的总榜单
2024-10-17 09:58:00
更多关于科技的资讯:
国家级5G工厂,钟经开+1!
近日,工业和信息化部公示了《2025年5G工厂名录》钟楼经济开发区企业江苏电力装备有限公司成功入选成为继江苏精研科技股份有限公司后钟楼区第二家国家级5G工厂5G工厂是充分利用以5G为代表的新一代信息通信技术
2025-09-06 06:08:00
从玻璃到微纳新材料 从企业更名看龙口一家民企的转型跃迁
大众网记者 林晓冬 烟台报道说起玻璃大家都不陌生,餐桌玻璃、门窗玻璃都与我们的日常生活息息相关,但在烟台龙口有一家企业多年来持续在玻璃上“钻研”
2025-09-05 09:08:00
科创泉城 智启未来| “硬科创”需要“软传播”,网络达人共话“出圈”新思路
9月4日下午,在济南市委网信办联合山东省互联网传媒集团举办的“科创泉城 智启未来”知名网络达人济南采风活动的对话沙龙上
2025-09-05 09:51:00
本报讯(记者雷嘉)围绕国产车规级芯片搭载应用,北京市科委、中关村管委会会同北京市智慧城市基础设施与智能网联汽车协同发展办公室
2025-09-05 11:08:00
河北新闻网讯(王丽英)“后厨不只是生产中心,更是服务体验的心脏。”“服务不仅仅是完成交易的过程,更是以关怀为主利他主义精神的体现
2025-09-05 11:08:00
海信冰箱五款产品通过中国家用电器研究院自动制冰性能认证
日前,经中国家用电器研究院严格检测与评估,海信冰箱旗下五款产品成功通过“电冰箱自动制冰性能认证”,并获颁认证证书。此次获证不仅是对海信冰箱自动制冰技术性能的肯定
2025-09-05 11:57:00
京东全球80+高校招聘 清华、剑桥等80校专场 现场面试拿offer!
9月5日,京东招聘公众号发文:全球80+高校!京东2026校园招聘进校行程发布。文中称:将在全球20+城市,80+院校
2025-09-05 12:10:00
花一万元植入DeepSeek,一场没有终点的流量游戏
文|邓咏仪编辑|苏建勋让你的产品在DeepSeek的答案里有一席之地,需要多少钱?答案是:数千甚至上万元。人在哪,流量就在哪
2025-09-05 14:56:00
爱尔眼科开启老视多学科诊疗新时代
9月4日,2025年屈光性白内障手术国际论坛(IRCS)暨第一届老视矫正MDT管理国际高峰论坛在杭州举办我国超八成60岁以上老年人正面临老视(老花眼)与白内障的“双重眼病困扰”
2025-09-05 15:18:00
获SIAL创新奖:诺啦格兰诺拉脆片让生活更美好  
消费日报网讯 9月1日,在2025 SIAL西雅国际食品展(深圳)举办同期,第24届SIAL创新大赛获奖榜单正式发布。吉丽莎(广州)贸易有限公司选送的产品诺啦格兰诺拉脆片跻身TOP10
2025-09-05 15:18:00
桃李面包广告语引争议“五仁不好吃是你还年轻”官方账号发文:领导拍的板,这个锅只能他来背
近日,桃李面包一则电梯广告文案引发争议。社交平台上流传的图片显示,桃李蛋月烧产品的广告语写道:“有人说五仁不好吃,我们认为
2025-09-05 15:29:00
京东超市布局产地直采 加大力度进口澳洲水果 助力澳洲水果深耕中国市场
今年开始,京东超市加大力度布局澳洲水果的供给和销售,投入资源帮助澳洲橙子、提子等水果进一步扩大销量。近日,在2025中国国际水果展上
2025-09-05 15:30:00
潍坊寿光市圣城街道一企业酿出康养“新食尚”
大众网记者 刘建永 潍坊报道为企赋能、助企发展是区域经济高质量发展的推动器。潍坊寿光市圣城街道在政策引领、优化营商环境
2025-09-05 15:50:00
大众网记者 王帅 通讯员 孙丽霞 杨阳 潍坊报道走进山东禾汇食品有限公司黄豆酱生产车间,一排排瓶装黄豆酱准备打包装箱,发往各大连锁商超
2025-09-05 15:50:00
9月4日,济南市委网信办联合山东省互联网传媒集团举办“‘科创泉城 智启未来’知名网络达人济南采风”活动。当日上午,10余位全国知名网络名人
2025-09-05 16:34:00