• 我的订阅
  • 科技

贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样

类别:科技 发布时间:2024-08-02 09:47:00 来源:量子位

Transformer大模型尺寸变化,正在重走CNN的老路!

看到大家都被LLaMA 3.1吸引了注意力,贾扬清发出如此感慨。

贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样

拿大模型尺寸的发展,和CNN的发展作对比,就能发现一个明显的趋势和现象:

在ImageNet时代,研究人员和技术从业者见证了参数规模的快速增长,然后又开始转向更小、更高效的模型。

听起来,是不是和GPT哐哐往上卷模型参数,业界普遍认同Scaling Law,然后出现GPT-4o mini、苹果DCLM-7B、谷歌Gemma 2B如出一辙?

贾扬清笑称,“这是前大模型时代的事儿,很多人可能都不咋记得了:)”。

贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样

而且,贾扬清不是唯一一个感知到这一点的人,AI大神卡帕西也这么觉得:

大模型尺寸的竞争正在加剧……但是卷的方向反着来了! 模型必须先追求“更大”,然后才能追求“更小”,因为我们需要这个过程,帮咱把训练数据重构成理想的、合成的格式。

他甚至拍着胸脯打赌,表示我们一定能看到又好、又能可靠地思考的模型。

而且是参数规模很小很小的那种。

贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样

连马斯克都在卡帕西的评论区连连称是:

贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样

以上,大概可以称之为“大佬所见略同”。

展开说说

贾扬清的感慨,要从只在最强王座上短暂待了一天的LLaMA 3.1说起。

那是首次实现“最强开源模型=最强模型”,不出意外,万众瞩目。

However,贾扬清在这个时候提出了一个观点:

“但我认为,行业会因小型垂直模型而真正蓬勃发展。”

至于啥是小型垂直模型,贾扬清也说得很清楚,比如以Patrouns AI的Iynx(该公司的幻觉检测模型,在幻觉任务上超过GPT-4o)为代表的那些很棒的中小模型。

贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样

贾扬清表示,就个人喜好而言,他本人是非常喜欢千亿参数模型的。

但现实情况里,他观察留意到,7B-70B参数规模之间的大模型,大家用起来更顺手:

它们更容易托管,不需要巨大的流量即可盈利; 只要提出明确的问题,就能得到质量还不错的输出——与和之前的一些看法相反。

与此同时,他听说OpenAI最新的、速度很快的模型也开始变得比“最先进的”大模型尺寸更小。

贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样

“如果我的理解是正确的,那么这绝对表明了行业趋势。”贾扬清直接表明了自己的观点,“即在现实世界中,使用适用的、具有成本效益、且仍然强大的模型。”

于是乎,贾扬清简单梳理了CNN的发展历程。

首先,是CNN的崛起时代。

以AlexNet(2012)为起点,开启了大约三年的模型规模增长时期。

2014年出现的VGGNet就是一个性能和规模都非常强大的模型。

其次,是缩小规模时期。

2015年,GoogleNet把模型大小从“GB”缩小到了“MB”级别,即缩小了100倍;但模型性能并没有因此骤减,反而保持了不错的性能。

遵循类似趋势的还有2015年面世的SqueezeNet模型等。

然后的一段时间,发展重点在追求平衡。

后续研究,如ResNet(2015)、ResNeXT(2016)等,都保持了一个适中的模型规模。

值得注意的是,模型规模的控制并没有带来计算量的减少——其实,大伙儿都愿意投入更多的计算资源,寻求一种“同等参数但更高效”的状态。

紧接着就是CNN在端侧起舞的一段时期。

举个例子,MobileNet是谷歌在2017年推出的一项有趣的工作。

有趣就有趣在它占用的资源超级少,但是性能却非常优异。

就在上周,还有人跟贾扬清提到:“Wow~我们现在还在用MobileNet,因为它可以在设备上运行,而且在出色的特征嵌入泛化(Feature Embedding Generality)。”

最后,贾扬清借用了来源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一张图:

贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样

并再一次发出自己的疑问:

大模型尺寸,会遵循与CNN时代相同的趋势来发展吗?

网友怎么看?

其实GPT-4o mini这样走在大模型发展道路上“不大反小”的例子不在少数。

当上述几位表达出这样的观点后,立马有人点头如捣蒜,还拿出了一些别的类似例子,证明他们看到了相同的趋势。

有人立马跟上:

我这儿有个新的正面例子!Gemma-2就是把27B参数大小的模型知识蒸馏成更小的版本。

贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样

还有网友表示,开发更大的模型,意味着能给后续几代更小、更垂直的模型的训练“上强度”。

这个迭代过程最终会产生所谓的“完美训练集”。

这样一来,较小的大模型在特定领域,能与现在参数巨大的大模型一样聪明,甚至更聪明。

一言以蔽之,模型必须先变大,然后才能变小。

贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样

大多数讨论此观点的人,还是对这个趋势比较认同,有人直言“这是一件好事,比‘我的模型比你的模型大’参数竞赛更实用和有用。”

但是,当然了!

翻遍网络评论区,也有人发出不同的声音。

比如下面这位朋友就在贾扬清推文底下留言:

Mistral Large(背后公司Mistral AI)、LLaMA 3.1(背后公司Meta)和OpenAI,持有最强竞争力模型的公司,目前可能都正在训练更大的模型。 我没发现有“更小型号模型搞定技术突破”的趋势哟。

贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样

面对这个问题,贾扬清倒也及时回复了。

他是这么说的:“没错!我说大模型尺寸可能在走CNN的老路,绝对不意味着号召大家停止训练更大的模型。”

他进一步解释道,这么说的本意是,随着技术(包括CNN和大模型)落地实践越来越广,大家已经开始越来越关注性价比更高的模型了。”

贾扬清:大模型尺寸正重走CNN的老路;马斯克:在特斯拉也是这样

所以,或许更高效的小·大模型,能够重新定义AI的“智能”,挑战“越大越好”的假设。

你赞同这个观点不?

参考链接:[1]https://x.com/jiayq/status/1818703217263624385[2]https://x.com/fun000001/status/1818791560697594310[3]https://www.patronus.ai/[4]https://twitter.com/karpathy/status/1814038096218083497

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-02 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

马斯克挥别库克 向贝索斯看齐
...,以免重蹈“封闭”之覆辙。最引人瞩目的莫过于6月初马斯克宣布:“特斯拉的自动驾驶技术FSD将会开放给其他汽车制造商使用。”而在这之前,特斯拉已经先后开放了部分专利和超级充电网
2023-06-21 15:34:00
成于特斯拉,败于丰田:松下电池启示录
...上市,大受欢迎,特斯拉稍松了一口气。但作为掌舵者,马斯克又有了新的焦虑。当时,量产后的Model S已经消耗了全球电池总量的10%
2023-12-08 15:13:00
马斯克“改造”特斯拉,推特ceo大裁员
作者| 李贤焕编辑| 孙春芳曾经的首富马斯克正在面对越来越多的质疑,不管是作为推特CEO,还是作为特斯拉CEO。上周,马斯克自己发起的一个关于他是否应该辞去推特负责人一职的投票,
2022-12-23 21:51:00
...(编辑 马兰)特斯拉正在召集股东投票,就首席执行官马斯克价值数百亿的薪酬包和将特斯拉公司注册地迁移到得克萨斯州进行表决。而从机构股东的表态来看,马斯克显然处于下风。上周,包含
2024-06-04 16:09:00
美媒揭秘马斯克疯狂做法:牺牲特斯拉等为发展xAI提供资源!特斯拉股东起诉:将马斯克xAI股权转移给特斯拉
马斯克凤凰网科技讯 北京时间8月12日,据《华尔街日报》报道,埃隆·马斯克(Elon Musk)为他的人工智能创业公司xAI制定了一个宏大计划
2024-08-12 16:50:00
马斯克的“大本营”快失守了,推特的董事会不淡定了
丢失全球首富宝座之后,马斯克最终做出了选择。12月18日,马斯克在推特上发起了一项投票,内容是他是否应该辞去推特CEO一职。截至12月19日投票时间结束,一共有57.5%的网友投
2022-12-22 23:55:00
虚惊一场!马斯克560亿天价薪酬获批准 这次专家说对了
【CNMO科技】6月13日,埃隆·马斯克560亿美元的天价薪酬方案再次获得批准,股东投票以较大优势通过,此前的担忧完全是“虚惊一场”。马斯克虽然无论选举结果如何,都无法保证特斯拉
2024-06-13 15:31:00
每天身价缩水4亿美元,马斯克玩脱了?丨氪金 · 大事件
...突破3000亿美元的首富,年底就要面临被迫卸任推特CEO,马斯克的2022年很是不太平。12月19日,马斯克在推特上发起了一项投票,对“自己是否应该辞去推特首席执行官一职”进
2022-12-28 14:02:00
马斯克4000亿元天价薪酬即将到账!
马斯克的560亿美元(约合人民币4060亿元)“天价”薪酬基本落定,特斯拉股东投票以较大优势通过。车东西6月13日消息,刚刚,马斯克通过X(原推特)发文称,特斯拉两项股东决议已以
2024-06-15 10:25:00
更多关于科技的资讯:
龙头链主“挂帅” 合肥“创投城市计划”升级
大皖新闻讯 9月16日,随着“科聚零碳-科大硅谷全球合伙人走进零碳中心暨‘创投城市计划’新能源投资路演对接会”的举办,合肥“创投城市计划”实现全面升级
2025-09-18 15:31:00
9月8日,一位客户神色匆匆地来到行唐联社只里信用社,称需为父母办理社保卡开通业务,且次日就要报送账号用于打款。临柜工作人员接过相关资料
2025-09-18 11:19:00
【儒商巡礼】德州彩诗禾纺织有限公司董事长王波: 深耕纺织,“织”出新篇
鲁网9月18日讯(记者 吴美琳)从贸易领域起步,到自建实体工厂,再到打造差异化绿色纺织品牌,他始终以“进取”“守正”“仁爱”为底色
2025-09-18 11:28:00
本报讯 日前,中国文房四宝协会市场研究与督导专业委员会(以下简称“专委会”)“跨界赋能・智创未来”专题研学活动,在北京新发地农产品批发市场举办
2025-09-18 11:40:00
□ 左 鲤日前,上海博物馆以“清雍正粉彩蝠桃纹橄榄瓶”为原型设计的蝠桃瓶发光冰箱贴引发争议。有网友认为该文创产品的瓶底开孔与发光设计
2025-09-18 11:40:00
当前,人工智能、虚拟现实(VR)、超高清、多模态等新科技,正以“体验重构者”“需求激活者”“边界拓展者”的角色,为旅游新消费注入强劲动能
2025-09-18 11:45:00
第三届#SpainFoodNation峰会推动西班牙美食参与中国市场
近日,西班牙对外贸易发展和投资局(ICEX)携手西班牙农业渔业和食品部(MAPA)在上海举办了第三届#SpainFoodNation峰会
2025-09-18 11:46:00
山东九羊集团携钢铁大模型亮相全省“人工智能+”创新应用工作会议
9月17日,山东省“人工智能+”创新应用工作会议在济南举行。作为“人工智能+钢铁”领域的企业代表,山东九羊集团有限公司(以下简称山东九羊集团)受邀现场演示钢铁大模型应用实践
2025-09-18 12:27:00
浪潮助力四川教育大数据平台荣获IDC中国未来企业大奖·智慧城市特别奖
9月5日,2025 IDC中国未来企业大奖优秀奖名单正式揭晓,由四川省教育信息化与大数据中心主办,浪潮软件技术支持的“四川省教育大数据平台”建设项目荣获“2025 IDC中国未来企业大奖优秀奖”
2025-09-18 12:28:00
“痛金”让年轻人“上头” 黄金消费刮起“二次元风”
消费日报网讯(记者牛夏风)从“痛车”“痛包”到“痛衣”,“万物皆可痛”的风又吹到了黄金饰品上。“吉伊卡哇”联名款、《天官赐福》联名款
2025-09-18 13:17:00
海南三亚信兴超级体验店重装开业 多重优惠惠及消费者
消费日报网讯(记者郑红梅)9月19日至21日,海南三亚信兴电器超级体验店将迎来重装升级后的盛大开业。此次开业活动以“多重优惠叠加”为核心
2025-09-18 13:18:00
深信服AD以技术之力铸业务之基,稳居IDC市场份额第一
近日,国际数据公司(IDC)发布最新报告,深信服AD斩获2025Q2中国负载均衡市场占有率第一。这已是深信服AD连续多个季度领跑市场
2025-09-18 13:51:00
不差钱的腾讯,也开始借钱了?
A时隔四年后,腾讯再次发债,首发点心债。腾讯控股在港交所公告称,于2025年9月16日,公司已与经办人就根据计划发行本金总额90亿元的票据订立认购协议
2025-09-18 09:01:00
从“客户”到“伙伴”,济宁银行全周期金融服务构建财富管理新生态
鲁网9月18日讯济宁银行坚守“金融为民”初心,不断创新金融产品,完善服务渠道,努力为客户提供更加专业、更有温度的金融服务
2025-09-18 10:53:00
厦门网讯(厦门日报记者 林露虹)作为2025厦门国际动漫节配套活动,第三届游戏创业者路演系列活动(简称“游路演”)将于10月29日至30日举行
2025-09-18 08:20:00