我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

贾扬清：大模型尺寸正重走CNN的老路；马斯克：在特斯拉也是这样

类别：科技发布时间：2024-08-02 09:47:00 来源：量子位

Transformer大模型尺寸变化，正在重走CNN的老路！

看到大家都被LLaMA 3.1吸引了注意力，贾扬清发出如此感慨。

拿大模型尺寸的发展，和CNN的发展作对比，就能发现一个明显的趋势和现象：

在ImageNet时代，研究人员和技术从业者见证了参数规模的快速增长，然后又开始转向更小、更高效的模型。

听起来，是不是和GPT哐哐往上卷模型参数，业界普遍认同Scaling Law，然后出现GPT-4o mini、苹果DCLM-7B、谷歌Gemma 2B如出一辙？

贾扬清笑称，“这是前大模型时代的事儿，很多人可能都不咋记得了：）”。

而且，贾扬清不是唯一一个感知到这一点的人，AI大神卡帕西也这么觉得：

大模型尺寸的竞争正在加剧……但是卷的方向反着来了！模型必须先追求“更大”，然后才能追求“更小”，因为我们需要这个过程，帮咱把训练数据重构成理想的、合成的格式。

他甚至拍着胸脯打赌，表示我们一定能看到又好、又能可靠地思考的模型。

而且是参数规模很小很小的那种。

连马斯克都在卡帕西的评论区连连称是：

以上，大概可以称之为“大佬所见略同”。

展开说说

贾扬清的感慨，要从只在最强王座上短暂待了一天的LLaMA 3.1说起。

那是首次实现“最强开源模型=最强模型”，不出意外，万众瞩目。

However，贾扬清在这个时候提出了一个观点：

“但我认为，行业会因小型垂直模型而真正蓬勃发展。”

至于啥是小型垂直模型，贾扬清也说得很清楚，比如以Patrouns AI的Iynx（该公司的幻觉检测模型，在幻觉任务上超过GPT-4o）为代表的那些很棒的中小模型。

贾扬清表示，就个人喜好而言，他本人是非常喜欢千亿参数模型的。

但现实情况里，他观察留意到，7B-70B参数规模之间的大模型，大家用起来更顺手：

它们更容易托管，不需要巨大的流量即可盈利；只要提出明确的问题，就能得到质量还不错的输出——与和之前的一些看法相反。

与此同时，他听说OpenAI最新的、速度很快的模型也开始变得比“最先进的”大模型尺寸更小。

“如果我的理解是正确的，那么这绝对表明了行业趋势。”贾扬清直接表明了自己的观点，“即在现实世界中，使用适用的、具有成本效益、且仍然强大的模型。”

于是乎，贾扬清简单梳理了CNN的发展历程。

首先，是CNN的崛起时代。

以AlexNet（2012）为起点，开启了大约三年的模型规模增长时期。

2014年出现的VGGNet就是一个性能和规模都非常强大的模型。

其次，是缩小规模时期。

2015年，GoogleNet把模型大小从“GB”缩小到了“MB”级别，即缩小了100倍；但模型性能并没有因此骤减，反而保持了不错的性能。

遵循类似趋势的还有2015年面世的SqueezeNet模型等。

然后的一段时间，发展重点在追求平衡。

后续研究，如ResNet（2015）、ResNeXT（2016）等，都保持了一个适中的模型规模。

值得注意的是，模型规模的控制并没有带来计算量的减少——其实，大伙儿都愿意投入更多的计算资源，寻求一种“同等参数但更高效”的状态。

紧接着就是CNN在端侧起舞的一段时期。

举个例子，MobileNet是谷歌在2017年推出的一项有趣的工作。

有趣就有趣在它占用的资源超级少，但是性能却非常优异。

就在上周，还有人跟贾扬清提到：“Wow～我们现在还在用MobileNet，因为它可以在设备上运行，而且在出色的特征嵌入泛化（Feature Embedding Generality）。”

最后，贾扬清借用了来源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一张图：

并再一次发出自己的疑问：

大模型尺寸，会遵循与CNN时代相同的趋势来发展吗？

网友怎么看？

其实GPT-4o mini这样走在大模型发展道路上“不大反小”的例子不在少数。

当上述几位表达出这样的观点后，立马有人点头如捣蒜，还拿出了一些别的类似例子，证明他们看到了相同的趋势。

有人立马跟上：

我这儿有个新的正面例子！Gemma-2就是把27B参数大小的模型知识蒸馏成更小的版本。

还有网友表示，开发更大的模型，意味着能给后续几代更小、更垂直的模型的训练“上强度”。

这个迭代过程最终会产生所谓的“完美训练集”。

这样一来，较小的大模型在特定领域，能与现在参数巨大的大模型一样聪明，甚至更聪明。

一言以蔽之，模型必须先变大，然后才能变小。

大多数讨论此观点的人，还是对这个趋势比较认同，有人直言“这是一件好事，比‘我的模型比你的模型大’参数竞赛更实用和有用。”

但是，当然了！

翻遍网络评论区，也有人发出不同的声音。

比如下面这位朋友就在贾扬清推文底下留言：

Mistral Large（背后公司Mistral AI）、LLaMA 3.1（背后公司Meta）和OpenAI，持有最强竞争力模型的公司，目前可能都正在训练更大的模型。我没发现有“更小型号模型搞定技术突破”的趋势哟。

面对这个问题，贾扬清倒也及时回复了。

他是这么说的：“没错！我说大模型尺寸可能在走CNN的老路，绝对不意味着号召大家停止训练更大的模型。”

他进一步解释道，这么说的本意是，随着技术（包括CNN和大模型）落地实践越来越广，大家已经开始越来越关注性价比更高的模型了。”

所以，或许更高效的小·大模型，能够重新定义AI的“智能”，挑战“越大越好”的假设。

你赞同这个观点不？

参考链接：[1]https://x.com/jiayq/status/1818703217263624385[2]https://x.com/fun000001/status/1818791560697594310[3]https://www.patronus.ai/[4]https://twitter.com/karpathy/status/1814038096218083497

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-08-02 11:45:06

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于特斯,马斯,马斯克,扬清,特斯拉,老路的资讯：

马斯克挥别库克向贝索斯看齐

...，以免重蹈“封闭”之覆辙。最引人瞩目的莫过于6月初马斯克宣布：“特斯拉的自动驾驶技术FSD将会开放给其他汽车制造商使用。”而在这之前，特斯拉已经先后开放了部分专利和超级充电网

2023-06-21 15:34:00

成于特斯拉，败于丰田：松下电池启示录

...上市，大受欢迎，特斯拉稍松了一口气。但作为掌舵者，马斯克又有了新的焦虑。当时，量产后的Model S已经消耗了全球电池总量的10%

2023-12-08 15:13:00

马斯克“改造”特斯拉，推特ceo大裁员

作者| 李贤焕编辑| 孙春芳曾经的首富马斯克正在面对越来越多的质疑，不管是作为推特CEO，还是作为特斯拉CEO。上周，马斯克自己发起的一个关于他是否应该辞去推特负责人一职的投票，

2022-12-23 21:51:00

特斯拉混乱局势升级：天价薪酬事未了马斯克又被控内幕交易

...（编辑马兰）特斯拉正在召集股东投票，就首席执行官马斯克价值数百亿的薪酬包和将特斯拉公司注册地迁移到得克萨斯州进行表决。而从机构股东的表态来看，马斯克显然处于下风。上周，包含

2024-06-04 16:09:00

美媒揭秘马斯克疯狂做法：牺牲特斯拉等为发展xAI提供资源！特

马斯克凤凰网科技讯北京时间8月12日，据《华尔街日报》报道，埃隆·马斯克(Elon Musk)为他的人工智能创业公司xAI制定了一个宏大计划

2024-08-12 16:50:00

马斯克的“大本营”快失守了，推特的董事会不淡定了

丢失全球首富宝座之后，马斯克最终做出了选择。12月18日，马斯克在推特上发起了一项投票，内容是他是否应该辞去推特CEO一职。截至12月19日投票时间结束，一共有57.5%的网友投

2022-12-22 23:55:00

虚惊一场！马斯克560亿天价薪酬获批准这次专家说对了

【CNMO科技】6月13日，埃隆·马斯克560亿美元的天价薪酬方案再次获得批准，股东投票以较大优势通过，此前的担忧完全是“虚惊一场”。马斯克虽然无论选举结果如何，都无法保证特斯拉

2024-06-13 15:31:00

每天身价缩水4亿美元，马斯克玩脱了？丨氪金 · 大事件

...突破3000亿美元的首富，年底就要面临被迫卸任推特CEO，马斯克的2022年很是不太平。12月19日，马斯克在推特上发起了一项投票，对“自己是否应该辞去推特首席执行官一职”进

2022-12-28 14:02:00

马斯克4000亿元天价薪酬即将到账！

马斯克的560亿美元（约合人民币4060亿元）“天价”薪酬基本落定，特斯拉股东投票以较大优势通过。车东西6月13日消息，刚刚，马斯克通过X（原推特）发文称，特斯拉两项股东决议已以

2024-06-15 10:25:00

更多关于科技的资讯：

厦门动漫嘉年华启幕众多热门国漫IP集中参展

厦门动漫嘉年华各项活动精彩纷呈。（记者林铭鸿摄）厦门网讯（厦门日报记者林露虹）展览面积超5万平方米，汇聚众多热门国漫IP

2026-01-01 08:41:00

助力低空应急产业发展——三明市应急管理局引进低空防御项目

东南网1月1日讯 2025年12月30日，由三明市应急管理局引进，南京云麒防务科技有限公司投资的福建鹏鑫智能科技有限公司

2026-01-01 09:33:00

太长高速太原收费站完成智慧化升级

近日，太长高速太原收费站智慧化升级改造全面完成并投入运营。项目以数字化转型为核心，围绕高峰期通行效率低、车辆拥堵等运营痛点

2026-01-01 07:17:00

沈洁任蓟州区代理区长扫码阅读手机版

据“掌上蓟州”微信公众号消息，天津市蓟州区第二届人民代表大会常务委员会第三十五次会议决定：沈洁为天津市蓟州区人民政府代理区长。

2025-12-31 23:10:00

福建省消委会发布元旦消费提示：警惕“伪智能”陷阱科技消费需

东南网12月31日讯（本网记者卢金福）元旦佳节将至，消费市场迎来新一轮热潮。面对促销活动纷至沓来、消费场景多元拓展的新形势

2025-12-31 23:29:00

皖企长鑫科技向上交所递交IPO招股书

大皖新闻讯 2025年12月30日，总部位于合肥的长鑫科技集团股份有限公司（以下简称“长鑫科技”）正式向上海证券交易所递交招股书

2025-12-31 21:33:00

双语视频丨这一年，我们没有走遍世界，但世界，走进了《Glob

大河网讯这一年，我们没有走遍世界，但世界，走进了《Global Talk》。2025年，《Global Talk》结识了来自全球近30个国家和地区的朋友——他们带着各自的故事

2025-12-31 22:33:00

上药控股山东总部携手浪潮智慧建筑打造智慧、绿色医药园区新标杆

近日，上药控股山东总部携手浪潮智慧建筑，构建涵盖16大智能化系统的智慧园区体系，以智慧云平台为中枢推进全要素数字化升级

2025-12-31 22:59:00

石家庄二中新添“AI学伴”，有道AI答疑笔以“引导式答疑”助

河北新闻网讯为推动教育资源均衡发展，让智能科技惠及更多青少年，12月18日，石家庄市“希望工程”事业发展中心、石家庄市青少年发展基金会联合网易有道

2025-12-31 17:18:00

警惕伪智能陷阱科技消费要验真

中国消费者报福州讯（记者张文章）12月31日，福建省消费者权益保护委员会聚焦“科技+消费”核心场景发布消费提示，提醒广大消费者警惕伪智能陷阱

2025-12-31 17:33:00

三亚海旅免税城五周年庆典点燃免税消费热情

中国消费者报海口讯（记者黄劼）2025年12月30日，三亚海旅免税城迎来开业五周年。海旅免税以“High Five 5•五周年狂欢庆典”为主题

2025-12-31 17:33:00

麦当劳中国第4400家LEED认证绿色餐厅落户福州

福州新华都大厦餐厅盛大开业，“开心书屋”全国首发麦当劳中国第4400家LEED认证绿色餐厅落户福州辞旧迎新之际，麦当劳中国第4400家LEED认证绿色餐厅“福州新华都大厦（五四路）餐厅”盛大开业

2025-12-31 17:49:00

“艾白”来了！福州日报社首位机器人员工正式上岗！

“艾白”来了！12月31日，福州日报社首位机器人员工正式上岗！

2025-12-31 17:49:00

嘀嗒出行发布《2025职场顺风车用户画像及体验洞察报告》

河北新闻网讯（记者李春炜）12月31日，嘀嗒出行发布《2025职场顺风车用户画像及体验洞察报告》，基于嘀嗒顺风车大数据和近万名嘀嗒顺风车用户调研

2025-12-31 18:04:00

倒计时1小时！《色彩中国》2026即将开播扫码阅读手机版

2025-12-31 18:56:00

头条订阅服务

贾扬清：大模型尺寸正重走CNN的老路；马斯克：在特斯拉也是这样