• 我的订阅
  • 科技

大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模

类别:科技 发布时间:2024-07-23 09:40:00 来源:新智元

大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模

【新智元导读】小模型强势来袭,「大模型时代」或将落幕?

「小模型周」过去了 ,小模型的最新战场才刚刚开辟。

上周GPT-4o mini和Mistral NeMo二连发,「麻雀虽小,五脏俱全」的小模型成为业界大佬密切关注的新方向。

大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模

这么说来,难道大模型要失宠了? Scaling Law要失效了?

前OpenAI和特斯拉AI研究员Andrej Karpathy刚刚入局AI教育,「K老师」最近发表推文指导行业迷津,揭秘科技巨头纷纷转向小模型研发的背后新趋势:AI大模型的竞争即将逆转。

他预判,未来的模型将会更小,但仍然会变得更智能。

大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模

人工智能巨头公司和一些新晋独角兽,最近都发布了与其他同行相比更紧凑、更强大、更实惠的人工智能模型,最新的例子是OpenAI的GPT-4o mini。

Karpathy预测这一趋势将持续下去。他写道,「我敢打赌,我们会看到很多能够有效可靠思考的模型,而且体积非常小。」

小模型:站在巨人的肩膀上

在LLM发展的初期阶段,吞吐更多数据,把模型往大了做是必然的趋势。这主要基于以下几个原因:

首先,数据驱动的需求。

生活在一个数据爆炸的时代,大量丰富和多样化的数据需要更强大的模型来处理和理解。

大模型具备容纳和处理海量数据的能力,通过大规模的数据训练,能够挖掘出深层次的模式和规律。

其次,计算能力的提升。

硬件技术的不断进步,GPU等高性能计算设备的发展,为大模型的训练提供了强大的算力支持。使得训练大型、复杂的模型成为可能。

再者,追求更高的性能和精度。

大模型通常能够在语言理解、生成、图像识别等多个领域展现出卓越的性能,懂的越多,生成出来的结果也就越准确。

最后,泛化能力更强。

大模型能够更好地处理未曾见过的新问题和新任务,能够基于之前学到的知识进行合理的推测和回答,具有更强的泛化能力。

再加上AI领域竞争激烈,各研究机构和巨头都致力于开发更大更强的模型,展示技术实力和领先地位,卷模型大小自然成了LLM的发展大方向。

Karpathy也将当前最强大模型的规模归因于训练数据的复杂性,并补充说大语言模型在记忆方面表现出色,超越了人类的记忆能力。

类比一下,期末周如果你要接受闭卷考试,考试要求根据前几个单词背诵书本上的某个段落。

这就是当今大模型的预训练目标。Karpathy表示,现在的大模型就像是一个贪吃蛇,只想把所有能用的数据全部吞进肚子里。

它们不仅能背诵常见数字的SHA系列哈算法,还能记住所有领域大大小小的知识。

但是,这种学习方式就像是你为了考试,把整个图书馆和互联网上的内容通通都背下来。

不可否认能做到这种记忆能力的是天才,但是结果考试时只用到了其中的一页!

对于这种天才学生——LLM想要做得更好之所以困难,是因为在训练数据的过程中,思维演示与知识「纠缠」在一起。

而且,一方面从实际应用的角度来看,大模型在部署和运行时面临着高昂的成本和资源消耗,包括计算资源、存储资源以及能源消耗等。

小模型更易于在各种设备和场景中进行部署,满足使用便利性和低功耗的要求。

另一方面,从技术成熟的角度考虑,当通过大模型充分探索和理解了问题的本质和规律后,可以将这些知识和模式提炼并应用于小模型的设计和优化中。

使得小模型在保持大模型同等性能甚至更优性能的前提下,降低规模和成本。

虽然大模型发展遇到了瓶颈,小模型逐渐成为新趋势,但是Karpathy强调,大模型仍然是需要的,即使它们没有得到有效的训练,但是小模型正是从大模型中浓缩而来。

Karpathy预计,每个模型都会不断改进,为下一个模型生成训练数据,直到出现「完美的训练集」。

即使是像GPT-2这样,拥有15亿个参数的已经out模型,当你用这个完美的训练集来训练GPT-2时,它可能会变成一个按今天标准来看非常强大且智能的模型。

这个用完美的训练集训练过的GPT-2可能在例如大规模多任务语言理解(MMLU)测试中的分数会稍低一些,MMLU测试涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等,用以评测大模型基本的知识覆盖范围和理解能力。

大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模

但未来更智能的人工智能模型并不走量取胜,它可以更可靠地检索信息并验证事实。

正如一个学霸做开卷考试,虽然不是所有的知识都烂熟于心,但是能够精准地定位到正确答案。

据报道,OpenAI的Strawberry项目就着重在解决这个问题。

「虚胖」大模型的「瘦身」

正如Karpathy所说,经过海量数据训练出来的超大模型(如GPT-4),大部分其实是用来记住大量的无关紧要细节的,也就是死记硬背资料。

这与模型预训练的目的有关,在预训练阶段,模型被要求尽可能准确的复述接下来的内容,这相当于背课文,背的越准得分越高。

虽然,模型能学会里面反复出现的知识,但是,数据资料有时也会出现错误和偏见,模型还要先全部记住再进行微调。

Karpathy相信如果有更高质量的训练数据集,完全可以训练出一个规模更小,能力更强,更有推理能力的模型。

可以在超大模型的帮助下,自动生成,清洗出质量更高的训练数据集。

类似GPT-4o mini,就是用GPT-4清洗出来的数据训练的。

先把模型做大,然后在此基础上「瘦身」,这可能是一种模型发展的新趋势。

做个生动的比喻就像当前的大模型存在数据集过多虚胖的问题,经过数据清洗和大量训练,摇身一变一身精瘦肌肉的小模型。

大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模

这个过程就像是一个阶梯式的进化,每一代模型都会帮助生成下一代的训练数据,直到我们最终得到一个「完美的训练集」。

OpenAI首席执行官Sam Altman也发表了类似言论,早在2023年4月就宣布大型AI模型的「时代结束」。

并且,数据质量是AI训练的关键成功因素也越来越成为共识,无论是真实数据还是合成数据。

奥特曼认为,关键问题是人工智能系统如何从更少的数据中学到更多的东西。

微软研究人员在开发Phi模型时也做出了相同的判断,Hugging Face AI研究人员也同意对于高质量数据集的追求,并发布了高质量的训练数据集。

这意味着一味扩张不再是科技巨头们唯一的技术目标,即使是小型的高质量模型也可以受益于更多、更多样化、更高质量的数据。

回到更小、更高效的模型可以被视为下一个整合阶段的目标,OpenAI的模型发布就清晰地表明未来的发展方向。

评论区:正确的、中肯的、一阵见血的

Karpathy还提到了特斯拉在自动驾驶网络上的类似做法。

大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模

特斯拉有一个叫「离线追踪器」的东西,通过运行先前的较弱模型,生成更干净的训练数据。

一听到特斯拉技术被cue走在时代前列,马斯克迅速赶往评论区:

大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模

评论区的网友对于Karpathy的远见卓识也纷纷表示,臣附议!

对于未来的通用人工智能来说,更小、更高效的人工智能模型可能会重新定义人工智能中的「智能」,挑战「越大越好」的假设。

大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模

《Python机器学习》作者Sebastian Raschka认为,这就像是知识蒸馏,从27B的大模型蒸馏出Gemma-2这样的小模型。

他也提醒我们,MMLU这种多选题测试,可以测试知识,但不能完全反映实际能力。

大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模

也有网友脑洞大开,如果小模型表现得好,那么术业有专攻,为什么不用更多的小模型来生成一个个回答呢?

召集10个AI助手,然后让最聪明的那个做最后的总结,简直是AI版的智囊团。

大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模

那么,AGI到底是一个全能大模型,还是来自许多小模型的协作呢?

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-23 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

从大佬们的年度总结里,我们盘出了 5 个关于科技行业的关键词
...年又将往何处去?「硅基研究室」通过盘点国内外科技界大佬们的年末总结(注:年末总结指的是年度信、最新采访实录等一线资料),试图从这些原汁原味的观察中厘清过去,展望未来。这五个关
2024-01-06 23:00:00
超30个国产大模型混战:华为百度阿里腾讯,谁能成为“中国的OpenAI”?
...发展史上最“内卷”的一周。同时,创业市场依然不断有大佬进入,搜狗创始人王小川,美团联合创始人王慧文和元老级高管陈亮纷纷投身AI大模型。王小川和百度李彦宏阵营围绕技术差距等问题
2023-04-18 13:00:00
马云再次现身引热议!DeepSeek爆火,阿里巴巴能否借势AI?
...等举措,都推动了阿里港股的此前上涨。▌美国对冲基金大佬继续加仓Alphalex Capital管理基金香港总经理Alex Au表示
2025-02-11 23:33:00
北京车展收官丨老总营销出圈,外国“皮尺部”出动
...的变了!与其说这是一场汽车的展览会,不如说一场车企大佬的秀场,一绿一红的雷军、周鸿祎在本届车展上大放异彩,压过一众流量明星,还有比亚迪王传福、长城汽车魏建军、广汽集团冯兴亚、
2024-05-06 18:40:00
没有马云们的世界人工智能大会,AI离我们更近了吗?
...了,香港中文大学教授汤晓鸥来了,学界与创业界各类的大佬顶着上海30度的湿热天气,穿行在徐汇、张江、闵行以及上海世博酒店之中。这可能是史上最忙碌的一届的大会,超400家企业参展
2023-07-08 20:00:00
实现AGI之前 全球AI大佬在这4个关键问题上吵起来了
...到吗?我不知道”。04.人类和AI,谁是未来世界的主宰?大佬们之所以如此关注AI安全,核心是因为人工智能的发展趋势将直接影响到全人类的未来命运。有关AI颠覆人类的科幻故事不胜
2023-06-13 15:03:00
车圈大佬达成共识,“AI汽车”才是真正未来?
...电动汽车发展的主旋律。 当中,何小鹏、余承东等行业大佬还给出了不一样的信息。小鹏新品牌确认,智驾走进「千家万户时代」何小鹏在会上确认,小鹏汽车将在未来一个月推出全新品牌,正
2024-03-19 10:19:00
ChatGPT创业,朱啸虎和傅盛谁错了?
作者 | 王敏6月26日下午,一场火药味十足的大佬朋友圈“互怼”流传开来。这场纷争的开始,是猎豹移动CEO傅盛转发了一篇金沙江创投董事总经理朱啸虎观点的文章。在文章中,朱啸虎表示
2023-06-29 16:23:00
AI大牛履新南大副校长!高校人工智能热度高涨,3年9名大厂科学家回归学术
...时代财经注意到,另一个更加普遍的现象是,产业界的AI大佬们纷纷投身高校,掀起了一股回流潮。 3年9名大佬出走大厂AI大佬回归高校的案例不断增加。今年7月底,原字节大模型研发
2024-08-05 09:54:00
更多关于科技的资讯:
近年来,我国商业保险发展速度较快,产品的种类也日渐丰富,除了大家比较熟悉的车损险、医疗险、航空险等,依托宠物经济应运而生的宠物保险也受到越来越多的关注
2025-11-14 12:19:00
携程商旅设立千万级保障金,推动行业迈向\
11月9日,2025年携程集团全球合作伙伴峰会商旅分论坛暨携程商旅伙伴大会在土耳其伊斯坦布尔举办。会上,携程商旅顺应行业"高品质服务"及"全球化发展"两大趋势
2025-11-14 12:59:00
大华股份亮相全球智慧城市大会
近日,2025全球智慧城市大会在西班牙巴塞罗那会展中心盛大启幕。大华股份携全栈式智慧城市解决方案重磅亮相,围绕城市安全
2025-11-14 12:59:00
虹软科技AI视觉赋能BOLON AI Glasses重磅发布,与Rokid乐奇深度合作打造创新体验
BOLON AI Glasses正式发布,这是国内领先的 AR 眼镜制造商 Rokid 乐奇与 BOLON 眼镜联合打造的全新一代 AI 眼镜
2025-11-14 12:59:00
2025青岛虚拟现实创新大会将启,星鲨研究院探索“具身智能”前沿
鲁网11月14日讯“在这里,唯一限制你的是你自己的想象力。”科幻电影《头号玩家》中对于“绿洲”的这一描述,恰如其分地展现了虚拟现实产业的无限可能
2025-11-14 10:18:00
中新经纬11月14日电 据“网信中国”微信公众号14日消息,网信部门从严整治利用AI仿冒公众人物开展直播营销问题乱象。近期
2025-11-14 10:30:00
大麦娱乐推出全新品牌“大麦国际” 提供全球演出购票、观演服务
购买海外演出门票,现在有了新选择。11月14日,大麦娱乐宣布推出旗下全新业务品牌、全球演出服务平台“大麦国际(MAISEAT)”
2025-11-14 10:45:00
大河网讯 11月11日,全省数字影像检查“云胶片”联盟采购工作顺利开标,产生了拟中选结果,中原算力科技发展有限公司等6家企业拟中选
2025-11-14 10:53:00
鲁网11月13日讯11月13日,山东瑞程数据科技有限公司与济宁学院联合攻关的“多模态肉品AI快检系统”核心技术,在第十四届中国创新创业大赛颠覆性技术创新大赛中斩获优秀奖
2025-11-14 10:54:00
记者走基层|“黑科技”上线,让温暖精准入户
11月12日,河北邢襄热力集团邢台供热分公司二工区三班班长丁帅,在三义庙换热站查看设备运行情况。 河北日报记者 宋 平摄随着11月15日临近
2025-11-14 08:02:00
11月13日,太原公共交通控股(集团)有限公司(以下简称“太原公交”)与中车时代电动汽车股份有限公司(以下简称“中车电动”)举行框架合作协议签约仪式
2025-11-14 07:50:00
记者走基层|智能安全帽,让矿工有了AI“卫士”
11月5日,中煤张家口煤矿机械有限责任公司所属恒洋电器有限公司工作人员介绍智能安全帽产品。河北日报记者 魏 雨摄“嘀嘀
2025-11-13 08:03:00
“长与短”周期变革,“快与慢”时效重构,“热与冷”业态碰撞—— “双11”三重奏,解读消费新变局□南京日报/紫金山新闻记者黄琳燕11月12日中午
2025-11-13 08:05:00
南报网讯(记者周容璇)日前,在南京医药中央物流中心,一辆白色无人车平稳地穿梭于主仓库与宝湾库区之间,仅用15分钟便完成了一次驳货作业
2025-11-13 08:05:00
向“质”攀升,南京机器人解锁“智造”新图景
全链条持续发力,以硬核技术竞逐市场向“质”攀升,南京机器人解锁“智造”新图景□南京日报/紫金山新闻记者徐宁 实习生黄倩机器人是智能制造的核心组成部分
2025-11-13 08:05:00