• 我的订阅
  • 科技

微软、英伟达纷纷押注小模型,大模型不香了?

类别:科技 发布时间:2024-08-26 14:17:00 来源:每日经济新闻

在人工智能发展的道路上,科技巨头们曾经竞相开发规模庞大的语言模型,但如今出现了一种新趋势:小型语言模型(SLM)正逐渐崭露头角,挑战着过去“越大越好”的观念。

微软、英伟达纷纷押注小模型,大模型不香了?

视觉中国

当地时间8月21日,微软和英伟达相继发布了最新的小型语言模型——Phi-3.5-mini-instruct和 Mistral- NeMo- Minitron8B。这两款模型的主要卖点是它们在计算资源使用和功能表现之间实现了良好的平衡。在某些方面,它们的性能甚至可以媲美大模型。

人工智能初创公司Hugging Face的首席执行官Clem Delangue指出,高达99%的使用场景可以通过SLM来解决,并预测2024年将成为SLM之年。据不完全统计,包括Meta、微软、谷歌在内的科技巨头们今年已经发布了9款小模型。

大模型训练成本攀升

SLM的崛起并非偶然,而是与大模型(LLM)在性能提升与资源消耗方面的挑战密切相关。

AI 初创公司 Vellum 和Hugging Face今年4月份发布的性能比较表明,LLM之间的性能差距正在迅速缩小,特别是在多项选择题、推理和数学问题等特定任务中,顶级模型之间的差异极小。例如,在多项选择题中,Claude 3 Opus、GPT- 4 和Gemini Ultra的准确率均超过83%,而在推理任务中,Claude3 Opus、GPT-4和Gemini 1.5Pro的准确率均超过92%。

Uber AI 前负责人 Gary Marcus指出:“我想每个人都会说GPT-4比GPT-3.5领先了一步,但此后的一年多没有任何质的飞跃。”

与有限的性能提升相比,LLM的训练成本却在不断攀升。训练这些模型需要海量数据和数以亿计甚至万亿个参数,导致了极高的资源消耗。训练和运行LLM所需的计算能力和能源消耗令人咋舌,这使得小型组织或个人难以参与核心LLM开发。

国际能源署估计,数据中心、加密货币和人工智能相关的电力消耗到2026年,会大致相当于日本全国的用电量。

OpenAI首席执行官阿尔特曼曾在麻省理工学院的一次活动上表示,训练GPT-4的成本至少为1亿美元,而Anthropic首席执行官Dario Amodei预测,未来训练模型的成本可能达到1000亿美元。

此外,使用LLM所需的工具和技术的复杂性也增加了开发人员的学习曲线。从训练到部署,整个过程耗时漫长,减缓了开发速度。剑桥大学的一项研究显示,公司可能需要90天或更长时间才能部署一个机器学习模型。

LLM的另一个重大问题是容易产生“幻觉”——即模型生成的输出看似合理,但实际上并不正确。这是由于LLM的训练方式是根据数据中的模式预测下一个最可能的单词,而非真正理解信息。因此,LLM可能会自信地生成虚假陈述、编造事实或以荒谬的方式组合不相关的概念。如何检测和减少这些“幻觉”是开发可靠且可信赖语言模型的持续挑战。

小模型可降低成本

对LLM巨大能源需求的担忧,以及为企业提供更多样化AI选项的市场机会,让科技公司将注意力逐渐转向了SLM。

《每日经济新闻》记者注意到,不管是Arcee、Sakana AI和Hugging Face等AI初创公司,还是科技巨头都在通过SLM和更经济的方式吸引投资者和客户。

此前,谷歌、Meta、OpenAI和Anthropic都发布了比旗舰LLM更紧凑、更灵活的小模型。这不仅降低了开发和部署的成本,也为商业客户提供了更便宜的解决方案。鉴于投资者越来越担心AI企业的高成本和不确定的回报,更多的科技公司可能会选择这条道路。即便是微软和英伟达,如今也先后推出了自己的小模型(SLM)。

SLM是LLM的精简版本,具有更少的参数和更简单的设计,它们需要更少的数据和训练时间——只需几分钟或几小时。这使得SLM更高效,更易于在小型设备上部署。例如,它们可以嵌入到手机中,而无需占用超算资源,从而降低成本,并显著提升响应速度。

SLM的另一个主要优势是其针对特定应用的专业化。SLM专注于特定任务或领域,这使它们在实际应用中更加高效。例如,在情绪分析、命名实体识别或特定领域的问答中,SLM的表现往往优于通用模型。这种定制化使得企业能够创建高效满足其特定需求的模型。

SLM在特定领域内也不易出现“幻觉”,因为它们通常在更窄、更有针对性的数据集上训练,这有助于模型学习与其任务最相关的模式和信息。SLM的专注性降低了生成不相关、意外或不一致输出的可能性。

尽管规模较小,SLM在某些方面的性能并不逊色于大模型。微软最新推出的Phi-3.5-mini-instruct仅拥有38亿个参数,但其性能优于Llama3.18B和Mistral7B等参数远高于它的模型。美国东北大学(位于美国马萨诸塞州波士顿,是一所顶尖的私立研究型大学)语言模型研究专家Aaron Mueller指出,扩展参数数量并非提高模型性能的唯一途径,使用更高质量的数据训练也可以产生类似效果。

OpenAI首席执行官阿尔特曼在4月的一次活动中表示,他相信当前正处于巨型模型时代的末期,“我们将通过其他方式来提升它们的表现。”

不过,需要注意的是,虽然SLM的专业化是一大优势,但也有局限性。这些模型可能在其特定训练领域之外表现不佳,缺乏广泛的知识库,和LLM相比无法生成广泛主题的相关内容。这一限制要求用户可能需要部署多个SLM来覆盖不同的需求领域,从而使AI基础设施复杂化。

随着AI领域的快速发展,小模型的标准可能会不断变化。东京小模型初创公司Sakana的联合创始人兼首席执行官David Ha表示,几年前看似庞大的AI模型,现在看来已经显得“适中”。“大小总是相对的。”David Ha说道。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-26 17:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

烧数亿美元、耗上万颗英伟达 GPU,微软揭秘构建 ChatGPT 背后超级计算机往事 !
整理 | 苏宓出品 | CSDN(ID:CSDNnews)都说 ChatGPT 这种大模型研发是大公司之间的博弈,不仅仅是因为其要消耗的算力巨大
2023-03-15 05:00:00
...暂未回应。值得一提的是,此前许多外界人士认为 通过模型蒸馏技术,DeepSeek可能在训练过程中使用了 ChatGPT 等模型的输出数据作为训练材料
2025-01-29 21:29:00
微软难以摆脱英伟达 |焦点分析
...市场至少90%的份额。AI芯片是AI时代石油一般的存在。大模型公司想更快推出模型和AI应用,就必须大量购入英伟达的芯片。而英伟达的产能有限,按照上一年计划制定的供给,远不能满
2023-11-20 13:32:00
从狂热到理性:大模型训练三堵墙,一场少数人的游戏 | 钛媒体深度
...PU卡,把服务器买走都行”。3月份开始,张阳明显感受大模型带来的冲击,作为一家云厂商算力平台负责人,他意识到市场甚至有些盲目。“当时客户比较慌,相当于对产品都没有什么要求,不
2023-06-29 12:00:00
微软推出自研AI芯片:台积电5nm工艺、Open AI开启试用,想摆脱对英伟达依赖?
...能够带来终极效率、性能和规模。”对目前正在加速AI大模型服务布局的微软来说,自研芯片更多有着成本考虑,同时也能够避免过度依赖供应商,对其长期的商业化也将产生影响。 两款芯片
2023-11-16 16:47:00
微软拟推出人工智能芯片,训练大模型语言
...出人工智能芯片,为负责理解和生成类人语言的大型语言模型(LLM)提供动力。报道称,了解相关项目的人士透露,微软自2019年开始开发内部代号为“雅典娜”(Athena)的芯片。
2023-04-19 16:00:00
全球五大巨头GPU总量曝光!2025年等效H100或超1240万块
...都在紧锣密鼓地布局自己的算力版图,开展下一代更先进模型的训练。谷歌Gemini 2.0预计在本月正式上线。此前,马斯克也曾透露
2024-12-03 13:34:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行
2024-08-22 09:49:00
AI芯片下半场:英伟达不再一家独大
...开发者大会上,推出两款定制芯片,以应对不断增加的大模型训练成本挑战,并试图降低提供AI服务的成本。微软表示,新发布的芯片不会出售,仅供支持自己的产品,并作为微软云Azure云
2023-11-16 23:46:00
更多关于科技的资讯:
聚焦2025中国国际数字经济博览会·访谈|沈昌祥:发挥优势,不断筑牢人工智能安全底座
发挥优势,不断筑牢人工智能安全底座——访中国工程院院士沈昌祥中国工程院院士沈昌祥。 河北日报记者 李东宇摄2025中国国际数字经济博览会的主题为“可信数据赋能产业发展”
2025-10-18 08:25:00
10月17日,2025中国国际数字经济博览会,一款AI绘画机器人精准识别人脸神态,快速绘画出人脸素描,被这只机械臂画得心服口服。(摄制:苏畅、白中豪、朱泊宇)
2025-10-18 08:27:00
深化开发利用,让高质量数据“动”起来——2025中国国际数字经济博览会探新之一机器人亮绝活、大模型总动员、虚拟空间沉浸体验……10月17日
2025-10-18 08:37:00
厦门网讯(厦门日报记者 薛尧)苹果iPhone17 Air昨日正式开启预售,这款取消实体卡槽、仅支持eSIM(嵌入式虚拟SIM卡)的新机
2025-10-18 08:59:00
近日,建设银行正式启动“‘享趣’玩·惠游中华”信用卡活动,为客户提供涵盖景区票务、特色餐饮、文创消费等多方面的用卡优惠
2025-10-18 10:41:00
海信贾少谦:AI重塑企业管理模式,打法要快,生意要慢
10月17日,第十五届中国管理·全球论坛暨首届“中国企业管理最佳实践榜”发布盛典在青岛举办。作为C50+2025年度轮值企业家召集人
2025-10-18 10:57:00
竹溪县数字经济产业链招商签约超亿元
十堰广电讯(全媒体记者 白孟尧 通讯员 付延峰)竞逐数字经济新赛道,孕育产业链招商硕果。10月18日,湖北十堰竹溪县竹溪数字经济产业链招商暨2025“国芯一号”生态合作伙伴大会在桃花岛夯土小镇举行
2025-10-18 13:47:00
东南网龙岩10月17日讯(通讯员 陈碧霞)近日,工行龙岩漳平支行组织青年志愿者主动深入当地企业园区,精心开展集“个人金融产品精准营销”与“金融反诈知识普及”于一体的“一站式”综合服务活动
2025-10-18 16:32:00
烟台银行荣登2025上半年度高质量数字化转型十大典型案例榜单
近日,由中国信通院主办的以“洞见十五五”为主题的2025数字生态发展大会暨“铸基计划”年中会议在北京盛大召开。会上,烟台银行联合长亮科技申报的《DataOps赋能烟台银行建设高质量智能数据中枢》案例
2025-10-18 17:45:00
视源股份广交会展示AI全场景创新实力,机器人机器人系列产品亮相成焦点
在第138届中国进出口商品交易会(广交会)上,视源股份以“AI+未来教育、AI+企业服务、AI+机器人、AI+生活”为主线
2025-10-18 18:18:00
本土智造重磅升级,医科达将八度亮相进博
第八届中国国际进口博览会(进博会)进入倒计时,作为八年“全勤生”,全球精准放疗先锋医科达将以“共建本土生态,共筑抗癌未来”为主题
2025-10-18 18:42:00
不用等到20号了!现在来京东11.11 iPhone 17 Pro系列可领300元惊喜券
每年11.11对于广大果粉而言无疑是换新的绝佳时机,无论是追求最新款还是预算有限入手上一代机型都能享受到极具吸引力的价格
2025-10-18 18:43:00
破局重构引领前行,联众优车持续锻造二手车服务新基建
近年来,在国内汽车消费结构持续升级的背景下,二手车市场已成为拉动汽车消费的重要引擎。特别是随着国家一系列利好政策的推出
2025-10-18 18:43:00
从龙虎到鹤年堂 京东七鲜十月品牌日再造下一个老字号联名爆款
随着“养生年轻化”与“即食化养生”成为主流,当代消费者愈发青睐“轻松养生、即时进补”。如何让传统养生智慧通过自有品牌融入日常
2025-10-18 18:43:00
全时段畅飞 全年不限次:长龙航空“365畅飞卡”10月19日在京东旅行限时开售
国内随心飞历史新低,全时段畅飞、全年不限次!在推出海航随心飞,并创下2天超25万用户下单、2亿销售额的纪录之后,京东11
2025-10-18 18:45:00