• 我的订阅
  • 科技

小米大模型:不搞军备竞赛

类别:科技 发布时间:2023-11-08 18:13:00 来源:中国企业家杂志

轻量级的模型亦有其存在的市场空间。

2022年11月底,基于GPT-3.5的ChatGPT刚出来的时候,小米集团AI实验室主任、自然语言处理(NLP)首席科学家王斌给ChatGPT抛出一个问题:证明一下勾股定理。

最终,ChatGPT给出了一个基于数学归纳法的证明过程。王斌发现,虽然这个证明过程是错误的,但是整个证明的逻辑看上去似乎非常合理。后来才意识到这是大模型的“幻觉”现象,但从某个角度上看ChatGPT的这个证明思路非常新奇。

不断使用后,ChatGPT的强大能力和奇思妙想超乎王斌的想象。身为一名AI从业者,他感到一个新的智能时代即将来临,而自己无法再置身事外。2023年4月,由王斌牵头负责,小米技术委员会AI实验室大模型团队负责人栾剑带队,在小米内部正式成立了一支自研大模型团队。而在这之前的数月,小米就开始做自研的相关准备工作。

小米集团创始人、董事长兼CEO雷军亲自推动了自研大模型团队的建立,并全程高度参与了小米大模型的自研,他会亲自查看团队的周报、月报甚至日报,关注大模型进展。至于投入,雷军也表示:“全力支持,投入不设上限。”

经过半年多时间的努力,小米目前已训练出13亿和60亿参数规模的语言大模型,并在集团内开源赋能各业务。它们在小米澎湃OS系统和人工智能助手小爱同学的部分场景已经得到应用,更大参数规模的大模型也在紧锣密鼓地开发中。

不同于百度的文心一言、科大讯飞星火等通用大模型,小米自研大模型更强调跟产品的结合和场景的驱动。

“我们不会纯从技术角度考虑,也不会以比赛为目标。我们不搞军备竞赛,我们做大模型的出发点并不是成为中国的OpenAI。我们一开始就考虑大模型跟公司的场景怎么结合。”王斌告诉《中国企业家》。

小米内部认为,轻量级模型亦有其存在的市场空间,且在某些特定任务上相比千亿大模型亦能具备一定的优势。这是端侧大模型的特殊要求,也是一家智能设备厂商入局大模型的必经之路。

与市面上大多数自研大模型的公司一样,小米同样选择了从小参数到大参数的渐进式开发过程。通过小参数模型摸清底层的逻辑,蹚好路上要经历的坑,再加大投入追求更大参数模型的训练。

小米为什么要自研大模型?小米如何自研大模型的?又如何将大模型放到智能手机等设备里?小米用大模型来做什么?大模型对小米全球6亿多MIUI月活用户来说意味着什么?跟未来的人车家全生态又有哪些关联?近日,王斌接受了《中国企业家》的专访,对此进行了一一解答。

以下为小米集团AI实验室主任、自然语言处理(NLP)首席科学家王斌自述(在不改变原意下做了删减):

态度:不搞军备竞赛

基于GPT-3.5的ChatGPT是2022年11月30日发布的,其实第二天小米内部就有好多人注册了账号在用,我们当时就觉得这肯定是一个跨时代的事件,做过多年AI的我们都深刻感受到,ChatGPT的很多结果超出了我们的预期。

在用的过程中我们也不断总结。后来我们觉得这不只是做AI的人关注的事情,可能对所有的行业、部门都会产生影响。大模型一定是未来的趋势,它会极大地改变我们的产品和业务。

当时我们就做了一些内部布道的工作,向全公司发起推广,在总经理例会上以及各种场合去宣传,呼吁大家都要用大模型,甚至在公司内部也建立了大模型的机器人,把ChatGPT接过来,我们在公司内部还整理了很多文档,指导大家怎么使用。

我们内部还成立了一个讨论组,共享一些使用经验,猜一猜这个技术可能在哪个地方带来颠覆。但当时还仅限于一个技术层面的探讨,刚开始还没有决定要做。等到春节左右,有人觉得至少要动手去做了,这个风暴来了,我们做技术的肯定不能置身事外,如果不入局就会在竞争当中处于不利的位置,于是我们也开始做一些准备工作。

等当面跟雷总(雷军)汇报时,他马上拍板说,“你们赶紧做。”所以,我们大模型团队成立正式官宣是4月份,但实际上早就已经开始筹备了,随后我们就全力拥抱深入其中去做相关的研发。

当真正决定自研的时候,我们是从这几个方面考虑的。

第一,小米是一个应用场景非常多的公司,在这些场景里怎么通过大模型,提高产品体验,提高公司内部的运营效率,完善从感知到认知再到决策的智能体验,是我们考虑的事情。小米跟做通用大模型的公司定位不太一样,他们是做完给别人用,但我们更多要考虑小米的场景。从小爱同学到未来的汽车再到操作系统和机器人,都是能和大模型结合的重要场景。

第二,正是因为小米有场景的驱动,所以我们在做大模型的时候不会纯技术考量,也不是要去比赛,或做个中国的OpenAI,我们不搞军备竞赛,这不是我们做大模型的出发点,我们一开始就得考虑大模型跟公司的场景怎么结合。

第三,小米是一家技术立业的公司,公司的技术研发投入很大,有很多自己的技术创新,同时也对业界出现的新技术保持高度敏感。对于有希望的新技术,你至少要跟上,再想办法和场景高度融合,做出自己的优势和特色。

雷总对大模型业务参与非常多,我们团队有几个专门讨论大模型的群聊,雷总就在群里。有信息及时在群里共享,有问题直接在群里解释汇报。我们的周报、月报甚至日报他也会直接看。他对技术的敏感度非常高,也非常看好大模型,所以他时刻都在关注我们的进展,这也使我们有些压力。但关于投入,雷总大力支持,不设上限。

落地:从小到大逐步迭代

确定好自己的定位,我们的路线比较清楚:一边研发探索,一边结合小米的场景。我们确信,不是要用一个大模型覆盖所有业务场景,所以跟业内很多公司一样,我们采取了从小到大渐进式开发的过程。

我们的第一个模型是13亿的小规模模型。一开始选择参数规模比较小的模型,是因为想避免大的犯错,因为越大模型的训练,其成本也越高。我们选择先用小规模模型做一些蹚坑的工作,把其中经历的一些问题都解决了,再做大参数规模的模型。其实训练更大的模型通常都会遇到一些新的问题,但是至少一些老的问题能够先解决,这是一个比较务实的做法。

自研大模型首要的挑战,就是如何快速找到对的人,又组合成紧密的团队,大家分工明确地共同为一个目标努力。

小米对人工智能的投入比较早,在2016年AlphaGo出来之后,雷总就开始大力投入AI,最开始是视觉团队,后来逐渐拓展到AI的各个领域。整个公司我们有3000多人在做AI相关的研发工作,我们团队也有非常丰富的AI工程化经验。

我们AI实验室之前有一个人机对话团队,做过28亿的对话模型,虽然它是只用于对话的专用模型,但内部测试的效果非常不错。另外,我们还有非常专业的数据处理团队和AI训练优化团队。我们就直接把这些有基础的人,抽调过来直接组成了一支新的团队,直接上手就开始做自研大模型了。

小米AI实验室在视觉、声学语音、NLP、知识图谱、机器学习等方向,都有技术积累,从算法预研到工程落地具备很强的闭环能力。比如,手机、汽车、音箱、可穿戴等很多智能硬件上的很多AI算法,我们从头到尾都做过,所以这支抽调而成的团队同时具备算法、数据、工程、产品、测试等大模型建设需要的能力,冷启动时间非常短,很快就能进入快车道。

具体地,我们在组建队伍的时候,NLP团队是最直接相关的,原来的对话大模型也出自该团队。我们还把知识图谱构建的团队抽调一部分过来完成大模型的数据工作,他们对数据的敏感性,对数据的理解,对数据的工具和算法的掌握,都非常强;大模型的工程组,我们是从机器学习的架构团队调过来的,此前他们专门做系统优化的工作,比如怎么有效调用GPU,怎么去做分布式机器学习训练,经验都非常丰富。

13亿的模型训练完了之后,我们会跟开源开放的模型做一些对比,虽然跟千亿的模型相比还是有各方面的差距,但是经过微调后在某些任务上还是有一些优势的。我也多次表达过13亿的模型有它自己的生存的空间,我们更关注和场景的适配。目前这个模型已经在小爱同学中上线了。实际的数据表明,在特定场景下,13亿的模型不仅效率上优于更大的模型,效果上也毫不逊色。

截至目前,小米已经有13亿、60亿两个参数规模的大模型在集团内开源。这几个模型随着输入数据的不断更新,也都在不断迭代。我们还有更大的模型正在紧锣密鼓地开发中,希望能给用户带来更好的体验。

挑战:如何把大模型放到设备里?

小米的设备非常多,我们希望把很多功能能做到汽车、手机、智能音箱或其他设备上。总而言之,我们一直以来都有强烈的端侧需求,大模型来了也不例外。当然,把大模型做到端侧挑战还是非常大的。

第一,这里似乎有个悖论。模型太大了端侧根本就放不进去跑不起来,但是模型太小了可能效果又不行。这就很考验团队对模型的理解,包括怎么对大模型做量化、蒸馏、压缩,还要保证模型的效果,还要满足硬件的各种约束,甚至包括硬件产品的理解,都要求有很强的认知能力。

第二,对于硬件端包括芯片端,也提出新的要求和挑战。一方面,现有的硬件框架下可能对大模型的支持并不完善。另一方面,需求的驱动要求我们在现有条件下就要将大模型在端侧跑通。这里面的挑战非常大,需要一个综合的解决方案。

端侧大模型确实有不少好处。一个最显而易见的好处是可以充分保护用户的隐私,用户和大模型的交互数据不会上传。再比如说,一种最极端的情况就是在没有网络的情况下,端侧大模型带来的用户体验差异会非常明显,云上的大模型没网是无法工作的,但端侧就可以。与此同时,一部分应用如果通过云侧要传输的数据量比较大,在实时性上可能就不如在端侧强,端侧响应可能会更及时。此外,如果云侧的需求量特别大之后,要维持成本肯定需要用户付费,这也是很常见的商业模式。但是如果集成到端上,用户的成本可能就没有那么高,用户也就更愿意用。

虽然大模型端侧落地的挑战很大,但是好在我们在端侧落地方面有长时间的积累。比如我们视觉团队做过很多手机拍照的算法,都是要求在端侧实现的。手机拍照现在分辨率越来越高,要对图像进行处理,处理效率要高,用户感觉不到卡顿,而且还不能发热,这些都是一系列的严格条件,我们有长期的技术落地经验。

此外,在语音和语言处理上,小米也有一些端侧的经验,比如原来在比较小的设备上实现了全离线的机器翻译,参数也达到亿级了,后来离线的机器翻译模型也被放到小米旗舰机上。

目前,小米和芯片公司也在合作,共同推动端侧大模型的落地。

未来:多模态

经历过语言大模型的开发,我们其实已经把底层的坑都蹚过了,我们有能力去做更大参数的模型,但具体要不要做千亿或者万亿的大模型,更多还是从投入产出比的角度去考虑,也看跟场景的结合还有没有需求,如果我们已经把很多场景处理得非常好,我们就不需要投更大的成本去做,我们不以军备竞赛为目标,这个不是我们的目标。

人车家全生态是小米全新升级的未来战略,未来的智能生活中包含很多的场景,大模型可能越来越会成为一个基础设施的东西,来支撑上面的智能服务。大模型对上下文的理解,对情景的理解都更深了,不管它在手机上还是其他设备上,都能够随时随地了解你所在的场景,给用户提供下一步的可能性。

小米的优势是多设备场景的综合感知,因此小米大模型输入的不只是文字,而是它感知到的环境和场景。我相信未来的多模态大模型肯定不只是视觉的,声音的,还会有其他模态,这也正好符合小米人车家万物互联的场景,我们输入了更多的信息,也会帮用户更好地理解这个环境,做后面的事情,比如对机器人的控制,对车的控制,甚至是分布式联动,去满足用户的想象。

大模型也成为一个数据接收中心,它接收的信息远比现有的学术界的研究还要多,当然这个信息融合还有难度,但是小米可以在各种设备去输出,它们之间都是相通的。小米澎湃OS已经把互联互通做好了,我们能够借用多种设备的联动,协同感知,协同决策,做一些更有意思的事情,帮用户生活体验更好,更方便。

大模型火了,安全隐私问题也成为大家关注的话题。小米刚成立不久,就成立了安全隐私委员会,因为小米是一个手机设备厂商,对安全隐私非常关注,小米所有的项目都要经过隐私委员会的审批才能够立项,在训练和应用大模型的过程中,我们会严格按照安全隐私保护的相关法律法规来进行处理。

关于未来,小米内部相信大模型肯定会不断向前发展,在多模态模型还没有出来之前,我们就立项了多模态大模型,在今年年初还通过北京市自然科学基金-小米创新联合基金设立了《面向图文理解和生成的多模态大模型构建与评价》的课题,我们相信这一定是未来重要的发展方向。

当然,基于大模型,目前还没有出现杀手级的应用,这需要一个尝试、探索的过程,接下来一定会出现一系列的应用让大模型落地。此外,端云结合的框架也一定是未来的趋势。小米愿意置身其中,并积极探索。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-11-08 21:45:12

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型,能比造车更早解小米的渴吗?
...任王斌汇报。种种迹象表明,小米正式加入了大模型这场军备竞赛中。从手机,到造车,再到大模型,对于小米追风口,外界并不感到意外。因为这背后透露的是小米集团的焦虑。按照小米最新公布
2023-04-20 10:33:00
复刻小米IPO?荣耀官宣要上市,不借壳
...大研发投入,才能在与国产手机厂商的厮杀中脱颖而出。军备竞赛,刻不容缓过去两年,国产手机厂商在发布会上更频繁地强调「底层技术」上的投入,对于整体研发投入的重视也有了肉眼可见的提
2023-11-25 22:21:00
人均年薪100万,手机厂商数百亿开卷大模型
...不会纯从技术角度考虑,也不会以比赛为目标。我们不搞军备竞赛,小米做大模型的出发点并不是成为中国的OpenAI。我们一开始就考虑大模型跟公司的场景怎么结合。”王斌告诉《中国企业
2023-12-06 11:40:00
美股异动丨金山云一度涨超13% 小米首个推理大模型MiMo开源
...。金山云H股今日收涨14.2%,报7.4港元。消息面上,今天,小米开源首个为推理(Reasoning)而生的大模型“Xiaomi MiMo”
2025-04-30 23:41:00
蒸发6000亿后,英伟达再靠中企“复活”,6大中企纷纷抢购
...美AI芯片、大模型产业的命,实则却无意间点燃AI大模型军备竞赛的导火索。短短几周的时间,deepseek在140多个国家登顶AppStore和安卓商城免费下载排行榜
2025-03-09 13:17:00
小米开源首个推理大模型Xiaomi MiMo:7B参数就超越OpenAI o1-mini
快科技4月30日消息,小米官方今天正式宣布,开源首个为推理(Reasoning)而生的大模型——Xiaomi MiMo
2025-04-30 10:36:00
小米开启进化:认知突破、高端探索与全面拥抱大模型
小米,不再是从前的小米了。在刚结束不久的雷军年度演讲暨小米新品发布会上,小米奏响了一支名为“技术创新”的“狂想曲”,艳惊四座。产品方面,小米“大秀肌肉”,发布了折叠屏小米Mix
2023-08-22 17:00:00
同是小米SU7劲敌 智己L6、极氪007谁更强?
...态电池是智己L6的王牌在新能源时代,三电和智驾系统的军备竞赛非常激烈,但大体上呈现出的趋势,是后来者总是能以碾压之势,带来最新的科技成果。但相比较续航、动力等方面的优势体现,
2024-05-16 16:36:00
...,而如今随着生成式AI的热潮,H100已经出现了大量短缺。小米AI大模型MiLM-6B现身 C-Eval、CMMLU 大模型评测榜单8月11日消息
2023-08-15 01:10:00
更多关于科技的资讯:
虎鲸文娱发布《2025国庆假期文娱消费报告》票房火热 大屏“圈粉”南报网讯(记者鲁舒婷)10月8日,虎鲸文娱发布的《2025国庆假期文娱消费报告》(以下简称《报告》)显示
2025-10-10 07:32:00
名创优品MINISO深耕IP战略:岭南骑楼店开业首日引爆Z世代消费热潮
2025年8月17日,名创优品MINISO LAND华南首店于广州北京路步行街正式开业。该店以百年岭南骑楼为空间载体,融合超过100个全球热门IP
2025-10-09 11:15:00
荣耀Magic8系列发布会官宣定档10月15日
10月9日,荣耀官方正式宣布,主题为“开新局・见未来”的荣耀 Magic8 系列暨 Magic OS10 发布会将于10 月15日正式举行
2025-10-09 11:30:00
局部降水量80毫米以上!10—14日烟台市将有持续连阴雨天气
齐鲁晚报·齐鲁壹点 周宣刚10月7日10时,烟台市气象局发布10—14日连阴雨天气预报和大风警报。受高空槽东移和暖湿气流输送北上的水汽影响
2025-10-09 11:31:00
权威发布, 福瑞达颐莲品牌价值评估突破120亿
2025年9月25日,在中国香料香精化妆品工业协会主办的“2025中国香妆品牌价值大会”上,福瑞达生物股份旗下颐莲品牌凭借卓越的市场表现与品牌影响力
2025-10-09 11:32:00
持续创新高!高德扫街榜上线23天用户超4亿
这个国庆黄金周,高德APP和高德扫街榜正在持续创新高——10月3日,高德扫街榜宣布:上线仅23天,累计用户超4亿。10月1日
2025-10-09 11:33:00
国庆中秋,大马再掀中餐热潮!“鱼你速度”树出海标杆!
国庆中秋双节期间,马来西亚再度掀起中餐热潮!以“鱼你在一起”为代表的中餐连锁品牌,在当地各大商圈持续引爆消费热情。“6个月
2025-10-09 11:34:00
开启商超智慧储鲜,澳柯玛新品冷柜让食材更鲜活
鲁网10月9日讯当社区团购爆单时冰柜塞不下?当生鲜进货量太大冻不透?当网红雪糕因串味被迫贱卖?针对这些让商超、饭馆等用户抓狂的痛点
2025-10-09 11:40:00
鸡排哥8天假期涨粉超40万,节前已成立工作室,10月9日休息一天
10月8日,江西景德镇鸡排哥在个人社交账号发布一则视频,向全国各地来到家乡景德镇游玩和打卡买鸡排的游客表示感谢。鸡排哥表示近期天气炎热
2025-10-09 12:09:00
大疆部分产品直降千元!消费者炸锅,官方回应
10月8日,大疆在官网提前挂出“双十一”促销信息,多款产品价格直降数百至上千元。此次降价幅度较大。从几百元到几千元不等
2025-10-09 13:45:00
单日游客最高突破6.9万人次 忠县橘若·忠州渡接住“泼天流量”
这个国庆假期,重庆忠县江畔的橘若·忠州渡结结实实地“火”出了圈,八天揽客30余万人次,游客单日最高接待量突破6.9万人次
2025-10-09 13:57:00
谷子科技“智慧票根”创新亮相2025和平精英PEL运动会
10月7日,由谷子科技集团、和平精英职业联赛(PEL)与腾讯音乐娱乐集团联合出品,腾讯音乐娱乐集团与安徽易趣网络科技有限公司承办
2025-10-09 14:01:00
KPRO肯律轻食广州市场喜迎三十店庆十店同开彰显品牌活力
近日,肯德基旗下能量轻食品牌KPRO肯律轻食在广州、佛山及惠州三地,同步新开十家门店,标志着其在广州市场门店总数突破三十家
2025-10-09 14:01:00
告别失眠困扰!2025年备受瞩目的十大助眠药综合评估与选购参考
夜深人静,却辗转反侧;闹钟响起,仍昏沉乏力——这已成为当代太多人的真实写照。世界卫生组织研究表明,持续的睡眠障碍不仅是生活质量的杀手
2025-10-09 14:03:00
布鲁可携新品类、新系列、新产品亮相WF2025,全面展现\
10月2日-3日,中国规模最大、最专业的手办模型展Wonder Festival 2025(以下简称:WF2025)在上海正式开幕
2025-10-09 14:50:00