• 我的订阅
  • 科技

周鸿祎:多模态是大模型发展的必经之路,与物联网结合是下一个风口|最前线

类别:科技 发布时间:2023-06-02 01:09:00 来源:36氪

36氪获悉,近日360智慧生活集团举办视觉大模型及AI硬件新品发布会。发布会中,360推出智脑·视觉大模型及多款AI硬件产品,并宣布360智慧生活正式切入SMB市场。

360方面表示,近年传统深度学习算法在安防场景中的局限性愈发突出,具体表现为算法通用、场景不通用、边端算法受限、内存受限等。对比之下,大模型有着更好的泛化能力,有望进一步突破传统算法的精度与数据局限,也能解决传统深度学习算法的数据依赖问题。

但另一方面,当前业内提及大模型,更多指的是大语言模型,其他模态的大模型数量不多。360认为,增强多模态能力,核心要借助大语言模型的认知、推理、决策能力。

于是,此次360智慧生活决定将视觉感知能力与360智脑大语言模型相结合,并针对安防场景进行行业数据微调,推出视觉及多模态大模型——360智脑·视觉大模型。360视觉云业务线总经理孙浩对外介绍,360智脑·视觉大模型现阶段主要聚焦开放目标检测(OVD)、图像标题生成、视觉问答(VQA)三项能力。

会议中,360集团创始人周鸿祎也针对这一话题发表演讲。

周鸿祎表示,过去的人工智能是弱人工智能,在此基础上打造的智能硬件不具有真正的智能。大模型出现后,计算机第一次真正的理解这个世界,并能够赋予AIoT真正的智能。

谈及视觉大模型的研发过程,周鸿祎进一步介绍,360是在视觉感知能力基础上,融合千亿参数“360智脑”大模型,基于十亿级互联网图文数据进行清洗训练,并针对安防场景百万级行业数据进行微调,最终推出360智脑-视觉大模型。

“大模型将带来一场新工业革命”,周鸿祎表示,所有软件、APP、网站,所有行业都值得用大模型进行重塑,而智能硬件是硬件化的APP。从大模型的发展趋势来看,多模态是大模型发展的必经之路,GPT-4最重要的变化是拥有了多模态的处理能力。因此,周鸿祎预测,多模态大模型与物联网的结合将会成为下一个风口。

以下是周鸿祎演讲内容(经部分删减),供读者参考:

大家好,很高兴今天来参加视觉大模型的发布。

今天主要想分享一下,现在正火热的大模型和智能硬件的结合。很多人肯定很奇怪,360已经有了360智脑,就是360的大语言模型,为什么又出来一个视觉大模型呢?我还是先分享几个我对大模型和生成式AI的观点。

其实AIoT这个概念已经不新鲜了,这个行业所有做智能硬件的人都会标榜,我不仅仅是物联网设备,都是AIoT,这个A就是AI。但是我们今天谈到的AIoT的概念,可能要重新刷新过去旧的AIoT的概念。

实际上生成式AI,或者叫ChatGPT的出现,预示着一个真正的人工智能,或者叫强人工智能,或者叫超级人工智能的拐点真正产生了。原来的AIoT,跟它聊两句天就聊不下去了,很多音箱的功能最后就没有人去用了,很多摄像头的能力也只是起到一个事后录像的作用。

那么,这次大语言模型的问世,标榜着一个真正的人工智能时代的来临。我觉得有两个分水岭:

第一,过去我们做的人工智能都是垂直人工智能,为完成一个特定的任务就得有一套特定的算法,一个特定的模型,很难通用。而这次大语言模型它用一套算法,一套模型结构,一套训练的思路,解决了人工智能中很多过去很碎片化的问题。

第二,还有一个区别,这次大语言模型虽然也容易给大家一个误解,好像是只能解决语言的问题。但是,在人工智能领域,如果把语言的问题给解决了,这件事是非常了不起的,是皇冠上的明珠。人类的语言基本上定义了人类所有的知识,如果一个大语言模型能够真正地理解人类所有的语言,能够很自然的做出各种交流和理解,包括各种推理,就意味着它第一次完整把人类世界的知识有了一个充分理解。

原来比如最常见的图像识别,名词叫Computer vision,就是CV,或者计算机视觉。实际上很多时候是在工作层面感知,像人的视网膜的原理。但是,人之所以能成为万物之灵,不光是眼睛看到了当前的情况,所有看到的情况是可以在大脑里有相应反应的。所以,大语言模型工作在认知层面。

我不知道有没有人注意到,这次OpenAI的一个技术合伙人提到他们做视觉模型的时候,讲如果你是基于大语言模型,完整理解这个世界的知识之上再来理解图像,你的理解程度是非常不一样的。

所以,我也给大家讲一个观点,大家不要被“大语言模型”这五个字给弄糊涂了,就以为它只能解决语言问题,错了。实际上大语言模型之所以称为叫通用人工智能,大家应该相信,它是在理解了我们这个世界的所有知识之后,能够解决计算机听觉、视觉的很多问题。而且未来可能在机器人控制、自动驾驶,各个方面发挥神奇的作用。

为什么到现在真正的自动驾驶没有实现。一个很简单的道理,就是它们目前都是在感知层面的识别,雷达告诉你前方有障碍物,而不是在认知层面。如果我们的人工智能不能模拟人的认知层面的人的反应和工作,而仅还停留在一个视网膜感知的层面,我想真正的自动驾驶可能一辈子也出不来。

所以,大语言模型之所以被称为叫通用人工智能,不光是在自然语言处理上发挥作用。它在计算机视觉,在自动驾驶等场景上都能有作用。将来,在蛋白质折叠分析,人类基因组序列分析等很多方面,我觉得大语言模型可能都会带来各种各样的惊喜。

今天我们在大语言模型上取得了突破,就有能力在大语言模型的基础上来思考,到底怎么样能做出一个真正的AIoT。这个AI,如果是大语言模型驱动的AI,它就是真正的强人工智能。

我的第二个观点,也想讲讲为什么今天我们要来讲一个智能硬件的场景。

大语言模型问世以后有很多种观点,但是,我觉得它肯定不是每个人上来马上就能玩的东西。所以,我觉得大语言模型实际上是一个提高生产力的工具。它更像是电脑,更像是手机这种发明,意味着带来一场工业革命级的更新。

人工智能折腾了很多年,实际上离我们很多人的日常工作和生活的场景还比较遥远。这次以GPT为代表的大模型确实让人类的人工智能到了一个PC时代,到了一个iPhone时刻。

微软给我们做了一个典范,把它所有的产品“全家桶”都拿大模型重塑了一遍。实际上这里我们也讲过很多,比如360的场景里面浏览器怎么改造、搜索怎么改造,360安全卫士的桌面如何改造?但其实还有一个更大的领域,就是智能硬件。我觉得智能硬件实际上也是硬件化的APP,那么它如何能够与大语言模型结合?这场工业革命中,智能硬件这个场景将会扮演什么样的角色?

我也和团队说,过去我们讲互联网思维,未来可能叫大模型思维,过去我们是讲“互联网+”,以后可能是“人工智能+”。或者以后人工智能这个词改一下,新的人工智能可以叫“认知型人工智能”,或者叫“生成式人工智能”,或者叫“大语言模型人工智能”,跟原来老的人工智能概念不太一样。

我想再分享一个观点。大语言模型发展到现在,有一个巨大的方向,就是它要从单一的识别文字到能够识别图片、视频、语音,就是我们所说的多模态。GPT-3.5你可以认为是一个强人工智能的拐点,GPT-4.0比GPT-3.5领先了很多,国内我们很多同行做的产品,包括360的智脑离GPT-3.5比较近了。但是GPT-4.0如果是100分,国内的水平大概也就在70分左右。

GPT-4.0除了对知识的理解更加深入,推理更加复杂,其中有一个很重要的要求就是它有多模态的处理能力。比如文生图,就是你提出要求,它生成图片,这个只是完成了多模态的输出部分。实际上真正的多模态是你能给它一张图片、视频,大语言模型不仅能够认出来这张图上有谁,最重要的是能认出来图上的人都在干什么,他们互相之间有什么关系,能读出图里边蕴含的意思,这个没有对人类知识的了解,是不可能做到的。

所以,现在整个大模型的发展之路必然是多模态,多模态就是能够输入图像和视频,能够输出图像和视频,能够输入声音和音乐,也能够输出声音和音乐。当然,现在一个完整的多模态的大模型全世界不存在,GPT-4也只是宣布了有这个能力,这个能力还没有对外输出,这也是代表了大模型下一步皇冠上的明珠。所以,今天我们把我们在多模态上的一部分成果会拿来给大家做一些展示。

如果有了多模态大模型之后,我觉得和物联网结合就可能变成下一个风口。一直有人说机器人和大模型之间的关系。实际上把很多智能硬件,包括机器人和大语言模型接起来,就相当于给很多智能硬件有了灵魂,有了真正的大脑,不仅有了感知的能力,还有了认知的能力。

我曾经开玩笑,如果ChatGPT有了自我意识之后,又有了能下单的能力,它买的第一个物品是什么?我说它一定首先给自己买一个智能摄像头给自己接上,因为它就能真正地看懂这个世界。我们还有麦克风,我们有扬声器,接上大模型之后,相当于它有了耳朵、有了嘴巴。

360为什么能做视觉大模型呢?第一个基础是说360已经训练了一个千亿参数的智脑,一个基于文字,基于自然语言理解的一个认知大模型。第二个360做智能摄像头也做了有好多年了,有百亿级的安防行业数据可以进行训练和微调。所以这次我们基于这种安防的背景,能够去训练一个视觉大模型。

原来我做摄像头的时候,最大的感慨是什么?我们的摄像头无法事前报警,我们在很多地方发挥的作用就是出了事之后去找摄像头录像,来做事后的事故的复核。比如说,我们听到很多家庭里边老人在起居室里摔倒了,或者小孩儿爬到一个没有窗户的危险地带向上攀爬,原来的摄像头可能能认出来有老人,有小孩儿,但是他不能理解画面的语义,所以它也就不能做出正确的判断。

但是,当你有了一个大语言模型多模态能力为支撑的,真正的认知型大脑的时候,当你的摄像头看到这个场景的时候,你自然就会联想起来这个老人可能处在危险之中,这个小孩儿可能现在有可能掉到窗户外面去,从而就能够提前预警,发布警告。

现在我们有两个团队在密切配合,也就是说,大语言模型团队积极帮助我们另一个团队构造视觉的模型。这个视觉大模型构造出来之后,又可以成为我们360大语言模型的一部分,构成我们多模态的能力。有了多模态能力的大模型,它增强了360智脑能够看懂图片,看懂视频的能力。现在,听见声音的能力还在研发,一旦把听懂声音,看懂图片,能够连续看懂多组图片的能力合在一起就变成了识别视频的能力。

之前大家所设想的场景还是以偏软件、网站、应用为主,这次我们希望让大模型的能力从数字世界走向物理世界,基于多模态技术的大语言模型,和智能硬件的结合是下一个风口。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-02 10:45:31

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

周鸿祎:大模型不会有同质化问题 不发展才是最大的不安全
...“360”)视觉大模型及AI硬件新品发布会上,360集团创始人周鸿祎表示,AIoT概念已经泛滥,但原来的AIoT只是垂直AI
2023-06-01 12:00:00
两个周鸿祎 杀入“百模大战”
作者|伊柒编辑|魏晓周鸿祎带着他的360智脑,正式杀入他口中的“百模大战”,与他的数字分身一起。6月13日,360在北京发布了认知型通用大模型“360智脑4
2023-06-14 11:31:00
【2025数博会】阶跃星辰副总裁赵海涛:多模态是通向AGI的必经之路
...动产业跃迁”主题活动上,阶跃星辰副总裁赵海涛以“多模态是通向AGI的必经之路”为主旨,分享了阶跃星辰在多模态大模型方面的前沿探索,展示了未来人机交互与产业智能化的新范式。赵海
2025-08-31 15:51:00
阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...智能的上限仍然是当下最重要的事情。“我们始终认为多模态对AGI的实现非常重要,是实现AGI的必经之路。”对大模型的下一步发展,李璟表示,阶跃星辰主要会在两个方向发力。一是在预
2025-05-17 12:05:00
李彦宏:大模型场景下开源是最贵的,多模态是通往AGI的必经之路
...和案例大部分都是基于大语言模型。面向未来,他认为多模态大模型,抑或是文字、图片、语音、视频等多模态的融合,是基础模型非常重要的长期发展方向,是通往AGI(通用人工智能)的必经
2024-04-16 17:57:00
360智脑大模型重新定义AI数字人
“让数字人‘周鸿祎’作为我们公司的新闻发言人,说对了算我的,说错了算他的”,6月13日,三六零(601360.SH,下称“360”)公司召开360智脑大模型应用发布会
2023-06-14 12:18:00
周鸿祎 落子
文 | 佘宗明想用AI再造一个新360的周鸿祎,先用认知型通用大模型360智脑4.0再造了一个「周鸿祎」。在距离「把刚出生的婴儿抱出来看一看」2个多月后,周鸿祎秀出了新花活——他
2023-06-15 13:34:00
周鸿祎AI课开讲!谈苹果放弃造车、谈Sora、谈Siri......
来源:证券时报李一舟之后,周鸿祎也下场上AI课了!2月29日,360创始人周鸿祎在微博上推出了自己的首堂AI课。课程的主题是《2024大模型应用场景元年》,从下午两点开始,线下加
2024-03-01 09:25:00
“360智脑大模型4.0”正式发布,图片、文字、视频互相生成,已接入360全家桶 | 最前线
...来搜索、AI领域积累的能力整合到大模型里。”360创始人周鸿祎表示。6月13日,360集团(601360.SH)公司正式召开“360智脑大模型”应用发布会
2023-06-14 14:31:00
更多关于科技的资讯:
国家级5G工厂,钟经开+1!
近日,工业和信息化部公示了《2025年5G工厂名录》钟楼经济开发区企业江苏电力装备有限公司成功入选成为继江苏精研科技股份有限公司后钟楼区第二家国家级5G工厂5G工厂是充分利用以5G为代表的新一代信息通信技术
2025-09-06 06:08:00
从玻璃到微纳新材料 从企业更名看龙口一家民企的转型跃迁
大众网记者 林晓冬 烟台报道说起玻璃大家都不陌生,餐桌玻璃、门窗玻璃都与我们的日常生活息息相关,但在烟台龙口有一家企业多年来持续在玻璃上“钻研”
2025-09-05 09:08:00
科创泉城 智启未来| “硬科创”需要“软传播”,网络达人共话“出圈”新思路
9月4日下午,在济南市委网信办联合山东省互联网传媒集团举办的“科创泉城 智启未来”知名网络达人济南采风活动的对话沙龙上
2025-09-05 09:51:00
本报讯(记者雷嘉)围绕国产车规级芯片搭载应用,北京市科委、中关村管委会会同北京市智慧城市基础设施与智能网联汽车协同发展办公室
2025-09-05 11:08:00
河北新闻网讯(王丽英)“后厨不只是生产中心,更是服务体验的心脏。”“服务不仅仅是完成交易的过程,更是以关怀为主利他主义精神的体现
2025-09-05 11:08:00
海信冰箱五款产品通过中国家用电器研究院自动制冰性能认证
日前,经中国家用电器研究院严格检测与评估,海信冰箱旗下五款产品成功通过“电冰箱自动制冰性能认证”,并获颁认证证书。此次获证不仅是对海信冰箱自动制冰技术性能的肯定
2025-09-05 11:57:00
京东全球80+高校招聘 清华、剑桥等80校专场 现场面试拿offer!
9月5日,京东招聘公众号发文:全球80+高校!京东2026校园招聘进校行程发布。文中称:将在全球20+城市,80+院校
2025-09-05 12:10:00
花一万元植入DeepSeek,一场没有终点的流量游戏
文|邓咏仪编辑|苏建勋让你的产品在DeepSeek的答案里有一席之地,需要多少钱?答案是:数千甚至上万元。人在哪,流量就在哪
2025-09-05 14:56:00
爱尔眼科开启老视多学科诊疗新时代
9月4日,2025年屈光性白内障手术国际论坛(IRCS)暨第一届老视矫正MDT管理国际高峰论坛在杭州举办我国超八成60岁以上老年人正面临老视(老花眼)与白内障的“双重眼病困扰”
2025-09-05 15:18:00
获SIAL创新奖:诺啦格兰诺拉脆片让生活更美好  
消费日报网讯 9月1日,在2025 SIAL西雅国际食品展(深圳)举办同期,第24届SIAL创新大赛获奖榜单正式发布。吉丽莎(广州)贸易有限公司选送的产品诺啦格兰诺拉脆片跻身TOP10
2025-09-05 15:18:00
桃李面包广告语引争议“五仁不好吃是你还年轻”官方账号发文:领导拍的板,这个锅只能他来背
近日,桃李面包一则电梯广告文案引发争议。社交平台上流传的图片显示,桃李蛋月烧产品的广告语写道:“有人说五仁不好吃,我们认为
2025-09-05 15:29:00
京东超市布局产地直采 加大力度进口澳洲水果 助力澳洲水果深耕中国市场
今年开始,京东超市加大力度布局澳洲水果的供给和销售,投入资源帮助澳洲橙子、提子等水果进一步扩大销量。近日,在2025中国国际水果展上
2025-09-05 15:30:00
潍坊寿光市圣城街道一企业酿出康养“新食尚”
大众网记者 刘建永 潍坊报道为企赋能、助企发展是区域经济高质量发展的推动器。潍坊寿光市圣城街道在政策引领、优化营商环境
2025-09-05 15:50:00
大众网记者 王帅 通讯员 孙丽霞 杨阳 潍坊报道走进山东禾汇食品有限公司黄豆酱生产车间,一排排瓶装黄豆酱准备打包装箱,发往各大连锁商超
2025-09-05 15:50:00
9月4日,济南市委网信办联合山东省互联网传媒集团举办“‘科创泉城 智启未来’知名网络达人济南采风”活动。当日上午,10余位全国知名网络名人
2025-09-05 16:34:00