• 我的订阅
  • 科技

周鸿祎:多模态是大模型发展的必经之路,与物联网结合是下一个风口|最前线

类别:科技 发布时间:2023-06-02 01:09:00 来源:36氪

36氪获悉,近日360智慧生活集团举办视觉大模型及AI硬件新品发布会。发布会中,360推出智脑·视觉大模型及多款AI硬件产品,并宣布360智慧生活正式切入SMB市场。

360方面表示,近年传统深度学习算法在安防场景中的局限性愈发突出,具体表现为算法通用、场景不通用、边端算法受限、内存受限等。对比之下,大模型有着更好的泛化能力,有望进一步突破传统算法的精度与数据局限,也能解决传统深度学习算法的数据依赖问题。

但另一方面,当前业内提及大模型,更多指的是大语言模型,其他模态的大模型数量不多。360认为,增强多模态能力,核心要借助大语言模型的认知、推理、决策能力。

于是,此次360智慧生活决定将视觉感知能力与360智脑大语言模型相结合,并针对安防场景进行行业数据微调,推出视觉及多模态大模型——360智脑·视觉大模型。360视觉云业务线总经理孙浩对外介绍,360智脑·视觉大模型现阶段主要聚焦开放目标检测(OVD)、图像标题生成、视觉问答(VQA)三项能力。

会议中,360集团创始人周鸿祎也针对这一话题发表演讲。

周鸿祎表示,过去的人工智能是弱人工智能,在此基础上打造的智能硬件不具有真正的智能。大模型出现后,计算机第一次真正的理解这个世界,并能够赋予AIoT真正的智能。

谈及视觉大模型的研发过程,周鸿祎进一步介绍,360是在视觉感知能力基础上,融合千亿参数“360智脑”大模型,基于十亿级互联网图文数据进行清洗训练,并针对安防场景百万级行业数据进行微调,最终推出360智脑-视觉大模型。

“大模型将带来一场新工业革命”,周鸿祎表示,所有软件、APP、网站,所有行业都值得用大模型进行重塑,而智能硬件是硬件化的APP。从大模型的发展趋势来看,多模态是大模型发展的必经之路,GPT-4最重要的变化是拥有了多模态的处理能力。因此,周鸿祎预测,多模态大模型与物联网的结合将会成为下一个风口。

以下是周鸿祎演讲内容(经部分删减),供读者参考:

大家好,很高兴今天来参加视觉大模型的发布。

今天主要想分享一下,现在正火热的大模型和智能硬件的结合。很多人肯定很奇怪,360已经有了360智脑,就是360的大语言模型,为什么又出来一个视觉大模型呢?我还是先分享几个我对大模型和生成式AI的观点。

其实AIoT这个概念已经不新鲜了,这个行业所有做智能硬件的人都会标榜,我不仅仅是物联网设备,都是AIoT,这个A就是AI。但是我们今天谈到的AIoT的概念,可能要重新刷新过去旧的AIoT的概念。

实际上生成式AI,或者叫ChatGPT的出现,预示着一个真正的人工智能,或者叫强人工智能,或者叫超级人工智能的拐点真正产生了。原来的AIoT,跟它聊两句天就聊不下去了,很多音箱的功能最后就没有人去用了,很多摄像头的能力也只是起到一个事后录像的作用。

那么,这次大语言模型的问世,标榜着一个真正的人工智能时代的来临。我觉得有两个分水岭:

第一,过去我们做的人工智能都是垂直人工智能,为完成一个特定的任务就得有一套特定的算法,一个特定的模型,很难通用。而这次大语言模型它用一套算法,一套模型结构,一套训练的思路,解决了人工智能中很多过去很碎片化的问题。

第二,还有一个区别,这次大语言模型虽然也容易给大家一个误解,好像是只能解决语言的问题。但是,在人工智能领域,如果把语言的问题给解决了,这件事是非常了不起的,是皇冠上的明珠。人类的语言基本上定义了人类所有的知识,如果一个大语言模型能够真正地理解人类所有的语言,能够很自然的做出各种交流和理解,包括各种推理,就意味着它第一次完整把人类世界的知识有了一个充分理解。

原来比如最常见的图像识别,名词叫Computer vision,就是CV,或者计算机视觉。实际上很多时候是在工作层面感知,像人的视网膜的原理。但是,人之所以能成为万物之灵,不光是眼睛看到了当前的情况,所有看到的情况是可以在大脑里有相应反应的。所以,大语言模型工作在认知层面。

我不知道有没有人注意到,这次OpenAI的一个技术合伙人提到他们做视觉模型的时候,讲如果你是基于大语言模型,完整理解这个世界的知识之上再来理解图像,你的理解程度是非常不一样的。

所以,我也给大家讲一个观点,大家不要被“大语言模型”这五个字给弄糊涂了,就以为它只能解决语言问题,错了。实际上大语言模型之所以称为叫通用人工智能,大家应该相信,它是在理解了我们这个世界的所有知识之后,能够解决计算机听觉、视觉的很多问题。而且未来可能在机器人控制、自动驾驶,各个方面发挥神奇的作用。

为什么到现在真正的自动驾驶没有实现。一个很简单的道理,就是它们目前都是在感知层面的识别,雷达告诉你前方有障碍物,而不是在认知层面。如果我们的人工智能不能模拟人的认知层面的人的反应和工作,而仅还停留在一个视网膜感知的层面,我想真正的自动驾驶可能一辈子也出不来。

所以,大语言模型之所以被称为叫通用人工智能,不光是在自然语言处理上发挥作用。它在计算机视觉,在自动驾驶等场景上都能有作用。将来,在蛋白质折叠分析,人类基因组序列分析等很多方面,我觉得大语言模型可能都会带来各种各样的惊喜。

今天我们在大语言模型上取得了突破,就有能力在大语言模型的基础上来思考,到底怎么样能做出一个真正的AIoT。这个AI,如果是大语言模型驱动的AI,它就是真正的强人工智能。

我的第二个观点,也想讲讲为什么今天我们要来讲一个智能硬件的场景。

大语言模型问世以后有很多种观点,但是,我觉得它肯定不是每个人上来马上就能玩的东西。所以,我觉得大语言模型实际上是一个提高生产力的工具。它更像是电脑,更像是手机这种发明,意味着带来一场工业革命级的更新。

人工智能折腾了很多年,实际上离我们很多人的日常工作和生活的场景还比较遥远。这次以GPT为代表的大模型确实让人类的人工智能到了一个PC时代,到了一个iPhone时刻。

微软给我们做了一个典范,把它所有的产品“全家桶”都拿大模型重塑了一遍。实际上这里我们也讲过很多,比如360的场景里面浏览器怎么改造、搜索怎么改造,360安全卫士的桌面如何改造?但其实还有一个更大的领域,就是智能硬件。我觉得智能硬件实际上也是硬件化的APP,那么它如何能够与大语言模型结合?这场工业革命中,智能硬件这个场景将会扮演什么样的角色?

我也和团队说,过去我们讲互联网思维,未来可能叫大模型思维,过去我们是讲“互联网+”,以后可能是“人工智能+”。或者以后人工智能这个词改一下,新的人工智能可以叫“认知型人工智能”,或者叫“生成式人工智能”,或者叫“大语言模型人工智能”,跟原来老的人工智能概念不太一样。

我想再分享一个观点。大语言模型发展到现在,有一个巨大的方向,就是它要从单一的识别文字到能够识别图片、视频、语音,就是我们所说的多模态。GPT-3.5你可以认为是一个强人工智能的拐点,GPT-4.0比GPT-3.5领先了很多,国内我们很多同行做的产品,包括360的智脑离GPT-3.5比较近了。但是GPT-4.0如果是100分,国内的水平大概也就在70分左右。

GPT-4.0除了对知识的理解更加深入,推理更加复杂,其中有一个很重要的要求就是它有多模态的处理能力。比如文生图,就是你提出要求,它生成图片,这个只是完成了多模态的输出部分。实际上真正的多模态是你能给它一张图片、视频,大语言模型不仅能够认出来这张图上有谁,最重要的是能认出来图上的人都在干什么,他们互相之间有什么关系,能读出图里边蕴含的意思,这个没有对人类知识的了解,是不可能做到的。

所以,现在整个大模型的发展之路必然是多模态,多模态就是能够输入图像和视频,能够输出图像和视频,能够输入声音和音乐,也能够输出声音和音乐。当然,现在一个完整的多模态的大模型全世界不存在,GPT-4也只是宣布了有这个能力,这个能力还没有对外输出,这也是代表了大模型下一步皇冠上的明珠。所以,今天我们把我们在多模态上的一部分成果会拿来给大家做一些展示。

如果有了多模态大模型之后,我觉得和物联网结合就可能变成下一个风口。一直有人说机器人和大模型之间的关系。实际上把很多智能硬件,包括机器人和大语言模型接起来,就相当于给很多智能硬件有了灵魂,有了真正的大脑,不仅有了感知的能力,还有了认知的能力。

我曾经开玩笑,如果ChatGPT有了自我意识之后,又有了能下单的能力,它买的第一个物品是什么?我说它一定首先给自己买一个智能摄像头给自己接上,因为它就能真正地看懂这个世界。我们还有麦克风,我们有扬声器,接上大模型之后,相当于它有了耳朵、有了嘴巴。

360为什么能做视觉大模型呢?第一个基础是说360已经训练了一个千亿参数的智脑,一个基于文字,基于自然语言理解的一个认知大模型。第二个360做智能摄像头也做了有好多年了,有百亿级的安防行业数据可以进行训练和微调。所以这次我们基于这种安防的背景,能够去训练一个视觉大模型。

原来我做摄像头的时候,最大的感慨是什么?我们的摄像头无法事前报警,我们在很多地方发挥的作用就是出了事之后去找摄像头录像,来做事后的事故的复核。比如说,我们听到很多家庭里边老人在起居室里摔倒了,或者小孩儿爬到一个没有窗户的危险地带向上攀爬,原来的摄像头可能能认出来有老人,有小孩儿,但是他不能理解画面的语义,所以它也就不能做出正确的判断。

但是,当你有了一个大语言模型多模态能力为支撑的,真正的认知型大脑的时候,当你的摄像头看到这个场景的时候,你自然就会联想起来这个老人可能处在危险之中,这个小孩儿可能现在有可能掉到窗户外面去,从而就能够提前预警,发布警告。

现在我们有两个团队在密切配合,也就是说,大语言模型团队积极帮助我们另一个团队构造视觉的模型。这个视觉大模型构造出来之后,又可以成为我们360大语言模型的一部分,构成我们多模态的能力。有了多模态能力的大模型,它增强了360智脑能够看懂图片,看懂视频的能力。现在,听见声音的能力还在研发,一旦把听懂声音,看懂图片,能够连续看懂多组图片的能力合在一起就变成了识别视频的能力。

之前大家所设想的场景还是以偏软件、网站、应用为主,这次我们希望让大模型的能力从数字世界走向物理世界,基于多模态技术的大语言模型,和智能硬件的结合是下一个风口。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-02 10:45:31

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

周鸿祎:大模型不会有同质化问题 不发展才是最大的不安全
...“360”)视觉大模型及AI硬件新品发布会上,360集团创始人周鸿祎表示,AIoT概念已经泛滥,但原来的AIoT只是垂直AI
2023-06-01 12:00:00
两个周鸿祎 杀入“百模大战”
作者|伊柒编辑|魏晓周鸿祎带着他的360智脑,正式杀入他口中的“百模大战”,与他的数字分身一起。6月13日,360在北京发布了认知型通用大模型“360智脑4
2023-06-14 11:31:00
阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...智能的上限仍然是当下最重要的事情。“我们始终认为多模态对AGI的实现非常重要,是实现AGI的必经之路。”对大模型的下一步发展,李璟表示,阶跃星辰主要会在两个方向发力。一是在预
2025-05-17 12:05:00
李彦宏:大模型场景下开源是最贵的,多模态是通往AGI的必经之路
...和案例大部分都是基于大语言模型。面向未来,他认为多模态大模型,抑或是文字、图片、语音、视频等多模态的融合,是基础模型非常重要的长期发展方向,是通往AGI(通用人工智能)的必经
2024-04-16 17:57:00
360智脑大模型重新定义AI数字人
“让数字人‘周鸿祎’作为我们公司的新闻发言人,说对了算我的,说错了算他的”,6月13日,三六零(601360.SH,下称“360”)公司召开360智脑大模型应用发布会
2023-06-14 12:18:00
周鸿祎 落子
文 | 佘宗明想用AI再造一个新360的周鸿祎,先用认知型通用大模型360智脑4.0再造了一个「周鸿祎」。在距离「把刚出生的婴儿抱出来看一看」2个多月后,周鸿祎秀出了新花活——他
2023-06-15 13:34:00
周鸿祎AI课开讲!谈苹果放弃造车、谈Sora、谈Siri......
来源:证券时报李一舟之后,周鸿祎也下场上AI课了!2月29日,360创始人周鸿祎在微博上推出了自己的首堂AI课。课程的主题是《2024大模型应用场景元年》,从下午两点开始,线下加
2024-03-01 09:25:00
“360智脑大模型4.0”正式发布,图片、文字、视频互相生成,已接入360全家桶 | 最前线
...来搜索、AI领域积累的能力整合到大模型里。”360创始人周鸿祎表示。6月13日,360集团(601360.SH)公司正式召开“360智脑大模型”应用发布会
2023-06-14 14:31:00
智能产业探新记丨AI赋能,大模型的下一个“风口”在哪?
...个行业,带领人类社会进入智能化时代。”360集团创始人周鸿祎在此次博览会上说。
2024-06-21 07:23:00
更多关于科技的资讯:
号称质量不输正品的“大厂尾货女装”,根本没那么诱人?
原标题:网上十几块一件的衣服能买吗?这三类劝你赶紧退!策划:江野鸿监制:Feidi明媚的夏天到了,衬衫、吊带、小裙子们当然也要更新换代啦
2025-08-04 23:27:00
风暴降临!阿迪达斯轻机甲老爹鞋XLG STORM「机甲风暴」迭代登场!
在adidas Sportswear未来实验室的能量风暴场,轻机甲老爹鞋XLG STORM「机甲风暴」破界诞生。作为初代轻机甲鞋XLG RUNNER的全新迭代之作
2025-08-04 20:40:00
日丰管:以标杆品质与全球视野,铸就中国家装管道领军品牌
近日,由范志毅演绎的“日丰管,管用五十年”巨幅广告,在全国数个高铁站亮相,引得不少旅客驻足。此次携手合作,是两位同样以专业立身的行业领军者的强强联合
2025-08-04 20:45:00
近期,易观发布《中国第三方支付行业年度分析报告2025》(以下简称“报告),报告对中国第三方支付行业当前的发展现状及趋势进行了分析及洞察
2025-08-04 20:45:00
京东再迎国际品牌入驻 IKEA宜家家居京东官方旗舰店开业
8月4日,京东与全球知名家具及家居用品品牌宜家家居达成合作,正式开启IKEA宜家家居京东官方旗舰店,并将于8月8日盛大开业
2025-08-04 11:14:00
考拉悠然:以多模态大模型为基 深耕工业检测赋能产业升级
消费日报网讯(记者 冯举)在人工智能技术加速渗透实体经济的浪潮中,四川省的成都考拉悠然科技有限公司(简称“考拉悠然”)正以“技术突破+行业落地”的双轮驱动模式
2025-08-04 14:04:00
天津市优秀基层理论宣讲员风采展示
2025-08-04 14:31:00
天津市优秀基层理论宣讲员风采展示
2025-08-04 14:34:00
国网济宁供电公司:率先实现小型无人机可靠安装配电线路故障指示器
鲁网8月4日讯近日,国网济宁供电公司工作人员在10千伏塔安I线服装城分支1号杆塔开展无人机安装配电线路故障指示器实验,取得圆满成功
2025-08-04 14:41:00
Arduino AI助手中国首秀!欧时RS创客沙龙开启开源智能未来
近日,电子元件和工业品数字化全球供应商欧时RS联合四方维(Supplyframe)创新中心成功举办 "欧时RS创客沙龙——Arduino主题开放日"
2025-08-04 14:59:00
槐荫首家苏宁易购Pro超级旗舰国融大厦店8月8日盛大开业
坐镇济南城市西兴战略核心,城投重点打造的商业标杆项目——槐荫首家苏宁易购Pro超级旗舰国融大厦店,将于8月8日盛大开业
2025-08-04 15:01:00
“沪企通”政策大模型亮相2025世界人工智能大会,数喆数据联合上海数据集团打造AI政务新标杆
7月26日,2025世界人工智能大会暨人工智能全球治理高级别会议在上海开幕。大会期间,由上海数喆数据科技股份有限公司与上海数据集团联合打造的“沪企通”政策大模型正式发布
2025-08-04 15:17:00
在当今经济环境中,贷款已成为企业和个人解决资金周转问题的重要手段。无论是企业扩大经营规模,还是个人应对突发状况,贷款都能提供有力支持
2025-08-04 15:17:00
润人生荣膺多项殊荣!凭科技创新开启健康饮酒新风尚
在全民健康意识全面觉醒的当下,养生消费市场正迎来爆发式增长。其中,人参酒凭借其独特的滋补价值与饮酒体验的完美融合,正成为中产家庭酒柜中的新宠
2025-08-04 15:20:00
镜合设计创始人、设计总监朱云锋人物访谈
[导读]朱老师认为,设计师需要不断提升自己,才能适应时代,给予客户优质的设计方案。随着经济的发展、网络的普及,人们对装修的认知越来越深入
2025-08-04 15:29:00