• 我的订阅
  • 科技

meta开源多感官大模型,ai用6种模态体验虚拟世界

类别:科技 发布时间:2023-05-11 19:53:00 来源:浅语科技

Meta最新 6模态大模型,让AI以更接近人类的方式理解这个世界。

比如当你听见倒水声的时候就会想到杯子,听到闹铃声会想到闹钟,现在AI也可以。

尽管画面中没有出现人类,AI听到掌声也能指出最有可能来自电脑。

meta开源多感官大模型,ai用6种模态体验虚拟世界

这个大模型 ImageBind 以视觉为核心,结合文本、声音、深度、热量(红外辐射)、运动(惯性传感器),最终可以做到6个模态之间任意的理解和转换。

meta开源多感官大模型,ai用6种模态体验虚拟世界

如果与其他AI结合,还可以做到跨模态的生成。

比如听到狗叫画出一只狗,同时给出对应的深度图和文字描述。

甚至做到不同模态之间的运算,如鸟的图像+海浪的声音,得到鸟在海边的图像。

meta开源多感官大模型,ai用6种模态体验虚拟世界

团队在论文中写到,ImageBind为设计和体验身临其境的虚拟世界打开了大门。

也就是离Meta心心念念的元宇宙又近了一步。

网友看到后也表示,又是一个掉下巴的进展。

meta开源多感官大模型,ai用6种模态体验虚拟世界

ImageBind代码已开源,相关论文也被CVPR2023选为Highlight。

meta开源多感官大模型,ai用6种模态体验虚拟世界

生成理解检索都能干

对于声音-图像生成,论文中透露了更多细节。

并不是让AI听到声音后先生成文字的提示词,而是Meta自己复现了一个DALL・E2,并把其中的文本嵌入直接替换成了音频嵌入。

meta开源多感官大模型,ai用6种模态体验虚拟世界

结果就是AI听到雨声可以画出一张雨景,听到快艇发动机启动声可以画出一条船。

meta开源多感官大模型,ai用6种模态体验虚拟世界

其中比较有意思的是,床上没有人,但AI也认为打呼噜声应该来自床。

meta开源多感官大模型,ai用6种模态体验虚拟世界

ImageBind能做到这些,核心方法是把所有模态的数据放入统一的联合嵌入空间,无需使用每种不同模态组合对数据进行训练。

meta开源多感官大模型,ai用6种模态体验虚拟世界

并且用这种方法,只需要很少的人类监督。

如视频天然就把画面与声音做了配对,网络中也可以收集到天然把图像和文字配对的内容等。

而以图像/视频为中心训练好AI后,对于原始数据中没有直接联系的模态,比如语音和热量,ImageBind表现出涌现能力,把他们自发联系起来。

在定量测试中,统一多模态的ImageBind在音频和深度信息理解上也超越了对应的专用模型。

meta开源多感官大模型,ai用6种模态体验虚拟世界

Meta团队认为,当人类从世界吸收信息时,我们天生会使用多种感官,而且人仅用极少数例子就能学习新概念的能力也来自于次。

比如人类在书本中读到对动物的描述,之后就能在生活中认出这种动物,或看到一张不熟悉的汽车照片就能预测起发动机的声音。

过去AI没有掌握这个技能,一大障碍就是要把所有可能的模态两两组合做数据配对难以实现。

现在有了多模态联合学习的方法,就能规避这个问题。

团队表示未来还将加入触觉、语音、嗅觉和大脑fMRI,进一步探索多模态大模型的可能性

对于目前版本,Meta也放出了一个简单的在线Demo,感兴趣的话可以去试试。

meta开源多感官大模型,ai用6种模态体验虚拟世界

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-05-11 21:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战
...冯若轩为中国人民大学二年级硕士生,主要研究方向为多模态具身智能,师从胡迪教授。引言:在机器人操纵物体的过程中,不同传感器数据携带的噪声会对预测控制造成怎样的影响?中国人民大学
2024-11-09 09:53:00
别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了
... AI 发起挑战的高规格赛事落下了帷幕!这就是第二届多模态情感识别挑战赛(MER24),它由清华大学陶建华教授、中国科学院自动化研究所连政
2024-08-01 09:34:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有
2024-10-18 09:47:00
“杜甫很忙”梗图变视频!智谱AI生成视频模型上线
...过半,经过一轮“价格战”后,各家大模型企业正在将多模态能力的突破作为大模型发展的下一个关键节点,大模型行业本身也正经历从单模态到多模态,再到全模态的演进。就在本月初的世界人工
2024-07-27 14:18:00
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日,商汤科技发布多模态多任务通用大模型“书生(INTERN)2.5”,在多模态多任务处理能力方面实现多项全新
2023-03-15 13:30:00
商汤又“夺金”!SuperCLUE-V多模态大模型基准发布10月榜单
...这个金秋,“日日新·商量”又拿了金牌!今日,中文多模态大模型测评基准SuperCLUE-V发布10月榜单:商汤日日新·商量多模态大模型(SenseChat-Vision5
2024-10-14 13:34:00
小度、可口可乐强强联合,国内AIGC品牌与多模态大模型深度结合迎来里程碑产品
...合实战应用领域开启了一条新路。应用场景落地,开启多模态营销全新可能探寻AI大潮下营销模式的全新可能,这是当前众多企业都在密切关注的话题。此次小度与可口可乐在AIGC+营销项目
2023-09-15 15:44:00
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状
2024-07-29 09:39:00
从Agent到多模态,大模型想要什么?
图片来源@视觉中国文|李智勇OpenAI 9.25发了个关于多模态版本的Blog说chatGPT现在能够看、听、说了,体验过的同学反馈还不错
2023-10-01 17:01:00
更多关于科技的资讯: