国内国际社会时尚情感人文汽车健康

头条订阅服务

体育娱乐财经军事科技游戏教育育儿

三国以色列人工智能AI ChatGPT 数字经济

我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

meta开源多感官大模型，ai用6种模态体验虚拟世界

类别：科技发布时间：2023-05-11 19:53:00 来源：浅语科技

Meta最新 6模态大模型，让AI以更接近人类的方式理解这个世界。

比如当你听见倒水声的时候就会想到杯子，听到闹铃声会想到闹钟，现在AI也可以。

尽管画面中没有出现人类，AI听到掌声也能指出最有可能来自电脑。

meta开源多感官大模型，ai用6种模态体验虚拟世界

这个大模型 ImageBind 以视觉为核心，结合文本、声音、深度、热量（红外辐射）、运动（惯性传感器），最终可以做到6个模态之间任意的理解和转换。

meta开源多感官大模型，ai用6种模态体验虚拟世界

如果与其他AI结合，还可以做到跨模态的生成。

比如听到狗叫画出一只狗，同时给出对应的深度图和文字描述。

甚至做到不同模态之间的运算，如鸟的图像+海浪的声音，得到鸟在海边的图像。

meta开源多感官大模型，ai用6种模态体验虚拟世界

团队在论文中写到，ImageBind为设计和体验身临其境的虚拟世界打开了大门。

也就是离Meta心心念念的元宇宙又近了一步。

网友看到后也表示，又是一个掉下巴的进展。

meta开源多感官大模型，ai用6种模态体验虚拟世界

ImageBind代码已开源，相关论文也被CVPR2023选为Highlight。

meta开源多感官大模型，ai用6种模态体验虚拟世界

生成理解检索都能干

对于声音-图像生成，论文中透露了更多细节。

并不是让AI听到声音后先生成文字的提示词，而是Meta自己复现了一个DALL・E2，并把其中的文本嵌入直接替换成了音频嵌入。

meta开源多感官大模型，ai用6种模态体验虚拟世界

结果就是AI听到雨声可以画出一张雨景，听到快艇发动机启动声可以画出一条船。

meta开源多感官大模型，ai用6种模态体验虚拟世界

其中比较有意思的是，床上没有人，但AI也认为打呼噜声应该来自床。

meta开源多感官大模型，ai用6种模态体验虚拟世界

ImageBind能做到这些，核心方法是把所有模态的数据放入统一的联合嵌入空间，无需使用每种不同模态组合对数据进行训练。

meta开源多感官大模型，ai用6种模态体验虚拟世界

并且用这种方法，只需要很少的人类监督。

如视频天然就把画面与声音做了配对，网络中也可以收集到天然把图像和文字配对的内容等。

而以图像/视频为中心训练好AI后，对于原始数据中没有直接联系的模态，比如语音和热量，ImageBind表现出涌现能力，把他们自发联系起来。

在定量测试中，统一多模态的ImageBind在音频和深度信息理解上也超越了对应的专用模型。

meta开源多感官大模型，ai用6种模态体验虚拟世界

Meta团队认为，当人类从世界吸收信息时，我们天生会使用多种感官，而且人仅用极少数例子就能学习新概念的能力也来自于次。

比如人类在书本中读到对动物的描述，之后就能在生活中认出这种动物，或看到一张不熟悉的汽车照片就能预测起发动机的声音。

过去AI没有掌握这个技能，一大障碍就是要把所有可能的模态两两组合做数据配对难以实现。

现在有了多模态联合学习的方法，就能规避这个问题。

团队表示未来还将加入触觉、语音、嗅觉和大脑fMRI，进一步探索多模态大模型的可能性

对于目前版本，Meta也放出了一个简单的在线Demo，感兴趣的话可以去试试。

meta开源多感官大模型，ai用6种模态体验虚拟世界

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-05-11 21:45:09

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模态,感官,模型,体验,世界,模态的资讯：

感官协同配合的精细操纵，人大胡迪团队探索机器人模态时变性挑战

感官协同配合的精细操纵，人大胡迪团队探索机器人模态时变性挑战

...冯若轩为中国人民大学二年级硕士生，主要研究方向为多模态具身智能，师从胡迪教授。引言：在机器人操纵物体的过程中，不同传感器数据携带的噪声会对预测控制造成怎样的影响？中国人民大学

2024-11-09 09:53:00

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩

... AI 发起挑战的高规格赛事落下了帷幕！这就是第二届多模态情感识别挑战赛（MER24），它由清华大学陶建华教授、中国科学院自动化研究所连政

2024-08-01 09:34:00

全模态对齐框架align-anything来啦：实现跨模态指令跟随

全模态对齐框架align-anything来啦：实现跨模态指

... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐，已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中，「有

2024-10-18 09:47:00

“杜甫很忙”梗图变视频！智谱AI生成视频模型上线

“杜甫很忙”梗图变视频！智谱AI生成视频模型上线

...过半，经过一轮“价格战”后，各家大模型企业正在将多模态能力的突破作为大模型发展的下一个关键节点，大模型行业本身也正经历从单模态到多模态，再到全模态的演进。就在本月初的世界人工

2024-07-27 14:18:00

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”

商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5” 3月14日，商汤科技发布多模态多任务通用大模型“书生（INTERN）2.5”，在多模态多任务处理能力方面实现多项全新

2023-03-15 13:30:00

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布10月榜单

商汤又“夺金”！SuperCLUE-V多模态大模型基准发布1

...这个金秋，“日日新·商量”又拿了金牌！今日，中文多模态大模型测评基准SuperCLUE-V发布10月榜单：商汤日日新·商量多模态大模型（SenseChat-Vision5

2024-10-14 13:34:00

小度、可口可乐强强联合，国内AIGC品牌与多模态大模型深度结合迎来里程碑产品

小度、可口可乐强强联合，国内AIGC品牌与多模态大模型深度结

...合实战应用领域开启了一条新路。应用场景落地，开启多模态营销全新可能探寻AI大潮下营销模式的全新可能，这是当前众多企业都在密切关注的话题。此次小度与可口可乐在AIGC+营销项目

2023-09-15 15:44:00

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智能

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...数字空间和物理世界的交互来完成复杂任务。近年来，多模态大模型和机器人技术得到了长足发展，具身智能成为全球科技和产业竞争的新焦点。然而，目前缺少一篇能够全面解析具身智能发展现状

2024-07-29 09:39:00

从Agent到多模态，大模型想要什么？

从Agent到多模态，大模型想要什么？

图片来源@视觉中国文｜李智勇OpenAI 9.25发了个关于多模态版本的Blog说chatGPT现在能够看、听、说了，体验过的同学反馈还不错

2023-10-01 17:01:00

更多关于科技的资讯：

胖都来成立胖东来回应：有蹭热度嫌疑

胖都来成立胖东来回应：有蹭热度嫌疑

2025-03-27 20:05:00

RTX 4090 48GB拆解、实测：噪音吵得耳朵要崩溃了

RTX 4090 48GB拆解、实测：噪音吵得耳朵要崩溃了

2025-03-27 20:05:00

首发天玑9400+！OPPO Find X8s AI屠榜：AI性能最优的手机

首发天玑9400+！OPPO Find X8s AI屠榜：A

2025-03-27 20:05:00

出道即巅峰！鸿蒙智行问界M8小订突破8万台

出道即巅峰！鸿蒙智行问界M8小订突破8万台

2025-03-27 20:05:00

小红书回应高频读取用户信息：无授权不会读取

小红书回应高频读取用户信息：无授权不会读取

2025-03-27 20:05:00

太原移动多维提升语音质量深化5G超高清语音体验

太原移动多维提升语音质量深化5G超高清语音体验

2025-03-27 20:06:00

破解同质化业界：白酒品牌转向价值深耕

破解同质化业界：白酒品牌转向价值深耕

2025-03-27 20:10:00

不只是低价！AMZFAST27P1以亲民价格打造高端电竞显示器新标杆

不只是低价！AMZFAST27P1以亲民价格打造高端电竞显示

2025-03-27 20:33:00

男子每天通勤6小时：月交通费4000元

男子每天通勤6小时：月交通费4000元

2025-03-27 20:35:00

两轮电动车的低碳智能之路

2025-03-27 20:45:00

博鳌聊“企”来 | 天合光能联席董事长高海纯：绿色资产是竞争力越早投资越快享受到红利

博鳌聊“企”来 | 天合光能联席董事长高海纯：绿色资产是竞争

2025-03-27 21:05:00

比亚迪四座豪华轿车仰望U7正式上市：62.8万元起

比亚迪四座豪华轿车仰望U7正式上市：62.8万元起

2025-03-27 21:05:00