• 我的订阅
  • 科技

Meta开源多感官人工智能模型,整合文本、音频视觉等六类数据

类别:科技 发布时间:2023-05-10 10:23:00 来源:浅语科技

Meta公司发布了一个新的开源人工智能模型ImageBind,该模型能够将多种数据流,包括文本、音频、视觉数据、温度和运动读数等整合在一起。该模型目前只是一个研究项目,还没有直接的消费者或实际应用,但它展示了未来生成式人工智能系统的可能性,这些系统能够创造出沉浸式、多感官的体验。同时,该模型也表明了Meta公司在人工智能研究领域的开放态度,而其竞争对手如OpenAI和谷歌则变得越来越封闭。

Meta开源多感官人工智能模型,整合文本、音频视觉等六类数据

该研究的核心概念是将多种类型的数据整合到一个多维索引(或用人工智能术语来说,“嵌入空间”)中。这个概念可能有些抽象,但它正是近期生成式人工智能热潮的基础。例如,人工智能图像生成器,如DALL-E、StableDiffusion和Midjourney等,都依赖于在训练阶段将文本和图像联系在一起的系统。它们在寻找视觉数据中的模式的同时,将这些信息与图像的描述相连。这就是为什么这些系统能够根据用户的文本输入生成图片。同样的道理也适用于许多能够以同样方式生成视频或音频的人工智能工具。

Meta公司称,其模型ImageBind是第一个将六种类型的数据整合到一个嵌入空间中的模型。这六种类型的数据包括:视觉(包括图像和视频);热力(红外图像);文本;音频;深度信息;以及最有趣的一种——由惯性测量单元(IMU)产生的运动读数。(IMU存在于手机和智能手表中,用于执行各种任务,从手机从横屏切换到竖屏,到区分不同类型的运动。)

未来的人工智能系统将能够像当前针对文本输入的系统一样,交叉引用这些数据。例如,想象一下一个未来的虚拟现实设备,它不仅能够生成音频和视觉输入,还能够生成你所处的环境和物理站台的运动。你可以要求它模拟一次漫长的海上旅行,它不仅会让你置身于一艘船上,并且有海浪的声音作为背景,还会让你感受到甲板在脚下摇晃和海风吹拂。

Meta公司在博客文章中指出,未来的模型还可以添加其他感官输入流,包括“触觉、语音、气味和大脑功能磁共振成像信号”。该公司还声称,这项研究“让机器更接近于人类同时、全面、直接地从多种不同的信息形式中学习的能力。”

当然,这很多都是基于预测的,而且很可能这项研究的直接应用会非常有限。例如,去年,Meta公司展示了一个人工智能模型,能够根据文本描述生成短而模糊的视频。像ImageBind这样的研究显示了未来版本的系统如何能够整合其他数据流,例如生成与视频输出匹配的音频。

对于行业观察者来说,这项研究也很有趣,因为IT之家注意到Meta公司是开源了底层模型的,这在人工智能领域是一个越来越受到关注的做法。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-05-10 11:45:15

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...推“双子座” 号称最强AI模型安峥本报记者 安峥在美国人工智能(AI)初创公司OpenAI发布ChatGPT、引发人工智能开发竞赛一年后
2023-12-08 06:04:00
大模型不是未来?你需要学习下图灵奖得主Yann LeCun选择的“世界模型”
...型(LLM)成就非凡,应用丛生,还被很多人视为实现通用人工智能(AGI)的重大里程碑,也由此带来了一些「大规模失业论」甚至「AI 末日论」的悲观论调。尽管如此,也有一些业内人
2023-06-26 13:37:00
Google推出全新人工智能模型Gemini 2.0 用途更为广泛
Google的下一个主要人工智能模型已经到来,以对抗来自 OpenAI 的新产品的夹击。本周三,Google 发布了 Gemini 2
2024-12-12 09:54:00
趣丸科技副总裁兼CTO谢睿:多模态智能激发应用新场景 | 新质生产力·AI Partner大会
...用新场景》,借这个场合与各位新老朋友分享趣丸科技在人工智能方面的最新探索成果,以及赋能智能音频和数字安全方面的一些思考。首先,请允许我简单介绍一下趣丸科技。我们是一家成立于2
2024-05-24 22:22:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...目由北京大学对齐小组开发并进行长期维护,团队专注于人工智能系统的安全交互与价值对齐,指导老师为北京大学人工智能研究院杨耀东助理教授。核心成员包括吉嘉铭、周嘉懿、邱天异、陈博远
2024-10-18 09:47:00
火爆全球的AI音频大模型,最新技术细节揭秘
...版权在生成式AI快速发展的背景下,人们对音乐行业使用人工智能的争论日益激烈,特别是在版权问题上。Stability AI前音频副总裁Ed Newton-Rex于2023年底离职
2024-07-25 09:22:00
刚刚,重磅发布!阿里、腾讯、科大讯飞在列
...探索。在今年4月11日,国家网信办就曾发布关于《生成式人工智能服务管理办法(征求意见稿)》公开征求意见的通知。《办法》提到,利用生成式人工智能产品向公众提供服务前,应当按照《
2023-06-20 17:00:00
新闻传播业的生成式人工智能应用及其风险应对
...用,探究“AI治理AI”新模式,坚持人本主义,是生成式人工智能风险治理的关键。人工智能的创新应用形塑社会互动模式。在信息传播、医疗、交通、教育等场景中,人工智能成为社会互动的
2024-06-13 10:23:00
机构预测:AIGC市场规模将2030年达1100亿美元
人工智能生成内容(AIGC)在2022年横空出世后,正在不断推动AI从学术界到产业界向一般互联网用户的破圈。微软创始人比尔·盖茨(BillGates)在今年3月发布的博文中说
2023-07-13 22:34:00
更多关于科技的资讯:
山东移动滨州分公司:科技赋韵千年曲会 匠心护航文化传承
鲁网3月4日讯弦鼓传古韵,5G 润乡音。2026 年 2 月 28 日,胡集书会在滨州惠民正式启幕。滨州移动以“科技赋能
2026-03-04 11:07:00
鲁网3月4日讯在AI创业浪潮下,市南区聚焦OPC单人AI创业服务,打造高效、暖心的OPC注册环境,激发个体AI创业活力
2026-03-04 10:31:00
中国网3月4日讯 据国家安全部微信公众号消息,“【电子发票】张某某先生,您的发票已开好,请点击下载”——当收件箱弹出这类带着你真实姓名的电子邮件
2026-03-04 07:58:00
玉磊 柳州工学院一、人工智能在财务报表分析中的应用现状人工智能技术在财务报表分析中的首次应用,源于自然语言处理(NLP)和机器学习(ML)的发展
2026-03-04 07:08:00
金皓摘要:异常检测作为数据分析和智能系统中的重要研究方向,广泛应用于金融风控、工业监测、网络安全和医疗诊断等领域。传统统计方法和近年来快速发展的深度学习方法
2026-03-04 07:08:00
烟台联通圆满完成2026“百花汇海”山东秧歌会通信保障
胶东在线3月3日讯3月1日,由山东省文学艺术界联合会等单位指导主办的2026“百花汇海”山东秧歌会在烟台海阳市河清岛体育场盛大举行
2026-03-03 20:29:00
涌金楼丨浙江经济第一区确立“首要任务”
余杭“十四五”五年成绩单。受访者供图3月2日,余杭区召开经济高质量发展大会。这是余杭连续第五年以“高质量发展”为题召开大会
2026-03-03 22:27:00
江南时报讯 凌晨2点,扬子江数字视听产业园的“短剧公寓”里,张弛仍然坐在电脑前,屏幕上是他十多个海外短视频账号的数据反馈——当天发布的97条短剧切片
2026-03-03 22:48:00
河北特色产业集群数字金融平台助力解决企业融资难银企互联 点“数”成金“通过平台提供的‘数字信用’,仅用5天我们就拿到了1700万元的授信贷款
2026-03-03 17:55:00
2026全国两会正月十五元宵节,委员们从天津出发共赴盛会!海河传媒中心为委员们送上精心准备的贺卡!万家团圆日,一张贺卡,一份天津情!奋斗再出发!
2026-03-03 18:54:00
去年涨3次,今年集体降价!羽毛球价格“过山车”的背后
大河网讯(记者 莫韶华)“终于等到你,还好我没放弃!”近日,多个羽毛球品牌宣布降价的消息在球友圈刷屏。降价是真是假?幅度有多大
2026-03-03 18:57:00
中国联通精彩亮相MWC2026 聚焦“连接、算力、服务、安全”核心赛道 共筑全球数字新生态
3月2日至5日,2026年世界移动通信大会(MWC2026)在西班牙巴塞罗那盛大举行。中国联通以“数智焕新,向实同行”为主题
2026-03-03 19:24:00
从哲学思辨到技术冲击,再到智能融合,艺术与科技的关系不断被重新定义。围绕“AI与艺术的融合”这一主题,实战派管理美学专家
2026-03-03 17:58:00
鲁网3月3日讯近日,国际权威品牌价值评估机构Brand Finance发布2026“全球电子家电品牌价值50强”榜单(Electronics &
2026-03-03 14:24:00