• 我的订阅
  • 科技

Yann LeCun朝“世界模型”理论迈一步,Meta开源“像人一样学习”的图像模型 | 最前线

类别:科技 发布时间:2023-06-16 18:14:00 来源:36氪

文 | 周鑫雨

编辑 | 苏建勋

六根手指、机器猫圆手……手部细节一直是图像生成式AI的盲区。

用Midjourney生成的图,手部有6根手指。

而如今,这一图像生成的阿喀琉斯之踵有望被Meta破解。6月14日,Meta 推出了I-JEPA(Image Joint Embedding Predictive Architecture, 图像联合嵌入预测架构),实现无需手动变换图像对额外知识进行编码的情况下,生成基于世界常识的图像。

这一研究由纽约计算量子物理中心研究院Anna Dawid,以及图灵奖获得者Yann LeCun共同提出——I-JEPA也被视作继LeCun提出“世界模型(World Model)”构想后,第一个卓有成效的进展。

从自回归到世界模型

为何图像生成模型普遍难以精确生成手部?其根本原因在于以自回归为框架的模型缺乏对现实世界的常识。

在自回归框架下,模型利用当前的上文信息对下文信息进行预测。应用至图像生成领域,“图像像素”则成了上下文信息:自回归模型通过将训练图像转换为一维序列输入,利用Transformer转换器自回归预测图像像素。

这一方法的优势在于可以很好地建立像素和高级别属性,如纹理、语义和尺寸等属性之间的关系。但劣势依然明显,由于缺乏常识,模型对图像像素的预测时常违反常理,比如“六根手指”——这也造成了自回归模型常出现的“幻觉”现象。

LeCun认为,想要让AI接近人类水平,其需要像婴儿一样学习世界如何运作。由此,他提出了“世界模型”的概念,解决方案即为JEPA(联合嵌入预测架构)。

JEPA通过一系列的编码器提取世界状态的抽象表示,并使用不同层次的世界模型预测器,来预测世界的不同状态,并在不同的时间尺度上做出预测。

Yann LeCun朝“世界模型”理论迈一步,Meta开源“像人一样学习”的图像模型 | 最前线

LeCun在论文中提出的基于“世界模型”的自主化AI的模块化结构。图源:论文

在智源大会的演讲中,LeCun有关“层级规划”举了一个例子:我想从纽约前往北京,第一件事是去机场,第二件事是乘去往北京的飞机,最终的代价函数(cost function)可以表示从纽约到北京的距离。那么我该如何去机场?解决方案是把任务分解到毫秒级,通过毫秒级的控制来找到预测成本最小的行动序列。

LeCun表示,所有复杂的任务都可以通过这种“分层”的方式完成,而层次规划则是其中最大的挑战。

迈向“世界模型”的第一步

为何说I-JEPA是迈向“世界模型”的一步?

从训练原理来看,I-JEPA预测的并非是图像像素,而是抽象的预测目标。其中的预测器能够从部分可观察的上下文中,对静态图像中缺失的空间进行模拟。

Yann LeCun朝“世界模型”理论迈一步,Meta开源“像人一样学习”的图像模型 | 最前线

基于图像的联合嵌入预测体系结构:使用单个上下文块来预测来自同一图像的各种目标块。图源:论文

Yann LeCun朝“世界模型”理论迈一步,Meta开源“像人一样学习”的图像模型 | 最前线

I-JEPA训练过程:给定一张图像,从中随机抽取4个目标块,比例范围为(0.15,0.2),宽高比范围为(0.75,1.5)。接下来,随机采样一个范围为(0.85,1.0)的上下文块,并删除任何重叠的目标块。在这种策略下,目标块是相对语义化的,而上下文块在保证信息量足够大的同时又很稀疏(处理效率高)。图源:论文

为了理解可观察的内容,Meta训练了一个随机解码器和生成模型,将I-JEPA预测的内容映射为像素,再输出为预测的内容草图。

Yann LeCun朝“世界模型”理论迈一步,Meta开源“像人一样学习”的图像模型 | 最前线

I-JEPA预测器可以正确地捕捉空间的不确定性,并正确生成预测对象的部件(例如,鸟的背部和汽车的顶部)。图源:论文

从效果而言,I-JEPA的计算效率远高于主流计算机视觉模型。比如Meta在72小时内用了16块A100训练了一个参数规模为632M的视觉Transformer模型,所用GPU小时数是一般方法的1/10到1/2,并且在相同训练数据量下,误差率更低。

Yann LeCun朝“世界模型”理论迈一步,Meta开源“像人一样学习”的图像模型 | 最前线

与以前的方法相比,I-JEPA所需的计算量更少,性能更强:与MAE和data2vec相比,I-JEPA所需的预训练时间更少。与iBOT相比,I-JEPA所需的手动标注的数据更少。与此同时,最大的I-JEPA模型(ViT-H/14)比其他两款中最小的模型(ViT-H/16)所需的计算更少。图源:论文

I-JEPA已经显示出世界模型在图像生成上的作用。可预见的是,JEPA在视频、音频等更多模态的预测和生成中将发挥作用。目前,I-JEPA的训练代码和模型检查点已在GitHub上开源。

延伸阅读

欢迎交流

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-06-16 19:45:16

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

最新美国国家人工智能科学院院士介绍
...。他在自然语言处理领域取得了显著成果,特别是在语言模型和对话系统方面。Zhu的工作使得机器能够更自然地与人类进行交互,提高了智能助手的性能和用户体验。RichardSutto
2024-03-24 08:39:00
Sora“超级涌现力”将把AI引向何方
本文转自:文汇报OpenAI首款文生视频大模型对物理世界的重建能力惊艳世界Sora“超级涌现力”将把AI引向何方Sora模拟视频中,在海中飞舞的蝴蝶犹如实景拍摄。一位女性的秋日特
2024-02-24 05:43:00
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K
...读】DIAMOND是一种新型的强化学习智能体,在一个由扩散模型构建的虚拟世界中进行训练,能够以更高效率学习和掌握各种任务
2024-11-19 09:49:00
MSRA:视觉生成六大技术问题
...进行了梳理,他认为视觉信号拆分是最本质的问题。生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分
2024-07-15 09:34:00
...金。资金主要将用于核心研发团队的建设,加速多模态大模型和应用产品的研发。成立于2023年3月,生数科技由安全可控人工智能方案提供商瑞莱智慧RealAI、蚂蚁集团和BV百度风投
2023-06-19 09:03:00
Pokémon Go开发地理空间大模型,AR眼镜的高精地图?
...布了新一代AR眼镜——RokidGlasses,通过摄像头、多模态大模型以及(玻璃衍射)光波导等技术,在一定程度上让AR眼镜实现了对真实世界的感知与理解,以及对用户的协同与展
2024-11-22 14:05:00
用模型进化模型,智源发布开源套装;大模型带不来AGI,LeCun提出三大挑战 | 最前线
文 | 周鑫雨编辑 | 邓咏仪大模型的下一站是通用人工智能(AGI)吗?在6月9日开幕的智源大会上,来自中美两国AI领域的顶尖人才们围绕着大模型和AGI的未来进行了讨论。由于非营
2023-06-10 13:09:00
刚炮轰完GPT模式 杨立昆推出首个“世界模型”
...道,今日凌晨,Meta宣布推出首个“类人(human-like)”AI模型I-JEPA。这是第一个基于Meta首席AI科学家杨立昆(Yann LeCun)愿景关键组成部分的AI模型
2023-06-14 18:02:00
三星自研AI大语言模型 将应用于下一代智能手机
...品Gauss(高斯)。三星以科技创新优势为人工智能大语言模型领域的发展注入新的活力。2023三星人工智能论坛三星Gauss,人工智能重大进步代表在人工智能的不断发展和突破中,
2023-11-27 17:02:00
更多关于科技的资讯:
双轮驱动,智启未来:刘晓春与AI智能体×机器人“姊妹组合战略”的全球布局
2026,智能时代的分水岭2026年的春天,马年春晚的舞台上,一场科技盛宴惊艳了全球观众——30多台国产机器人协同起舞
2026-02-22 12:05:00
新春走基层丨厦企加快数字化转型步伐 提前返岗忙生产赶订单
明翰电气的工人春节期间坚守岗位。(记者 林铭鸿 摄)厦门网讯(厦门日报记者 林露虹)放置材料、调试机台……正月初五,厦门明翰电气股份有限公司(以下简称“明翰电气”)已忙碌起来
2026-02-22 08:50:00
新春走基层 | 森一量子为赶订单全员在线 生产线满负荷运转
昨日记者走进森一量子,这一企业春节期间全员加班加点。厦门网讯(厦门日报记者 李晓平)长晶、 切割、减薄、抛光、镀膜……当大多数人还沉浸在春节的喜庆中
2026-02-22 08:50:00
我带着一款AI眼镜回家过年
记者带回家的AI眼镜二伯买的宇树机器狗Go2今年的春晚有一个格外醒目的变化——“AI含量”明显提升。年夜饭桌上,亲戚们都在聊各自手机里的各种“AI”App
2026-02-22 07:49:00
中国科大实现碳化硅改性双空位色心的电荷态调控
大皖新闻讯 2月21日,大皖新闻记者从中国科学技术大学获悉,该校郭光灿院士团队在碳化硅改性双空位色心电荷态调控的研究中取得了新进展
2026-02-21 16:48:00
戛纳世界人工智能大会探讨“音乐人工智能”
中国青年报客户端讯(中青报·中青网记者 蒋肖斌)2026戛纳世界人工智能大会(WAICF 2026),近日在法国戛纳举办
2026-02-21 12:10:00
杭州一家高科技创业公司员工 每人领一个陪伴机器人回家过年
春节去各地见见世面长长“脑子”这个春节,大多数打工人都卸下KPI返乡团聚。杭州一家名为镭萌科技的创业公司,却有一群特殊的“员工”在忙着长“脑子”
2026-02-21 08:11:00
建设一流创新生态 激发创新投资需求杭州日报讯 日前,浙江(杭州)知识产权创新产业园内,一场旨在连接技术与资本的专利产业化投融资专项对接活动火热举行
2026-02-21 08:11:00
新春佳节,浙江不少企业春节“不打烊”,抢订单、赶交付、跑海外,把年过在了车间里和海外展台前。走进宁波这家科技企业,工作人员正紧盯屏幕
2026-02-20 15:04:00
马年春节,杭城消费市场持续升温。一批全国首店、浙江首店、杭州首店密集登陆湖滨、武林、钱江新城、奥体等核心商圈,覆盖潮玩
2026-02-20 07:31:00
大年初三,杭州苏宁易购庆春路店暖意融融。大厅里“焕新幸福年”的红色标语格外醒目。店内客流平稳,多为全家同行的家庭顾客,虽不似年前拥挤
2026-02-20 08:01:00
“库迪咖啡竟然涨价了,9.9元的咖啡以后还能闭眼冲吗?”春节前最后一个工作日,东北姑娘小乔中午赶到杭州火车东站,准备坐高铁回老家
2026-02-20 08:01:00
潮声丨从“Made in”到“Design by”,浙江品牌出海记
新春,义乌老板们已经忙碌起来。这几天,24家义乌企业亮相2026年美国拉斯维加斯服装服饰及面料展,带着新品抢订单、拓市场
2026-02-19 16:24:00
新春走基层|“解码”潮玩盲盒:Z世代用情绪消费点亮团圆年
中青报·中青网记者沈杰群余冰玥李怡蒙见习记者蒋欣雨95后北京职员王之怡在新加坡休假时,特意去了环球影城附近的泡泡玛特,店内挤满了年轻人
2026-02-19 12:05:00