• 我的订阅
  • 科技

Sora背后团队:成立不到1年,站在谷歌肩头,应届博士带队

类别:科技 发布时间:2024-02-19 15:59:00 来源:财经风云

2月16日,OpenAI的AI视频模型Sora炸裂出道,生成的视频无论是清晰度、连贯性和时间上都令人惊艳,一时间,诸如“现实不存在了!”的评论在全网刷屏。

Sora是如何实现如此颠覆性的能力的呢?这就不得不提到其背后的两项核心技术突破——SpacetimePatch(时空Patch)技术和DiffusionTransformer(DiT,或扩散型Transformer)架构。

Sora背后团队:成立不到1年,站在谷歌肩头,应届博士带队

Sora官网截图

记者查询这两项技术的原作论文发现,时空Patch的技术论文实际上是由谷歌DeepMind的科学家们于2023年7月发表的。DiT架构技术论文的一作则是Sora团队领导者之一WilliamPeebles,但戏剧性的是,这篇论文曾在2023年的计算机视觉会议上因“缺少创新性”而遭到拒绝,仅仅1年之后,就成为Sora的核心理论之一。

如今,Sora团队毫无疑问已经成为世界上最受关注的技术团队。记者查询OpenAI官网发现,Sora团队由Peebles等3人领导,核心成员包括12人,其中有多位华人。值得注意的是,这支团队十分年轻,成立时间还尚未超过1年。

Sora背后团队:成立不到1年,站在谷歌肩头,应届博士带队

William(Bill)Peebles社交账号截图

Sora背后团队:成立不到1年,站在谷歌肩头,应届博士带队

核心突破一:

时空Patch,站在谷歌肩膀上

此前,OpenAI在X平台上展示了Sora将静态图像转换为动态视频的几个案例,其逼真程度令人惊叹。Sora是如何做到这一点的呢?这就不得不提到该AI视频模型背后的两项核心技术——DiT架构和SpacetimePatch(时空Patch)。

据外媒报道,SpacetimePatch是Sora创新的核心之一,该项技术是建立在谷歌DeepMind对NaViT(原生分辨率视觉Transformer)和ViT(视觉Transformer)的早期研究基础上。

Patch可以理解为Sora的基本单元,就像GPT-4的基本单元是Token。Token是文字的片段,Patch则是视频的片段。GPT-4被训练以处理一串Token,并预测出下一个Token。Sora遵循相同的逻辑,可以处理一系列的Patch,并预测出序列中的下一个Patch。

Sora之所以能实现突破,在于其通过SpacetimePatch将视频视为补丁序列,Sora保持了原始的宽高比和分辨率,类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至关重要,使模型能够从更准确的表达中学习,从而赋予Sora近乎完美的准确性。由此,Sora能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。

记者注意到,OpenAI发布的Sora技术报告中透露了Sora的主要理论基础,其中Patch的技术论文名为Patchn'Pack:NaViT,aVisionTransformerforanyAspectRatioandResolution。记者查询预印本网站arxiv后发现,该篇研究论文是由谷歌DeepMind的科学家们于2023年7月发表的。

Sora背后团队:成立不到1年,站在谷歌肩头,应届博士带队

核心突破二:

扩散型Transformer架构

相关论文曾遭拒绝

除此之外,Sora的另一个重大突破是其所使用的架构,传统的文本到视频模型(Runway、StableDiffusion)通常是扩散模型(DiffusionModel),文本模型例如GPT-4则是Transformer模型,而Sora则采用了DiT架构,融合了前述两者的特性。

据报道,传统的扩散模型的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片时,逐步减少噪点,直到还原出一张清晰的图片。Sora采用的架构是通过Transformer的编码器-解码器架构处理包含噪点的输入图像,并在每一步预测出更清晰的图像。DiT架构结合时空Patch,让Sora能够在更多的数据上进行训练,输出质量也得到大幅提高。

OpenAI发布的Sora技术报告透露,Sora采用的DiT架构是基于一篇名为Scalablediffusionmodelswithtransformers的学术论文。记者查询预印本网站arxiv后发现,该篇原作论文是2022年12月由伯克利大学研究人员William(Bill)Peebles和纽约大学的一位研究人员谢赛宁共同发表。William(Bill)Peebles之后加入了OpenAI,领导Sora技术团队。

然而,戏剧化的是,Meta的AI科学家YannLeCun在X平台上透露,“这篇论文曾在2023年的计算机视觉会议(CVR2023)上因‘缺少创新性’而遭到拒绝,但在2023年国际计算机视觉会议(ICCV2023)上被接受发表,并且构成了Sora的基础。”

据文汇报19日报道,针对有自媒体称Sora发明者之一是毕业于上海交大的天才少年谢赛宁,谢赛宁在朋友圈表示自己和Sora并没有关系,但是他也谈到,对于Sora这样的复杂系统,人才第一,数据第二,算力第三,其他都没有什么是不可替代的。

谢赛宁目前是纽约大学计算机科学助理教授,在此之前他是Facebook人工智能研究院研究科学家。

作为最懂DiT架构的人之一,在Sora发布后,谢赛宁在X平台上发表了关于Sora的一些猜想和技术解释,并表示,“Sora确实令人惊叹,它将彻底改变视频生成领域。”

“当Bill和我参与DiT项目时,我们并未专注于创新,而是将重点放在了两个方面:简洁性和可扩展性。”他写道。“简洁性代表着灵活性。关于标准的ViT,人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。”

不过,他认为,关于Sora仍有两个关键点尚未被提及。一是关于训练数据的来源和构建,这意味着数据很可能是Sora成功的关键因素;二是关于(自回归的)长视频生成,Sora的一大突破是能够生成长视频,但OpenAI尚未揭示相关的技术细节。

Sora背后团队:成立不到1年,站在谷歌肩头,应届博士带队

年轻的开发团队:

应届博士带队,还有00后

随着Sora的爆火,Sora团队也来到世界舞台的中央,引发了持续的关注。记者查询OpenAI官网发现,Sora团队由WilliamPeebles等3人领导,核心成员包括12人。从团队领导和成员的毕业和入职时间来看,这支团队成立的时间较短,尚未超过1年。

从年龄上来看,这支团队也非常年轻,两位研究负责人都是在2023年才刚刚博士毕业。William(Bill)Peebles于去年5月毕业,其与谢赛宁合著的扩散Transformer论文成为Sora的核心理论基础。TimBrooks于去年1月毕业,是DALL-E3的作者之一,曾在谷歌和英伟达就职。

团队成员中甚至还有00后。团队中的WillDePue生于2003年,2022年刚从密西根大学计算机系本科毕业,在今年1月加入Sora项目组。

此外,团队还有几位华人。据媒体报道,LiJing是DALL-E3的共同一作,2014年本科毕业于北京大学物理系,2019年获得MIT物理学博士学位,于2022年加入OpenAI。RickyWang则是今年1月刚刚从Meta跳槽到OpenAI。其余华人员工包括YufeiGuo等尚未有太多公开资料介绍。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-19 18:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

着力破解三个“孤岛”
...江省技术发明奖二等奖,创下新纪录。一年摘得三项奖的背后“一年获得三项殊荣的背后,是市、区级科技计划项目的立项支撑,3项相关科技项目财政补助经费达209.9万元。”衢江区科技局
2024-02-06 00:41:00
...日推出的生成式人工智能模型Sora,震动全球科技界,其背后的研究团队也浮出水面。根据OpenAI官网介绍,Sora团队包括两名研发负责人威廉·皮伯斯和蒂姆·布鲁克斯,系统负责
2024-02-28 10:40:00
清华团队提出新型光计算架构,光训练速度提升1个数量级
...左和图右分别为论文共同一作薛智威与周天贶(来源:该团队)研究团队通过建立光子传播对称性模型,未采用传统的电训练反向传播范式,化“反”为“前”。这种新范式挣脱了前向-反向光场传
2024-08-09 09:57:00
采用MoE大模型,清华创业团队医者AI构建健康管理Agent
...问题、小样本训练不足等问题。为了解决这个现状,医者团队采用自研MoE架构大模型。通过混合架构,将大模型与全科医生AI、专科专家AI、运动教练AI、营养师AI等联合起来共同服务
2023-10-31 11:44:00
用最古朴思路“苦熬”光芯片
...院士、清华大学自动化系教授戴琼海课题组组成交叉研究团队,在智能光计算芯片领域实现突破。相关成果发表于《科学》。他们首创干涉-衍射分布式广度光计算架构,研制出全球首款大规模通用
2024-05-28 23:16:00
这项技术部署,一年帮小红书省下几个亿
...发,包含中间件、存储、缓存、DB、SRE 和质量保障等不同团队。土生土长在云上的架构让小红书拥有很好的先发优势,也使得团队在对新技术的采用上少了很多后顾之忧, 在如何用好云上
2023-03-16 16:00:00
Sora背后团队:应届博士带队,00后入列,还专门招了艺术生
本文授权转自量子位(ID:QbitAI)克雷西 鱼羊 发自 凹非寺现在世界上最受关注的技术团队是哪一支?Sora团队,已经来到聚光灯中心。不仅项目负责人评论区被挤爆,成了????
2024-02-19 03:00:00
Intel自研AI开发工具:6周芯片设计变几分钟
...程师、人工智能解决方案架构师Olena Zhu博士领衔增强智能团队开发的这款AI工具,可以帮助系统架构师将数千个变量纳入未来的芯片设计中,包括精确分析激活CPU核心、I/O和
2024-04-18 01:00:00
年度生成式AI大会上海站公布最新嘉宾,报名进入最后阶段
...汤通用模型负责人,垂类语言大模型负责人。带领数百人团队,负责人工智能算法研发,支撑公司核心业务,创造了多个行业第一。论文50余篇,引用过万,专利100余项。 6、蚂蚁集团资
2024-11-26 09:38:00
更多关于科技的资讯:
7月25日,位于邢台市沙河市的河北德金玻璃有限公司三线生产车间,两条生产线上不同规格的玻璃从自动传送带缓缓下线,一台台机械臂来回抓取新鲜出炉的玻璃原片
2025-08-17 07:29:00
90后寒门CEO,帮了雷军一个大忙
小米汽车YU7爆单后,车越欠越多,根本交付不完。即便雷军7月10日称小米汽车交付已超过30万台,但后面还有小米YU7迫在眉睫的24万个新订单
2025-08-16 15:53:00
用AI帮中小企业傻瓜式获客,这个营销Agent收入每月增长150%
文|邓咏仪编辑|苏建勋2024年中离开阿里,开始在Agent赛道创业时,郭振宇面临不少质疑:到底是做AutoAgent(自主代理
2025-08-17 02:24:00
“产业链上的山东好品牌”青岛市系列现场媒体见面会|现代轻工产业链专场——利和味道(青岛)食品产业股份有限公司
鲁网8月16日讯8月15日,在青岛鑫复盛集团有限公司,青岛市政府新闻办举行“产业链上的山东好品牌”青岛市系列现场媒体见面会第三场——现代轻工产业链专场
2025-08-16 09:40:00
通讯员 张汶宁8月14日,山东泰安举办“产业链上的山东好品牌”泰安企业家系列记者见面会首场活动。泰开集团、泰和电力、山东瑞福锂业
2025-08-16 09:56:00
聚焦长春农博会 |流量经济直播间首秀 “千万销量”引爆“线上农博”
8月15日,第二十四届长春农博会开幕首日,长春农博园3号馆内气氛热烈,吉林省流量经济赋能电商直播首场活动正式拉开帷幕。联合抖音
2025-08-16 10:29:00
首店经济引爆消费热潮,万达“提质提级”重构齐鲁商业生态
8月15日,盒马鲁中首店于淄博富力万达广场盛大开业。这不仅标志着盒马成功布局山东第七城,其开业即火爆的盛况,更凸显了“首店经济”在激发区域消费活力中的关键引擎作用
2025-08-16 10:30:00
新闻发布在一线|产业链上的“枣庄辣子鸡”串起富民增收路年销售额突破50亿元
鲁网8月16日讯近日,“产业链上的山东好品牌”枣庄市新型商贸物流产业链专场记者见面会在枣庄辣子鸡博物馆举行。见面会聚焦枣庄辣子鸡产业
2025-08-16 12:01:00
助力乡土好物跃上云端 汇丰海传媒助农电商平台正式成立
鲁网8月16日讯(记者 于胜涛)8月15日,位于即墨区龙润卓越中心的青岛汇丰海文化传媒有限公司正式开业,由其打造的助农电商平台同步启动
2025-08-16 13:12:00
潍坊昌乐培茁种业:数字赋能,“慧”就现代农业“新蓝图”
大众网记者 王帅 潍坊报道在潍坊昌乐这片被誉为“中国西瓜之乡”的热土上,一座占地4.5万平方米的现代农业科技创新高地正在改写传统农业的基因
2025-08-16 16:01:00
京东收购佳宝超市:全港三天八折,还有6万份长者月饼礼盒暖人心
8月16日,继昨日官宣完成对香港佳宝食品超级市场(以下简称“佳宝”)的收购后,京东在香港佳宝门店举行记者见面会,宣布将通过自身的供应链优势
2025-08-16 16:28:00
“窝囊蹦极”“窝囊爬山”“窝囊漂流”,这个夏天,“窝囊废旅游三件套”在社交平台刷屏。浙江安吉龙出没大峡谷的“躺平漂流”单日门票销售额逼近40万元
2025-08-16 16:55:00
临沂职业学院成功试运行宠云行至圆通无人机物流航线
齐鲁晚报·齐鲁壹点 通讯员 张琳近日,临沂职业学院无人机物流航线开通飞行仪式在临沂商贸物流城举行。学院自主研发的无人机满载货物由宠云行智慧云仓起飞
2025-08-16 17:15:00
2025手机消费观察:七成用户关注折叠屏手机 多形态多场景融合是核心吸引力
手机已经从通讯工具成为了生活的集成入口,消费者对手机功能的需求和选择也在不断发生变化,近日,京东消费及产业发展研究院联合京洞察发起调研
2025-08-16 20:23:00
聚焦长春农博会 |达人带队“云逛展”!展位直售实时互动
8月16日,2025吉林农博会进入第二天,热度持续飙升!吉林省流量经济赋能电商直播达人罗凤魁农博现场化身“农博导游”,深入选品会合作企业展位
2025-08-16 22:00:00