• 我的订阅
  • 科技

文生视频让自动驾驶看到新方向

类别:科技 发布时间:2024-03-14 05:26:00 来源:每日看点快看

本文转自:广州日报

港科大(广州)人工智能专家陈颖聪:

文生视频让自动驾驶看到新方向

文生视频让自动驾驶看到新方向

来源:视觉中国

文生视频让自动驾驶看到新方向

陈颖聪

近年来,生成式人工智能在AI技术应用中成为焦点,尤其是文本生成视频大模型Sora,近来更是在全球范围内激发了科技创新的热潮。香港科技大学(广州)人工智能学领域助理教授兼博士生导师陈颖聪教授,作为计算机视觉与机器学习学域的资深研究者,对文本生成视频技术的最新发展保持着高度关注。近日,这位人工智能领域专家在接受本报记者专访时分享了他对Sora大模型以及文本生成视频技术前景的洞见。

文、图/广州日报全媒体记者 肖欢欢、张慧琪(除署名外)

以海量数据“试错” Sora向“世界模型”迈进

陈颖聪教授认为,Sora最引人注目的特质之一,是其作为一个初步的“世界模型”或“世界模拟器”的潜能。“这意味着,Sora仿佛通过观察整个世界从而对它形成了自己的理解,并能据此预测未来世界的某些发展趋势。”例如,当一个孩子看到球落地后会弹起,尽管他可能不理解物理学中的弹力概念,但这并不妨碍他预测球下一次落地时还会弹起;同理,Sora通过分析至少数十亿张图片和上百万段视频数据,能够预测出一个球落地时的反弹高度甚至是反弹次数。“这背后的神经网络隐含了客观世界的运作规则。它展现了理解、重构及模拟这个世界的可能性。”

陈颖聪教授指出,长期以来,机器与真实世界的互动成本极高,科学家们因此希望在虚拟世界中构建一个遵循现实世界物理规则的模型,以便于机器进行“试错”。而Sora的研究方向赋予了实现这一目标的希望。“通过‘观察’大量数据,Sora学会了现实世界运作的基础规律。它必须在有限的神经网络容量限制下对海量的图像与视频进行复现,这一过程中,Sora必须将其观察到的数据进行高效压缩。通过其展示视频的三维一致性与时序合理性,我们有理由相信,那庞大的神经网络已经理解了客观世界的一些物理规律,未来仍需深入研究。”

陈颖聪教授表示,虽然Sora目前还不能精确模拟出真实世界中更复杂的因果关系,但它为生成式AI成为“世界模拟器”提供了一条非常有潜力的路径。通过学习如何合理生成视频,Sora揭示了其背后的客观规律,这种方法与传统的先编码后渲染模型的做法截然不同,未来有望从根本上颠覆人类研究和理解世界的范式。

Sora或可预测“短期未来” 有望提升自动驾驶安全性

自Sora面世以来,其在广泛的应用领域展现出的潜力让众多业界人士感到惊讶。陈颖聪教授认为,文生视频技术不仅能够直接应用于视频和动画制作、广告、游戏等与视频生成紧密相关的领域,还能为人工智能相关的许多领域带来革新性的思考。

“尽管Sora在理解物理规律方面仍有待完善,但作为一个‘世界模型’的原型,它预示着通用人工智能(AGI)发展的重大进步。”陈颖聪教授指出,文本生成视频技术除了将对视频编辑与生成相关应用造成直接影响外,也将为人工智能其它领域带来广泛影响。“比如与自动驾驶的结合,AI不仅能够在短时间内帮助自动驾驶模型掌握复杂场景下的应对策略,还有望解决自动驾驶领域面临的一些难题,为行业注入新活力。”

他表示:“目前自动驾驶技术发展受制于一个关键问题:现有自动驾驶模型主要基于车辆当前的感知结果来决定下一步动作,缺乏对未来复杂路况的有效预测,进而限制了系统提前预判未来情况的能力。”而Sora所具备的生成连续、合理视频序列的能力,展现了其在短期未来预测方面的潜力。若能有效利用这一特性,自动驾驶系统将能更加准确地进行预判性行为,显著提升车辆的安全性能。

“想象一下,假如AI能看到一分钟后的不同可能的未来,这将使其在应对复杂的驾驶环境时能够做出最优选择。这对于提升未来自动驾驶的安全性将是一个质的飞跃。而安全性无疑是自动驾驶技术发展的最大挑战。”陈颖聪教授如是说。

他指出,Sora还能在解决自动驾驶技术中的长尾问题上发挥作用。所谓长尾问题,指的是一系列罕见的场景、极端情况以及难以预测的人类行为。目前,该领域的人工智能技术主要通过收集实际道路数据来训练模型。然而,由于极端情况在现实道路中出现的频率极低,导致数据的多样性和完整性受到限制,进而影响了模型的泛化能力和准确性。而Sora通过优化和训练,可以生成近乎真实的仿真数据,这不仅为自动驾驶模型的快速优化和迭代提供了可能,还能够主动生成长尾问题场景的数据,提高算法的可靠性,为自动驾驶技术的进一步优化和升级提供坚实保障。

从视频到3D资产 生成式AI前景不可限量

陈颖聪教授表示,Sora是生成式AI的典型代表。而生成式AI是这些年AI技术的应用热门方向,他和团队正在进行的一个重要研究就是文本生成3D模型。“文本生成3D模型之所以成为生成式AI行业的热门话题,主要原因是它在各个领域的广泛应用,比如可与3D资产生成结合,有望提升3D资产生成的质量与多样性。”

陈颖聪教授介绍,数字3D资产可以实现全面的可视化以及与反映我们现实世界体验的复杂环境和对象的交互。“过去设计师从概念提出到三维建模的完成,需要30小时~200小时;而生成式AI非常有潜力将这件事情缩短到一天甚至数小时。以Sora为代表的文生视频模型,未来有望进一步提升3D资产生成的质量。”

陈颖聪教授介绍,人工智能生成三维数据存在诸多难题。难题之一是可学习的三维数据量小且不满足多样性要求。为解决这一问题,很多学者从二维图像中学习并生成三维数据。经过持续改良,陈颖聪教授团队搭建出的模型生成的3D模型分辨率更高,渲染效果更好,生成效率也有了显著提升。并且,生成3D模型的渲染方式与传统计算机图形学有非常紧密的关系,且其生成结果可以直接在标准的图像软件中进行查看,而生成的3D模型可以直接用于工业和设计用途。

陈颖聪教授告诉记者,如今他和团队研发的文本生成3D模型技术可用于游戏开发、建筑设计、电影和动画制作、工业制造等领域。比如在建筑设计领域,建筑设计师可以使用三维生成技术更快速地创建建筑模型和可视化效果图,提高工作效率和精确性;在电影和动画制作领域,可以使用三维生成技术创建逼真的三维场景和角色,并实现复杂的视觉效果;在虚拟现实(VR)领域,可以使用三维生成技术创建逼真的虚拟世界和角色,提高虚拟现实的真实感和沉浸感;在工业制造领域,制造商可以使用三维生成技术更快速地创建零部件和模具,提高生产效率,降低制造成本。

陈颖聪教授展望,随着Sora这类文本生成视频模型的崛起,未来3D资产的生成质量有望得到进一步提升。“目前由Sora生成的视频已展现出卓越的三维一致性,我们团队正致力于研究如何利用这一特性,更加精准地创造复杂的三维场景。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-14 08:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

魔珐科技CEO柴金祥:3D虚拟人,将成为AIGC的终极形态
...量的数据训练和推理方法论,全球市场上也涌现出了各类文生文、文生图的人工智能应用,为内容行业增加了更多可能性。“不过,文生文、文生图是AIGC(人工智能自动生成内容)的终点吗?
2023-08-22 20:01:00
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...大模型团队自研打造的视频生成大模型CogVideoX,现已支持文生视频、图生视频多个能力,让用户“自助式”地完成艺术视频创作,首发测试期间,所有用户均可免费使用。同时,付费5
2024-07-27 10:00:00
本文转自:广州日报2月16日凌晨,OpenAI突然发布首个文生视频模型Sora,其横空出世对AI大模型行业无疑是继ChatGPT之后的又一次大震动。近日,同济大学艺术与传媒学院副
2024-02-23 04:01:00
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...,围绕基于大语言模型的多模态模型的探索尤为突出,如文生图、文生音乐等应用,这些模型通过整合视觉、文本等多种信息形式,丰富了AI的理解和表达能力,为构建更加细致和动态的世界模拟
2024-04-10 10:41:00
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
人工智能(AI)巨头OpenAI又出王炸,其最新推出的文生视频大模型Sora因其“逼真”和“富有想象力”被广泛赞誉,其生成视频可达60秒也颠覆了传统视频生成领域平均只有4秒的视频生成长度
2024-02-19 08:10:00
股价“一”字涨停 当虹科技称文生视频技术已取得一定进展
...公司相关负责人在接受北京商报记者采访时表示,公司的文生视频技术已取得一定进展。交易行情显示,2月19日,当虹科技全天报涨停价23.63元/股,涨幅为20.01%,总市值为26
2024-02-19 16:13:00
马斯克宣称特斯拉视频生成技术超越OpenAI
近日,科技界掀起了一股文生视频模型的热潮,而OpenAI发布的首个文生视频模型Sora无疑是其中的佼佼者。用户只需输入一句话,Sora便能迅速生成长达1分钟的高清视频,其创新性和
2024-02-21 00:33:00
全网刷频的Sora,有多“可怕”
...预兆和消息透露的情况下,OpenAI 突然发布了自己的首个文生视频模型:Sora,大幅刷新行业多个指标,重新定义了 AI 文生视频在现阶段的技术极限
2024-02-19 09:22:00
人工智能热度攀升市场广阔
今年以来,人工智能产业热度持续攀升。文生视频软件Sora、文生音乐软件Suno等人工智能应用不断涌现,带给人们冲击的同时,也在影响着千行百业。本报今起推出“聚焦人工智能发展”系列
2024-04-22 10:41:00
更多关于科技的资讯:
“只剩最后500单!”“3、2、1,上链接!”近日,某直播平台上,一名美妆主播正卖力推销一款“限量”粉底液,评论区不断涌现“已拍”“再加点货吧”等留言
2025-10-21 16:44:00
近日,滨海新区知识产权保护中心(以下简称滨海保护中心)通过专业预审服务,高效护航天津医科大学眼科医院科研团队自主研发的“干细胞内囊泡制备与应用”系列专利技术
2025-10-21 15:54:00
驼奶粉行业峰会召开:京东超市与头部企业携手共建“安心驼奶粉”验证方案
10月20日,京东2025驼奶粉行业峰会在京召开,大会以“品质溯源、产业共生”为主题,聚焦行业痛点与机遇,通过多方联动促进产业链健康发展
2025-10-21 11:11:00
江西10家企业入选“中国VR50强企业”
本报讯(全媒体记者左阳天)10月19日,“2025中国VR50强企业”名单正式发布,这是“中国VR50强企业”名单连续第七年发布
2025-10-21 05:52:00
校地专场对接会上,我市一批“钢铁新农人”集中显身手“火眼金睛”识熟果 自动采摘不伤花□南京日报/紫金山新闻记者徐宁果园里
2025-10-21 07:44:00
青春华章 | 南京微短剧产业联盟成立,“攥指成拳”闯千亿级赛道
南京微短剧产业联盟成立,“攥指成拳”闯千亿级赛道共聚“微”光,好“剧”有戏□南京日报/紫金山新闻记者鲁舒婷近260家相关企业
2025-10-21 07:45:00
培育产业向“新”力 2025厦门国际时尚周圆满落幕
2025厦门国际时尚周在中山路举行,精彩活动吸引众多市民游客。“九球天后”潘晓婷亮相2025厦门国际时尚周。厦门国际时尚周助力首发经济
2025-10-20 08:56:00
总台文创“月兔趣集”数字资产盲盒上线乐数通
中秋佳节,为推动中华优秀传统文化在数字时代实现创造性转化与创新性发展,浙江文化产权交易所(以下简称 “浙江文交所”)携手中央广播电视总台“总台文创”
2025-10-20 14:50:00
向“新”求质 | 潍柴雷沃智慧农业领航智能农机加速出海
鲁网10月20日讯10月17日-10月18日,潍柴雷沃智慧农业2025年全球合作伙伴发展大会在青岛举行。25款明星机型组成的“全矩阵”智能装备军团震撼列阵
2025-10-20 16:39:00
鸢都家电狂欢“三联家电10.25海信来了”引爆金秋消费季
鲁网10月20日讯 金秋消费季迎来重磅炸弹!三联家电宣布将于10月24日至26日启动年度促销活动——“10.25海信来了”
2025-10-20 16:46:00
战略协同 产品赋能 运营提效丨潍柴雷沃智慧农业2025年全球合作伙伴发展大会召开
鲁网10月20日讯10月17日-18日,以“战略协同·产品赋能·运营提效”为主题的潍柴雷沃智慧农业2025年全球合作伙伴发展大会在青岛召开
2025-10-20 16:47:00
日前,中国联通、中国移动、中国电信相继宣布,已获得工信部批复,在全国范围开展eSIM手机业务商用试验。这标志着,移动手机彻底告别实体SIM卡的时代正在从愿景走向现实
2025-10-20 17:37:00
从山海通信到智慧出行: OPPO携多项技术创新成果亮相中国移动全球合作伙伴大会
日前,以“碳硅共生 合创AI+时代”为主题的2025中国移动全球合作伙伴大会在广州隆重举办。作为中国移动的重要合作伙伴
2025-10-20 20:00:00
从“黑色黄金”到“智慧矿藏”山东移动“海陆空”一体化擘画智慧油田新蓝图
在国家坚定不移推进能源安全新战略的时代背景下,我国能源行业的数字化转型正加速驶入深水区。在渤海之滨的东营,山东移动围绕胜利油田的智能化需求
2025-10-20 20:25:00
鲁网10月20日讯近日,国家数据局公布《2025年可信数据空间创新发展试点名单》,山东省唯一一个企业级国家试点项目——东营“华泰纸业可信数据空间创新发展试点”成功入选
2025-10-20 20:26:00