• 我的订阅
  • 科技

文生视频让自动驾驶看到新方向

类别:科技 发布时间:2024-03-14 05:26:00 来源:每日看点快看

本文转自:广州日报

港科大(广州)人工智能专家陈颖聪:

文生视频让自动驾驶看到新方向

文生视频让自动驾驶看到新方向

来源:视觉中国

文生视频让自动驾驶看到新方向

陈颖聪

近年来,生成式人工智能在AI技术应用中成为焦点,尤其是文本生成视频大模型Sora,近来更是在全球范围内激发了科技创新的热潮。香港科技大学(广州)人工智能学领域助理教授兼博士生导师陈颖聪教授,作为计算机视觉与机器学习学域的资深研究者,对文本生成视频技术的最新发展保持着高度关注。近日,这位人工智能领域专家在接受本报记者专访时分享了他对Sora大模型以及文本生成视频技术前景的洞见。

文、图/广州日报全媒体记者 肖欢欢、张慧琪(除署名外)

以海量数据“试错” Sora向“世界模型”迈进

陈颖聪教授认为,Sora最引人注目的特质之一,是其作为一个初步的“世界模型”或“世界模拟器”的潜能。“这意味着,Sora仿佛通过观察整个世界从而对它形成了自己的理解,并能据此预测未来世界的某些发展趋势。”例如,当一个孩子看到球落地后会弹起,尽管他可能不理解物理学中的弹力概念,但这并不妨碍他预测球下一次落地时还会弹起;同理,Sora通过分析至少数十亿张图片和上百万段视频数据,能够预测出一个球落地时的反弹高度甚至是反弹次数。“这背后的神经网络隐含了客观世界的运作规则。它展现了理解、重构及模拟这个世界的可能性。”

陈颖聪教授指出,长期以来,机器与真实世界的互动成本极高,科学家们因此希望在虚拟世界中构建一个遵循现实世界物理规则的模型,以便于机器进行“试错”。而Sora的研究方向赋予了实现这一目标的希望。“通过‘观察’大量数据,Sora学会了现实世界运作的基础规律。它必须在有限的神经网络容量限制下对海量的图像与视频进行复现,这一过程中,Sora必须将其观察到的数据进行高效压缩。通过其展示视频的三维一致性与时序合理性,我们有理由相信,那庞大的神经网络已经理解了客观世界的一些物理规律,未来仍需深入研究。”

陈颖聪教授表示,虽然Sora目前还不能精确模拟出真实世界中更复杂的因果关系,但它为生成式AI成为“世界模拟器”提供了一条非常有潜力的路径。通过学习如何合理生成视频,Sora揭示了其背后的客观规律,这种方法与传统的先编码后渲染模型的做法截然不同,未来有望从根本上颠覆人类研究和理解世界的范式。

Sora或可预测“短期未来” 有望提升自动驾驶安全性

自Sora面世以来,其在广泛的应用领域展现出的潜力让众多业界人士感到惊讶。陈颖聪教授认为,文生视频技术不仅能够直接应用于视频和动画制作、广告、游戏等与视频生成紧密相关的领域,还能为人工智能相关的许多领域带来革新性的思考。

“尽管Sora在理解物理规律方面仍有待完善,但作为一个‘世界模型’的原型,它预示着通用人工智能(AGI)发展的重大进步。”陈颖聪教授指出,文本生成视频技术除了将对视频编辑与生成相关应用造成直接影响外,也将为人工智能其它领域带来广泛影响。“比如与自动驾驶的结合,AI不仅能够在短时间内帮助自动驾驶模型掌握复杂场景下的应对策略,还有望解决自动驾驶领域面临的一些难题,为行业注入新活力。”

他表示:“目前自动驾驶技术发展受制于一个关键问题:现有自动驾驶模型主要基于车辆当前的感知结果来决定下一步动作,缺乏对未来复杂路况的有效预测,进而限制了系统提前预判未来情况的能力。”而Sora所具备的生成连续、合理视频序列的能力,展现了其在短期未来预测方面的潜力。若能有效利用这一特性,自动驾驶系统将能更加准确地进行预判性行为,显著提升车辆的安全性能。

“想象一下,假如AI能看到一分钟后的不同可能的未来,这将使其在应对复杂的驾驶环境时能够做出最优选择。这对于提升未来自动驾驶的安全性将是一个质的飞跃。而安全性无疑是自动驾驶技术发展的最大挑战。”陈颖聪教授如是说。

他指出,Sora还能在解决自动驾驶技术中的长尾问题上发挥作用。所谓长尾问题,指的是一系列罕见的场景、极端情况以及难以预测的人类行为。目前,该领域的人工智能技术主要通过收集实际道路数据来训练模型。然而,由于极端情况在现实道路中出现的频率极低,导致数据的多样性和完整性受到限制,进而影响了模型的泛化能力和准确性。而Sora通过优化和训练,可以生成近乎真实的仿真数据,这不仅为自动驾驶模型的快速优化和迭代提供了可能,还能够主动生成长尾问题场景的数据,提高算法的可靠性,为自动驾驶技术的进一步优化和升级提供坚实保障。

从视频到3D资产 生成式AI前景不可限量

陈颖聪教授表示,Sora是生成式AI的典型代表。而生成式AI是这些年AI技术的应用热门方向,他和团队正在进行的一个重要研究就是文本生成3D模型。“文本生成3D模型之所以成为生成式AI行业的热门话题,主要原因是它在各个领域的广泛应用,比如可与3D资产生成结合,有望提升3D资产生成的质量与多样性。”

陈颖聪教授介绍,数字3D资产可以实现全面的可视化以及与反映我们现实世界体验的复杂环境和对象的交互。“过去设计师从概念提出到三维建模的完成,需要30小时~200小时;而生成式AI非常有潜力将这件事情缩短到一天甚至数小时。以Sora为代表的文生视频模型,未来有望进一步提升3D资产生成的质量。”

陈颖聪教授介绍,人工智能生成三维数据存在诸多难题。难题之一是可学习的三维数据量小且不满足多样性要求。为解决这一问题,很多学者从二维图像中学习并生成三维数据。经过持续改良,陈颖聪教授团队搭建出的模型生成的3D模型分辨率更高,渲染效果更好,生成效率也有了显著提升。并且,生成3D模型的渲染方式与传统计算机图形学有非常紧密的关系,且其生成结果可以直接在标准的图像软件中进行查看,而生成的3D模型可以直接用于工业和设计用途。

陈颖聪教授告诉记者,如今他和团队研发的文本生成3D模型技术可用于游戏开发、建筑设计、电影和动画制作、工业制造等领域。比如在建筑设计领域,建筑设计师可以使用三维生成技术更快速地创建建筑模型和可视化效果图,提高工作效率和精确性;在电影和动画制作领域,可以使用三维生成技术创建逼真的三维场景和角色,并实现复杂的视觉效果;在虚拟现实(VR)领域,可以使用三维生成技术创建逼真的虚拟世界和角色,提高虚拟现实的真实感和沉浸感;在工业制造领域,制造商可以使用三维生成技术更快速地创建零部件和模具,提高生产效率,降低制造成本。

陈颖聪教授展望,随着Sora这类文本生成视频模型的崛起,未来3D资产的生成质量有望得到进一步提升。“目前由Sora生成的视频已展现出卓越的三维一致性,我们团队正致力于研究如何利用这一特性,更加精准地创造复杂的三维场景。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-14 08:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

魔珐科技CEO柴金祥:3D虚拟人,将成为AIGC的终极形态
...量的数据训练和推理方法论,全球市场上也涌现出了各类文生文、文生图的人工智能应用,为内容行业增加了更多可能性。“不过,文生文、文生图是AIGC(人工智能自动生成内容)的终点吗?
2023-08-22 20:01:00
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...大模型团队自研打造的视频生成大模型CogVideoX,现已支持文生视频、图生视频多个能力,让用户“自助式”地完成艺术视频创作,首发测试期间,所有用户均可免费使用。同时,付费5
2024-07-27 10:00:00
本文转自:广州日报2月16日凌晨,OpenAI突然发布首个文生视频模型Sora,其横空出世对AI大模型行业无疑是继ChatGPT之后的又一次大震动。近日,同济大学艺术与传媒学院副
2024-02-23 04:01:00
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...,围绕基于大语言模型的多模态模型的探索尤为突出,如文生图、文生音乐等应用,这些模型通过整合视觉、文本等多种信息形式,丰富了AI的理解和表达能力,为构建更加细致和动态的世界模拟
2024-04-10 10:41:00
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
人工智能(AI)巨头OpenAI又出王炸,其最新推出的文生视频大模型Sora因其“逼真”和“富有想象力”被广泛赞誉,其生成视频可达60秒也颠覆了传统视频生成领域平均只有4秒的视频生成长度
2024-02-19 08:10:00
马斯克宣称特斯拉视频生成技术超越OpenAI
近日,科技界掀起了一股文生视频模型的热潮,而OpenAI发布的首个文生视频模型Sora无疑是其中的佼佼者。用户只需输入一句话,Sora便能迅速生成长达1分钟的高清视频,其创新性和
2024-02-21 00:33:00
股价“一”字涨停 当虹科技称文生视频技术已取得一定进展
...公司相关负责人在接受北京商报记者采访时表示,公司的文生视频技术已取得一定进展。交易行情显示,2月19日,当虹科技全天报涨停价23.63元/股,涨幅为20.01%,总市值为26
2024-02-19 16:13:00
全网刷频的Sora,有多“可怕”
...预兆和消息透露的情况下,OpenAI 突然发布了自己的首个文生视频模型:Sora,大幅刷新行业多个指标,重新定义了 AI 文生视频在现阶段的技术极限
2024-02-19 09:22:00
人工智能热度攀升市场广阔
今年以来,人工智能产业热度持续攀升。文生视频软件Sora、文生音乐软件Suno等人工智能应用不断涌现,带给人们冲击的同时,也在影响着千行百业。本报今起推出“聚焦人工智能发展”系列
2024-04-22 10:41:00
更多关于科技的资讯:
新春佳节,当千家万户沉浸在团圆的喜悦中时,在宁波,有这样一群人,他们为了赶订单、保交付,选择坚守生产一线。据统计,今年春节期间
2026-02-23 17:31:00
定义AI数字化增长服务新模式 数织沅码亮相多地春晚舞台
2026年春节,AI驱动企业全球数字化增长的专业服务平台——数织沅码登陆江苏卫视、浙江卫视等多地春晚舞台,完成首次公开亮相
2026-02-23 11:47:00
中国科技品牌绿联推进充电宝品质升级,让充电更安心
对用户而言,充电宝早已不是偶尔应急的配件,而是通勤、差旅、校园与户外场景中的常备装备。行业也普遍认为,当快充普及、多设备协同成为日常
2026-02-23 13:11:00
引言:腥风血雨已至,智能体元年全面爆发2026年的春天,人工智能领域正经历一场前所未有的变革。当全球科技巨头仍在为生成式AI的迭代速度激烈竞逐时
2026-02-23 13:12:00
以武会春,宇树春晚机器人马年秀出“赛博真功夫”
新春启序,万象更新。在中央广播电视总台2026年春晚舞台上,宇树科技作为春晚机器人合作伙伴第三次登台亮相,携G1与H2人形机器人献上全球首次全自主人形机器人集群武术表演(带集群快速跑位)
2026-02-23 11:47:00
大年初六,位于余杭区“中国飞谷”的重隼智能科技(浙江)有限公司马力全开,以开局即冲刺的姿态,奋力跑出新年发展第一棒。“作为一家深耕无人机具身智能集成创新的科技型企业
2026-02-23 07:58:00
2月20日上午9时,太原武宿综合保税区A座环球优选品牌店的大门准时开启,300余款新春礼盒整齐排列,品类丰富,琳琅满目
2026-02-23 07:29:00
“十五五”开局看河北|淡季不淡,冀东普天产销两旺
新年首月销售额近8000万元,同比增长14.3%淡季不淡,冀东普天产销两旺1月26日,冀东普天线缆有限公司工人正在优化生产设备
2026-02-23 07:37:00
河北日报讯(记者孙也达)2月14日,秦皇岛晟成自动化设备有限公司生产的全球首台套出口型电磁加热多层层压机完成拆解,运往美国
2026-02-23 07:48:00
双轮驱动,智启未来:刘晓春与AI智能体×机器人“姊妹组合战略”的全球布局
2026,智能时代的分水岭2026年的春天,马年春晚的舞台上,一场科技盛宴惊艳了全球观众——30多台国产机器人协同起舞
2026-02-22 12:05:00
新春走基层丨厦企加快数字化转型步伐 提前返岗忙生产赶订单
明翰电气的工人春节期间坚守岗位。(记者 林铭鸿 摄)厦门网讯(厦门日报记者 林露虹)放置材料、调试机台……正月初五,厦门明翰电气股份有限公司(以下简称“明翰电气”)已忙碌起来
2026-02-22 08:50:00
新春走基层 | 森一量子为赶订单全员在线 生产线满负荷运转
昨日记者走进森一量子,这一企业春节期间全员加班加点。厦门网讯(厦门日报记者 李晓平)长晶、 切割、减薄、抛光、镀膜……当大多数人还沉浸在春节的喜庆中
2026-02-22 08:50:00
我带着一款AI眼镜回家过年
记者带回家的AI眼镜二伯买的宇树机器狗Go2今年的春晚有一个格外醒目的变化——“AI含量”明显提升。年夜饭桌上,亲戚们都在聊各自手机里的各种“AI”App
2026-02-22 07:49:00
中国科大实现碳化硅改性双空位色心的电荷态调控
大皖新闻讯 2月21日,大皖新闻记者从中国科学技术大学获悉,该校郭光灿院士团队在碳化硅改性双空位色心电荷态调控的研究中取得了新进展
2026-02-21 16:48:00
戛纳世界人工智能大会探讨“音乐人工智能”
中国青年报客户端讯(中青报·中青网记者 蒋肖斌)2026戛纳世界人工智能大会(WAICF 2026),近日在法国戛纳举办
2026-02-21 12:10:00