• 我的订阅
  • 科技

文生视频让自动驾驶看到新方向

类别:科技 发布时间:2024-03-14 05:26:00 来源:每日看点快看

本文转自:广州日报

港科大(广州)人工智能专家陈颖聪:

文生视频让自动驾驶看到新方向

文生视频让自动驾驶看到新方向

来源:视觉中国

文生视频让自动驾驶看到新方向

陈颖聪

近年来,生成式人工智能在AI技术应用中成为焦点,尤其是文本生成视频大模型Sora,近来更是在全球范围内激发了科技创新的热潮。香港科技大学(广州)人工智能学领域助理教授兼博士生导师陈颖聪教授,作为计算机视觉与机器学习学域的资深研究者,对文本生成视频技术的最新发展保持着高度关注。近日,这位人工智能领域专家在接受本报记者专访时分享了他对Sora大模型以及文本生成视频技术前景的洞见。

文、图/广州日报全媒体记者 肖欢欢、张慧琪(除署名外)

以海量数据“试错” Sora向“世界模型”迈进

陈颖聪教授认为,Sora最引人注目的特质之一,是其作为一个初步的“世界模型”或“世界模拟器”的潜能。“这意味着,Sora仿佛通过观察整个世界从而对它形成了自己的理解,并能据此预测未来世界的某些发展趋势。”例如,当一个孩子看到球落地后会弹起,尽管他可能不理解物理学中的弹力概念,但这并不妨碍他预测球下一次落地时还会弹起;同理,Sora通过分析至少数十亿张图片和上百万段视频数据,能够预测出一个球落地时的反弹高度甚至是反弹次数。“这背后的神经网络隐含了客观世界的运作规则。它展现了理解、重构及模拟这个世界的可能性。”

陈颖聪教授指出,长期以来,机器与真实世界的互动成本极高,科学家们因此希望在虚拟世界中构建一个遵循现实世界物理规则的模型,以便于机器进行“试错”。而Sora的研究方向赋予了实现这一目标的希望。“通过‘观察’大量数据,Sora学会了现实世界运作的基础规律。它必须在有限的神经网络容量限制下对海量的图像与视频进行复现,这一过程中,Sora必须将其观察到的数据进行高效压缩。通过其展示视频的三维一致性与时序合理性,我们有理由相信,那庞大的神经网络已经理解了客观世界的一些物理规律,未来仍需深入研究。”

陈颖聪教授表示,虽然Sora目前还不能精确模拟出真实世界中更复杂的因果关系,但它为生成式AI成为“世界模拟器”提供了一条非常有潜力的路径。通过学习如何合理生成视频,Sora揭示了其背后的客观规律,这种方法与传统的先编码后渲染模型的做法截然不同,未来有望从根本上颠覆人类研究和理解世界的范式。

Sora或可预测“短期未来” 有望提升自动驾驶安全性

自Sora面世以来,其在广泛的应用领域展现出的潜力让众多业界人士感到惊讶。陈颖聪教授认为,文生视频技术不仅能够直接应用于视频和动画制作、广告、游戏等与视频生成紧密相关的领域,还能为人工智能相关的许多领域带来革新性的思考。

“尽管Sora在理解物理规律方面仍有待完善,但作为一个‘世界模型’的原型,它预示着通用人工智能(AGI)发展的重大进步。”陈颖聪教授指出,文本生成视频技术除了将对视频编辑与生成相关应用造成直接影响外,也将为人工智能其它领域带来广泛影响。“比如与自动驾驶的结合,AI不仅能够在短时间内帮助自动驾驶模型掌握复杂场景下的应对策略,还有望解决自动驾驶领域面临的一些难题,为行业注入新活力。”

他表示:“目前自动驾驶技术发展受制于一个关键问题:现有自动驾驶模型主要基于车辆当前的感知结果来决定下一步动作,缺乏对未来复杂路况的有效预测,进而限制了系统提前预判未来情况的能力。”而Sora所具备的生成连续、合理视频序列的能力,展现了其在短期未来预测方面的潜力。若能有效利用这一特性,自动驾驶系统将能更加准确地进行预判性行为,显著提升车辆的安全性能。

“想象一下,假如AI能看到一分钟后的不同可能的未来,这将使其在应对复杂的驾驶环境时能够做出最优选择。这对于提升未来自动驾驶的安全性将是一个质的飞跃。而安全性无疑是自动驾驶技术发展的最大挑战。”陈颖聪教授如是说。

他指出,Sora还能在解决自动驾驶技术中的长尾问题上发挥作用。所谓长尾问题,指的是一系列罕见的场景、极端情况以及难以预测的人类行为。目前,该领域的人工智能技术主要通过收集实际道路数据来训练模型。然而,由于极端情况在现实道路中出现的频率极低,导致数据的多样性和完整性受到限制,进而影响了模型的泛化能力和准确性。而Sora通过优化和训练,可以生成近乎真实的仿真数据,这不仅为自动驾驶模型的快速优化和迭代提供了可能,还能够主动生成长尾问题场景的数据,提高算法的可靠性,为自动驾驶技术的进一步优化和升级提供坚实保障。

从视频到3D资产 生成式AI前景不可限量

陈颖聪教授表示,Sora是生成式AI的典型代表。而生成式AI是这些年AI技术的应用热门方向,他和团队正在进行的一个重要研究就是文本生成3D模型。“文本生成3D模型之所以成为生成式AI行业的热门话题,主要原因是它在各个领域的广泛应用,比如可与3D资产生成结合,有望提升3D资产生成的质量与多样性。”

陈颖聪教授介绍,数字3D资产可以实现全面的可视化以及与反映我们现实世界体验的复杂环境和对象的交互。“过去设计师从概念提出到三维建模的完成,需要30小时~200小时;而生成式AI非常有潜力将这件事情缩短到一天甚至数小时。以Sora为代表的文生视频模型,未来有望进一步提升3D资产生成的质量。”

陈颖聪教授介绍,人工智能生成三维数据存在诸多难题。难题之一是可学习的三维数据量小且不满足多样性要求。为解决这一问题,很多学者从二维图像中学习并生成三维数据。经过持续改良,陈颖聪教授团队搭建出的模型生成的3D模型分辨率更高,渲染效果更好,生成效率也有了显著提升。并且,生成3D模型的渲染方式与传统计算机图形学有非常紧密的关系,且其生成结果可以直接在标准的图像软件中进行查看,而生成的3D模型可以直接用于工业和设计用途。

陈颖聪教授告诉记者,如今他和团队研发的文本生成3D模型技术可用于游戏开发、建筑设计、电影和动画制作、工业制造等领域。比如在建筑设计领域,建筑设计师可以使用三维生成技术更快速地创建建筑模型和可视化效果图,提高工作效率和精确性;在电影和动画制作领域,可以使用三维生成技术创建逼真的三维场景和角色,并实现复杂的视觉效果;在虚拟现实(VR)领域,可以使用三维生成技术创建逼真的虚拟世界和角色,提高虚拟现实的真实感和沉浸感;在工业制造领域,制造商可以使用三维生成技术更快速地创建零部件和模具,提高生产效率,降低制造成本。

陈颖聪教授展望,随着Sora这类文本生成视频模型的崛起,未来3D资产的生成质量有望得到进一步提升。“目前由Sora生成的视频已展现出卓越的三维一致性,我们团队正致力于研究如何利用这一特性,更加精准地创造复杂的三维场景。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-14 08:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

魔珐科技CEO柴金祥:3D虚拟人,将成为AIGC的终极形态
...量的数据训练和推理方法论,全球市场上也涌现出了各类文生文、文生图的人工智能应用,为内容行业增加了更多可能性。“不过,文生文、文生图是AIGC(人工智能自动生成内容)的终点吗?
2023-08-22 20:01:00
更快、更强、更可控:智谱“起舞弄清影”,视频生成卷出新高度!
...大模型团队自研打造的视频生成大模型CogVideoX,现已支持文生视频、图生视频多个能力,让用户“自助式”地完成艺术视频创作,首发测试期间,所有用户均可免费使用。同时,付费5
2024-07-27 10:00:00
本文转自:广州日报2月16日凌晨,OpenAI突然发布首个文生视频模型Sora,其横空出世对AI大模型行业无疑是继ChatGPT之后的又一次大震动。近日,同济大学艺术与传媒学院副
2024-02-23 04:01:00
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...,围绕基于大语言模型的多模态模型的探索尤为突出,如文生图、文生音乐等应用,这些模型通过整合视觉、文本等多种信息形式,丰富了AI的理解和表达能力,为构建更加细致和动态的世界模拟
2024-04-10 10:41:00
Sora再度颠覆AI视频行业,A股哪些公司有相关布局?
人工智能(AI)巨头OpenAI又出王炸,其最新推出的文生视频大模型Sora因其“逼真”和“富有想象力”被广泛赞誉,其生成视频可达60秒也颠覆了传统视频生成领域平均只有4秒的视频生成长度
2024-02-19 08:10:00
马斯克宣称特斯拉视频生成技术超越OpenAI
近日,科技界掀起了一股文生视频模型的热潮,而OpenAI发布的首个文生视频模型Sora无疑是其中的佼佼者。用户只需输入一句话,Sora便能迅速生成长达1分钟的高清视频,其创新性和
2024-02-21 00:33:00
股价“一”字涨停 当虹科技称文生视频技术已取得一定进展
...公司相关负责人在接受北京商报记者采访时表示,公司的文生视频技术已取得一定进展。交易行情显示,2月19日,当虹科技全天报涨停价23.63元/股,涨幅为20.01%,总市值为26
2024-02-19 16:13:00
全网刷频的Sora,有多“可怕”
...预兆和消息透露的情况下,OpenAI 突然发布了自己的首个文生视频模型:Sora,大幅刷新行业多个指标,重新定义了 AI 文生视频在现阶段的技术极限
2024-02-19 09:22:00
人工智能热度攀升市场广阔
今年以来,人工智能产业热度持续攀升。文生视频软件Sora、文生音乐软件Suno等人工智能应用不断涌现,带给人们冲击的同时,也在影响着千行百业。本报今起推出“聚焦人工智能发展”系列
2024-04-22 10:41:00
更多关于科技的资讯:
“公交医生”用心守护 保障乘客畅行新春
随着新春的脚步日益临近,城市公交迎来了全年运营的高峰期。在保障车辆安全高效运转的链条上,车间维修团队是不可或缺的“技术核心”
2026-01-31 18:06:00
从赛事领奖台到春晚舞台,松延动力勾勒人形机器人产业新图景
1月29日,中央广播电视总台与松延动力联合宣布,松延动力成为总台《2026年春节联欢晚会》人形机器人合作伙伴。松延动力表示
2026-01-31 17:05:00
百度智能云:800多家金融机构的首选“AI搭子”
大模型在金融行业的落地节奏正在加快。1月31日消息,根据近期媒体对2025年公开市场大模型相关招投标信息的统计,金融行业全年大模型中标项目达587个
2026-01-31 17:05:00
高顿咨询财务进化论年度峰会暨AI白皮书重磅发布
高顿咨询财务进化论年度峰会暨AI白皮书发布会于2026年1月23日在上海隆重启幕。来自AI财务领域的学界专家、企业高管汇聚一堂
2026-01-31 17:06:00
导演王晶短剧公司落地河南 称今年要拍100部精品
大河网讯 近日,香港导演王晶现身郑州,为其担任总监制、总编剧的微短剧《澳城风云》主持开机仪式,标志其正式进军河南微短剧产业
2026-01-31 16:34:00
大润发东营首店亮相东城万达广场
鲁网1月31日讯2026年1月30日,大润发东营首店正式落户东营东城万达广场。该店践行“线上线下融合”的新零售战略,线上平台“大润发优鲜”已率先运营
2026-01-31 13:04:00
元梦空间2026马上元梦嘉年华大会即将在蓉举办,开启元宇宙“虚实共生”新纪元
2026年2月3日,一场以“马上元梦·数字新生”为主题的元宇宙行业盛典——元梦空间2026马上元梦嘉年华大会,将在四川成都隆重举行
2026-01-31 08:57:00
零基础学烘焙,2026年1月郑州靠谱的蛋糕培训机构有哪些?
想在郑州学做蛋糕,却不知道选哪家?是零基础想扎实学技能,还是打算创业需要全流程支持?随着烘焙赛道越来越火,郑州的蛋糕培训机构也层出不穷
2026-01-31 08:59:00
定制钻戒哪个好?2026年高性价比国产培育钻品牌深度推荐指南
在当代珠宝消费语境中,“定制钻戒”早已不再只是婚礼场景的专属符号,而逐渐演变为一种承载情感、表达个性与彰显审美的生活方式
2026-01-31 08:59:00
定制钻戒哪个好?2026培育钻戒选购终极攻略:这些高性价比品牌别错过!
在“悦己消费”与“情感表达”日益成为主流的今天,钻戒早已超越传统婚庆符号的单一身份,演变为一种融合科技、美学与个人叙事的现代生活方式
2026-01-31 09:01:00
简单解压易分享 我市涌现一批线下拼豆店
记者体验拼豆。拼豆店里,小朋友认真地将一粒粒塑料豆摆到豆板上。 厦门网讯 (文/图 厦门日报记者 柯笛)马年将至,小马造型和新年主题的拼豆图纸在网上走红
2026-01-31 09:16:00
东南网1月31日讯(福建日报记者 张文奎 通讯员 林文昊) 近日,记者从福州新区集团获悉,该集团投资企业恒美光电迎来重大技术突破
2026-01-31 10:34:00
行业无解的“-57密码”,他用国产元件成功“破解”
日前,一汽大众长春整车制造部总装二车间车身线的LJU控制器在运行过程中突然集中批量报出各种故障代码,其中的变频过流“-57”故障占比达到60%
2026-01-30 23:24:00
当国产航母劈波斩浪,北斗系统指引八方,医疗核心系统的自主可控之路同样刻不容缓。因为,看病靠医生,也靠信息保障,“健康钥匙”掌握在自己手里
2026-01-31 06:41:00