• 我的订阅
  • 科技

首个文生视频模型Sora是人类助手还是对手?

类别:科技 发布时间:2024-02-23 04:01:00 来源:每日看点快看

本文转自:广州日报

2月16日凌晨,OpenAI突然发布首个文生视频模型Sora,其横空出世对AI大模型行业无疑是继ChatGPT之后的又一次大震动。近日,同济大学艺术与传媒学院副院长、教授王建民,复旦大学新闻学院教授、博士生导师邓建国,上海交通大学电子信息与电气工程学院教授马利庄等专家接受了广州日报记者专访,针对Sora的现实意义、对未来的影响以及或许会产生的风险、伦理等问题进行了探讨。

文/广州日报全媒体记者李晓璐、贺涵甫

Sora背后的技术水平远不止60秒?

王建民教授介绍,不同于市面上现有的AI视频模型仅能生成不足10秒且镜头视角单一、内容失真的视频,Sora的视频生成长度不仅一次性提升15倍——突破到60秒,在内容的稳定性上也有不小的提升,不仅实现单视频的多角度镜头切换,也最大限度还原真实场景。

马利庄教授进一步解析Sora的技术原理,Sora是将原始视频通过一个视觉编码器编码到隐空间形成隐时空块,这些隐时空块(结合文本信息)通过三维Transformer结构做扩散模型的训练和生成,将生成的隐时空块再通过视觉解码器解码到像素空间,生成目标视频。

王建民教授补充道,“Sora从文本转换成60秒视频是一次技术突破,而这只是公开数据,其背后的实际技术水平应该远不止60秒。”

Sora未来自己能造出元宇宙?

OpenAI发布的技术报告题目上写道:以视频生成模型作为世界模拟器。王建民教授解析,这说明Sora不仅能够生成短视频,而且能够学会现实世界的物理规律,并由此进行一定的拓展,将前后视频帧之间进行数据弥补,模拟与现实世界类似的影像,也是文生视频模型的一大进步。言下之意,Sora不再只是需要人类“投喂”数据的单一技术,而可以通过自己学习,从目前世界上现有的视频影像中习得这些规律和变化。

王建民教授预计,或许不超过两年,OpenAI就会将Sora发展成能如同电影《黑客帝国》中展现的内容般创建矩阵,自己创造包括元宇宙在内的虚拟世界,那么这项技术未来发展的现实意义,与真实世界的链接都是我们需要思考的方向。

Sora究竟会抢工作还是好帮手?

王建民教授并不认为Sora会完全取代传统影视业、广告业中的岗位,而是替换部分岗位的能力需求,同时催生另一部分新岗位,比如视频策划师、视频评审人员等,也让更多非专业人士有机会从事与视频创作相关的工作,从社会层面来说,反而是将这些行业推广开来。未来谁能用好这些新领域中的工具,激发更多创造力,谁就有可能成为下一个“王家卫”。

邓建国教授强调,Sora对于新闻业的冲击并没有那么大,新闻报道追求真实(facts),而Sora几乎全是虚拟(fictions),因此和ChatGPT不同,Sora从本质上对新闻业应用面不广,甚至只有坏处没有好处,除非新闻业沦为“创意业”。“Sora唯一可以被新闻业利用的,也许是记者建构在新闻事实基础上的新闻现场情景再现。‘视频记者’这四个字中重要的不是‘视频’而是‘记者’。如果记者没有脚力、眼力、脑力和笔力,而仅仅满足于坐在空调房里进行网络内容搜索和拼凑,或者不断使用人工智能炮制内容,那么这些记者在任何时候都应该被人工智能替代。”

邓建国教授还指出,新闻业不能将对“新闻”的追逐异化成对“技术”的追逐。新媒介技术如果有利于更好地报道新闻,则应该尽快采纳,如果不利于更好地报道新闻,则应暂缓采纳。在各种“虚拟现实”技术盛行的今天,新闻业应该更加坚守“现实”本身。

王建民教授表示,人工智能是未来多个专业的学科发展趋势,学术界很早就已经接受、理解并开展了一系列学习规划。学校也一直在思考如何利用好这些变化,引导学生学习并合理合规使用好这些新工具。

邓建国教授表示,在人工智能快速发展的大背景下,每一个人都应该保持对新事物的敏感性,勇于尝试,在一定程度上“有知”,不要因为无知而产生不必要的恐慌。

Sora带来伦理、知识产权新课题?

马利庄教授强调,与静态图片相比,逼真的虚拟视频更具有危险性和蛊惑性,可能产生虚假宣传、谣言传播、金融诈骗等,危害公共安全。这也需要关于AI生成虚拟视频创作的相关法律法规来配套约束。

王建民教授也谈及他对未来Sora正式投放使用或许会产生的伦理风险的担忧,比如视频真假、视频是否符合正确的三观和普遍的社会价值,尤其是视频传播对于社会的影响力远大于文字和图片,因此如何把控尺度,在有限的范围内用好这些软件是未来大家都需要面对的新课题。

对此,邓建国教授也聊到了深度伪造等Sora未来可能会带来的伦理风险,但目前来看,相关科技公司本身设有一些技术防范。他建议人工智能公司、专家、政府、媒体等各方面应该协同合作,商讨研制出一个切实有效的方案,确保人类社会秩序的稳固性。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-02-23 05:46:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

360智脑大模型重新定义AI数字人
...图像处理能力、语音处理能力以及视频处理能力,可实现文生文、文生图、文生表、图生图、图生文、视频理解等功能。会上,360智脑“文生视频”多模态功能国内首发,任何文字脚本都可生成
2023-06-14 12:18:00
腾讯混元大模型批量上新:10秒生成AI图像,超过180个腾讯业务接入 | 最前线
...载的“灵感”模块,已经能生成相当合理、逼真的图像。文生图是AIGC领域的核心技术之一,也是体现通用大模型能力的试金石,对模型算法、训练平台、算力设施都有较高的要求。在用户侧,
2023-10-29 10:13:00
钉钉“魔法棒”实测来了!生成文案、拍照生成程序、打工人不需再“爬楼”
...能力,如钉钉群聊、文档及应用开发等,所涉及能力包含文生文、文生图、摘要提取和应用生成等生成式 AI 能力:IM:群消息摘要、答疑机器人文档:文生文、文生图、文生表格(PC端)
2023-06-01 09:55:00
Sora冲击波 抢人“饭碗”促生新职业?
2月19日,春节后第一个交易日,Sora相关概念(文生视频)股集体走高,会畅通讯、C易点、当虹科技、因赛集团、万兴科技20CM涨停,华扬联众、新国脉、新华网涨停封板。在文生视频的
2024-03-02 09:59:00
...(记者 魏蔚)10月26日,腾讯混元大模型正式对外开放“文生图”功能。目前该功能已被用于素材创作、商品合成、游戏出图等多项业务中,在广告业务下的多轮测评中,腾讯混元文生图的案
2023-10-26 18:20:00
周鸿祎 落子
...多模态能力各种「兜底」。多模态听着艰涩,说人话就是文生文、文生图、文生表、图生图、图生文、视频理解等涵括文字、图像、语音及视频的处理能力。周鸿祎认为,中国自研大模型弯道超车的
2023-06-15 13:34:00
人工智能热度攀升市场广阔
今年以来,人工智能产业热度持续攀升。文生视频软件Sora、文生音乐软件Suno等人工智能应用不断涌现,带给人们冲击的同时,也在影响着千行百业。本报今起推出“聚焦人工智能发展”系列
2024-04-22 10:41:00
马斯克说人类愿赌服输!OpenAI首个文生视频模型炸街,哪些行业又将颠覆
...扔出了杀手锏。当地时间2月15日,OpenAI宣布,正在研发“文生视频”模型Sora,可以创建长达60秒的视频,其中包含高度详细的场景
2024-02-16 19:23:00
让一台普通PC欢快地跑起AIGC:Intel做到了!
...丰富场景,普通用户能够最直接感受到的当属AIGC,包括文生文、文生图、图生图、文生视频、图生视频等等。而要想实现足够实用的AIGC,从算力强大的硬件到参数丰富的大模型,从精确
2023-10-08 21:39:00
更多关于科技的资讯: