背景提要:
随着科技的飞速发展,人工智能领域正迎来前所未有的变革。在视频赛道上,人工智能的推进速度超乎想象,从pika、runaway、fliki到现今引爆全球热议的Sora,技术的迭代周期已从几年缩短至数月。
Sora作为新一代的世界模拟器,其颠覆性不仅在于视频生成的速度与质量,更在于其拟合真实物理定律、模拟现实世界的能力。从模拟物体运动轨迹到刻画细微的皮肤瑕疵、手部动作,Sora的表现令人惊叹。
这一技术的出现,无疑对影视、动画、游戏等行业产生了深远的影响。
然而,Sora的出现也引发了一系列伦理和法律问题。当AI生成的视频与现实拍摄的内容难以分辨时,“有视频有真相”的传统观念将受到严重挑战。特别是在司法领域,视频证据的真实性和可信度将面临前所未有的考验。
此外,随着AI技术的不断发展,我们如何界定真实与虚拟的界限?我们的世界是否只是某种高级文明编写的代码?这些问题值得我们深入思考。
在中国,虽然人工智能的起步相对较晚,但发展势头迅猛。可以预见的是,在不久的将来,中国也将出现类似Sora的高品质AI生成视频服务。在这场全球技术竞赛中,中国将不断追赶并努力超越。
就此,针对这些热点话题,日前我做客《北京新闻广播·新闻天天谈》节目,就以Sora为代表的AI服务生成视频技术的发展趋势、伦理挑战以及行业影响等话题谈了一些观点和看法。
今天分享出来节目干货,供大家参考。
1、视频赛道的人工智能发展以难以想象的速度在推进,从pika、runaway、fliki,再到现在的Sora,这种迭代速度不是几年,而是几个月。Sora与上述应用有何不同?是颠覆性的吗?
丁道师:上述几款产品在去年就火爆出圈了,不过他们的定位是AI视频生成工具,而Sora的定义是世界模拟器。
世界模拟器,可拟合更多真实物理定律的数字孪生世界。举个简单的例子,近期非常火的那个AI视频中,有人咬了一口面包,面包上出现了咬掉的缺口,而之前的视频生成工具不具备这样的理解真实世界的能力。吃一口面包,面包缺了一块角,这就是咱们真实世界的物理规则,现在居然被Sora理解并且呈现了出来。
再举个例子,当你扔一个球时,它会沿着一个抛物线轨迹飞行,并最终落地。Sora可以模拟这个过程,考虑到重力、空气阻力以及球的初始速度和角度。这是以往的同类型产品,所不具备的。
所以,Sora的出现一定是颠覆性的,它能够快速地服务于我们的工作和生活中来。
2、Sora生成的视频中,流传最广的、也是这两天最受热议的就是一位身穿黑色皮衣、红裙、戴墨镜的女士,她走在夜晚的城市街头,镜头对脸部细节的表现,皮肤瑕疵清晰可见,人工智能一直刻画不好的手部,也非常逼真。Sora到底能做什么?
丁道师:与其讨论Sora到底能做什么,不如讨论Sora不能做什么。
生产视频内容只是Sora的表面能力,作为一个世界模拟器,我很期待或者说很担心,它会让AI模拟人的情绪、人的情感。
前两年的电影《失控玩家》大家看过吧,扮演死侍的瑞安雷诺兹演的。他作为一个AI人,在更新的引擎加持下,有了自己的独立意识和思考,变得不可控。我现在很担心,未来短短几年内,用AI生成的世界中的人或者动物,就会有了自己的情感或者思想,尽管这种情感可能只是模拟出来的。
但假如模拟出来的情感可以以假乱真的话,那现实和虚拟的界限究竟是什么?
3、这样的出品效果,让视频素材行业、3D效果制作公司、动画师等行业和人员瑟瑟发抖。有被取代之忧吗?
丁道师:这个话题是近期备受热议的,确实,游戏、影视、动画领域首先会受到影响。
这些行业要完蛋or开启新纪元?
我认为,积极拥抱者生,对抗或者忽视者亡。从历史角度看,每一次技术革新都伴随着一些行业的衰退和新的行业的崛起。然而,这并不意味着旧有的行业会完全消失,而是需要适应新的技术环境,进行创新和变革。就如同马车夫面对汽车的兴起,如果积极转型学习开车,工作可以继续下去,反之亦然。
如果选择积极拥抱这样的新技术,影视行业可能会开启一个新的纪元。新的的技术可以大大提高视频制作的效率和质量,降低制作成本,使得更多的创意和故事能够被呈现出来。想想那些动辄2亿美元的好莱坞A级大制作吧,把这些钱拿来训练人工智能,未来一部A级大制作成本会缩减到几千万甚至更低。
同时,通过与人工智能的合作,影视行业可能会催生出全新的艺术形式和表达方式,满足观众不断增长和多样化的需求。比如一部虚拟现实电影,观众可以穿戴VR设备进入电影场景,与角色进行互动,影响剧情发展。
4、尽管目前生成的demo只有60秒,但Sora的出现,是否会颠覆影视行业,包括短视频、电影,您怎么看?
丁道师:什么是电影?电影是由无数个几秒、几十秒镜头组成的长视频。所以,现在Sora的60秒一点都不是问题。现在就已经可以用Sora生成一部大电影了,只需要把几百个视频剪辑到一起即可。
未来,影视行业必须积极拥抱这种新技术和新变化,抵抗是抵抗不了的。我们要学习100多年前的马车夫。当汽车出现之后,不要抵制,而是去学习开车。
5、有图有真相已经被颠覆了,此前一些AI生成的视频还有破绽,如今几乎看不出破绽,有视频有真相是否也面临挑战,后续可能带来哪些影响?
丁道师:我最担心的还是对司法领域的挑战。
传统意义上,“有视频有真相”意味着视频作为直接证据,可以真实反映某一事件或事实。在司法领域,视频证据往往具有重要的证明力,可以帮助法庭还原案件真相,确保司法公正。
近年备受公众热议的几起案子,都是因为有视频记录,才让公众得知了真相,并且作为了有关部门裁定的依据。
然而,Sora能够根据用户输入的文字自动生成长达一分钟的视频,并且这些生成的视频与现实拍摄的内容难以分辨。这一技术的出现无疑对“有视频有真相”的传统观念提出了严峻的挑战。视频的真实性变得扑朔迷离,我们不能再简单地认为“看到的视频就是真相”。
Sora的出现,无疑对当下的司法界提出了新的挑战。这就倒逼我们的司法机构需要建立更加完善的视频证据审查机制。这包括加强技术手段的运用,对视频进行源头验证、内容分析比对等,以确定视频的真实性和完整性。同时,还需要加强对视频获取方式、保存过程等的审查,以确保视频的可信度。
可是,现在存在一个现象在于“网友替司法先一步给人判刑”,Sora对舆论走向的冲击和影响,最终反过来也会影响到司法公正。真正的挑战,还在后头?
6、OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型帮助人们解决需要现实世界交互的问题。这该如何理解?未来希望Sora能做什么?
丁道师:这就是咱们一开始谈的,Sora不是一个简单的适配生成器,而是时间模拟器。
过去几年,有个词汇大家应该都听过,叫做“数字孪生”,指的是充分利用物理模型、传感器更新、运行历史等数据,集成多学科、多物理量、多尺度、多概率的仿真过程,在虚拟空间中完成映射,从而反映相对应的现实世界的全生命周期过程。
以前,数字孪生只是一个概念,有了Sora,数字孪生可以变成现实了。
那它有什么用?举个例子,我们要搞一个科学研发,有多条路径、多种材料、多种模式可以选择,那么哪种方式是正确的呢?我们不知道,所以要投入精力和资源,一条条去验证。而未来,在模拟世界中就可以验证了,过程大大缩短,资金大大节约。
举个不恰当的例子,假如爱迪生有Sora这种模拟器,它就不用试验6000多种材料,才找到适合电灯泡的灯丝了。
7、Sora未来可能是一个世界模拟器,不禁让人有种楚门的世界的感觉,到底什么是真实的?什么是虚拟的?我们该如何看待?
丁道师:是的,这个话题也是我这段时间反复思考的。《楚门的世界》《黑客帝国》《失控玩家》这些电影的基础设定,很可能不是幻想,而是真实世界的一种可能性。
我们的世界,乃至我们的意识,是否也只是某种高级文明编写的复杂代码?在这个模拟世界中,我们所经历的一切,包括情感、记忆和认知,是否都只是代码运行的结果?
想象一下,如果我们的言行举止,甚至我们自以为是的独立思考,都只是某个更高文明操控下的代码表达,那将意味着什么?
8、中国何时出现类似Sora的产品?
丁道师:面对美国科技行业“再一次引领潮流”,我们也没必要气馁。事实上,中国的大模型,也已经对“AI生成视频”有了投入和储备。以百度文心一言为例,去年就有了一键流影,只不过表现力不如Sora。
中国的人工智能起步虽然比美国晚,但发展并不慢。我们可以大胆预估,在2024年内,中国就会出现高品质的AI生成视频的服务。
在这其中,我认为百度的文心一言和科大讯飞的星火大模型,是最有可能率先突破的。因为,早在“大模型”这个概念火爆之前,百度和科大讯飞就已经连续多年重仓AI,并且有了海量落地实践。况且,最近一年中国出现的200多个大模型中,文心和星火的表现也最好。