猜想：中国版Sora，百度和科大讯飞最有可能率先突破

背景提要：

随着科技的飞速发展，人工智能领域正迎来前所未有的变革。在视频赛道上，人工智能的推进速度超乎想象，从pika、runaway、fliki到现今引爆全球热议的Sora，技术的迭代周期已从几年缩短至数月。

Sora作为新一代的世界模拟器，其颠覆性不仅在于视频生成的速度与质量，更在于其拟合真实物理定律、模拟现实世界的能力。从模拟物体运动轨迹到刻画细微的皮肤瑕疵、手部动作，Sora的表现令人惊叹。

这一技术的出现，无疑对影视、动画、游戏等行业产生了深远的影响。

然而，Sora的出现也引发了一系列伦理和法律问题。当AI生成的视频与现实拍摄的内容难以分辨时，“有视频有真相”的传统观念将受到严重挑战。特别是在司法领域，视频证据的真实性和可信度将面临前所未有的考验。

此外，随着AI技术的不断发展，我们如何界定真实与虚拟的界限?我们的世界是否只是某种高级文明编写的代码?这些问题值得我们深入思考。

在中国，虽然人工智能的起步相对较晚，但发展势头迅猛。可以预见的是，在不久的将来，中国也将出现类似Sora的高品质AI生成视频服务。在这场全球技术竞赛中，中国将不断追赶并努力超越。

就此，针对这些热点话题，日前我做客《北京新闻广播·新闻天天谈》节目，就以Sora为代表的AI服务生成视频技术的发展趋势、伦理挑战以及行业影响等话题谈了一些观点和看法。

今天分享出来节目干货，供大家参考。

　1、视频赛道的人工智能发展以难以想象的速度在推进，从pika、runaway、fliki，再到现在的Sora，这种迭代速度不是几年，而是几个月。Sora与上述应用有何不同?是颠覆性的吗?

丁道师：上述几款产品在去年就火爆出圈了，不过他们的定位是AI视频生成工具，而Sora的定义是世界模拟器。

世界模拟器，可拟合更多真实物理定律的数字孪生世界。举个简单的例子，近期非常火的那个AI视频中，有人咬了一口面包，面包上出现了咬掉的缺口，而之前的视频生成工具不具备这样的理解真实世界的能力。吃一口面包，面包缺了一块角，这就是咱们真实世界的物理规则，现在居然被Sora理解并且呈现了出来。

再举个例子，当你扔一个球时，它会沿着一个抛物线轨迹飞行，并最终落地。Sora可以模拟这个过程，考虑到重力、空气阻力以及球的初始速度和角度。这是以往的同类型产品，所不具备的。

所以，Sora的出现一定是颠覆性的，它能够快速地服务于我们的工作和生活中来。

2、Sora生成的视频中，流传最广的、也是这两天最受热议的就是一位身穿黑色皮衣、红裙、戴墨镜的女士，她走在夜晚的城市街头，镜头对脸部细节的表现，皮肤瑕疵清晰可见，人工智能一直刻画不好的手部，也非常逼真。Sora到底能做什么?

丁道师：与其讨论Sora到底能做什么，不如讨论Sora不能做什么。

生产视频内容只是Sora的表面能力，作为一个世界模拟器，我很期待或者说很担心，它会让AI模拟人的情绪、人的情感。

前两年的电影《失控玩家》大家看过吧，扮演死侍的瑞安雷诺兹演的。他作为一个AI人，在更新的引擎加持下，有了自己的独立意识和思考，变得不可控。我现在很担心，未来短短几年内，用AI生成的世界中的人或者动物，就会有了自己的情感或者思想，尽管这种情感可能只是模拟出来的。

但假如模拟出来的情感可以以假乱真的话，那现实和虚拟的界限究竟是什么?

3、这样的出品效果，让视频素材行业、3D效果制作公司、动画师等行业和人员瑟瑟发抖。有被取代之忧吗?

丁道师：这个话题是近期备受热议的，确实，游戏、影视、动画领域首先会受到影响。

这些行业要完蛋or开启新纪元?

我认为，积极拥抱者生，对抗或者忽视者亡。从历史角度看，每一次技术革新都伴随着一些行业的衰退和新的行业的崛起。然而，这并不意味着旧有的行业会完全消失，而是需要适应新的技术环境，进行创新和变革。就如同马车夫面对汽车的兴起，如果积极转型学习开车，工作可以继续下去，反之亦然。

如果选择积极拥抱这样的新技术，影视行业可能会开启一个新的纪元。新的的技术可以大大提高视频制作的效率和质量，降低制作成本，使得更多的创意和故事能够被呈现出来。想想那些动辄2亿美元的好莱坞A级大制作吧，把这些钱拿来训练人工智能，未来一部A级大制作成本会缩减到几千万甚至更低。

同时，通过与人工智能的合作，影视行业可能会催生出全新的艺术形式和表达方式，满足观众不断增长和多样化的需求。比如一部虚拟现实电影，观众可以穿戴VR设备进入电影场景，与角色进行互动，影响剧情发展。

　4、尽管目前生成的demo只有60秒，但Sora的出现，是否会颠覆影视行业，包括短视频、电影，您怎么看?

丁道师:什么是电影?电影是由无数个几秒、几十秒镜头组成的长视频。所以，现在Sora的60秒一点都不是问题。现在就已经可以用Sora生成一部大电影了，只需要把几百个视频剪辑到一起即可。

未来，影视行业必须积极拥抱这种新技术和新变化，抵抗是抵抗不了的。我们要学习100多年前的马车夫。当汽车出现之后，不要抵制，而是去学习开车。

5、有图有真相已经被颠覆了，此前一些AI生成的视频还有破绽，如今几乎看不出破绽，有视频有真相是否也面临挑战，后续可能带来哪些影响?

丁道师：我最担心的还是对司法领域的挑战。

传统意义上，“有视频有真相”意味着视频作为直接证据，可以真实反映某一事件或事实。在司法领域，视频证据往往具有重要的证明力，可以帮助法庭还原案件真相，确保司法公正。

近年备受公众热议的几起案子，都是因为有视频记录，才让公众得知了真相，并且作为了有关部门裁定的依据。

然而，Sora能够根据用户输入的文字自动生成长达一分钟的视频，并且这些生成的视频与现实拍摄的内容难以分辨。这一技术的出现无疑对“有视频有真相”的传统观念提出了严峻的挑战。视频的真实性变得扑朔迷离，我们不能再简单地认为“看到的视频就是真相”。

Sora的出现，无疑对当下的司法界提出了新的挑战。这就倒逼我们的司法机构需要建立更加完善的视频证据审查机制。这包括加强技术手段的运用，对视频进行源头验证、内容分析比对等，以确定视频的真实性和完整性。同时，还需要加强对视频获取方式、保存过程等的审查，以确保视频的可信度。

可是，现在存在一个现象在于“网友替司法先一步给人判刑”，Sora对舆论走向的冲击和影响，最终反过来也会影响到司法公正。真正的挑战，还在后头?

6、OpenAI表示，他们正在教AI理解和模拟运动中的物理世界，目标是训练模型帮助人们解决需要现实世界交互的问题。这该如何理解?未来希望Sora能做什么?

丁道师：这就是咱们一开始谈的，Sora不是一个简单的适配生成器，而是时间模拟器。

过去几年，有个词汇大家应该都听过，叫做“数字孪生”，指的是充分利用物理模型、传感器更新、运行历史等数据，集成多学科、多物理量、多尺度、多概率的仿真过程，在虚拟空间中完成映射，从而反映相对应的现实世界的全生命周期过程。

以前，数字孪生只是一个概念，有了Sora，数字孪生可以变成现实了。

那它有什么用?举个例子，我们要搞一个科学研发，有多条路径、多种材料、多种模式可以选择，那么哪种方式是正确的呢?我们不知道，所以要投入精力和资源，一条条去验证。而未来，在模拟世界中就可以验证了，过程大大缩短，资金大大节约。

举个不恰当的例子，假如爱迪生有Sora这种模拟器，它就不用试验6000多种材料，才找到适合电灯泡的灯丝了。

7、Sora未来可能是一个世界模拟器，不禁让人有种楚门的世界的感觉，到底什么是真实的?什么是虚拟的?我们该如何看待?

丁道师：是的，这个话题也是我这段时间反复思考的。《楚门的世界》《黑客帝国》《失控玩家》这些电影的基础设定，很可能不是幻想，而是真实世界的一种可能性。

我们的世界，乃至我们的意识，是否也只是某种高级文明编写的复杂代码?在这个模拟世界中，我们所经历的一切，包括情感、记忆和认知，是否都只是代码运行的结果?

想象一下，如果我们的言行举止，甚至我们自以为是的独立思考，都只是某个更高文明操控下的代码表达，那将意味着什么?

8、中国何时出现类似Sora的产品?

丁道师：面对美国科技行业“再一次引领潮流”，我们也没必要气馁。事实上，中国的大模型，也已经对“AI生成视频”有了投入和储备。以百度文心一言为例，去年就有了一键流影，只不过表现力不如Sora。

中国的人工智能起步虽然比美国晚，但发展并不慢。我们可以大胆预估，在2024年内，中国就会出现高品质的AI生成视频的服务。

在这其中，我认为百度的文心一言和科大讯飞的星火大模型，是最有可能率先突破的。因为，早在“大模型”这个概念火爆之前，百度和科大讯飞就已经连续多年重仓AI，并且有了海量落地实践。况且，最近一年中国出现的200多个大模型中，文心和星火的表现也最好。

猜想：中国版Sora，百度和科大讯飞最有可能率先突破

特别声明：文章版权归原作者所有，文章内容为作者个人观点，不代表大咖秀专栏的立场，转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)