天极大咖秀

登录 | 申请注册

AI视频生成大模型Sora来了,中国厂商会跟进吗?

紫金财观 2024-12-16 阅读: 5,701 次

QQ图片20241211092836

(本文系紫金财经原创稿件,转载请注明来源)

继ChatGPT之后,OpenAI又在文生视频的领域扔下一颗深水炸弹。

当地时间12月9日,Open AI宣布,旗下最新版本的视频生成大模型Sora Turbo正式面向公众推出,用户可以通过文字、图像或其他视频素材,生成长达20秒的视频。目前,该工具已在美国和其他部分市场面向ChatGPT Plus和Pro用户开放。

Sora官网上线后,用户蜂拥而入,OpenAI CEO山姆·奥尔特曼(Sam Altman)表示:“我们严重低估了Sora的需求,要让每个人都能访问还需要一段时间。”

作为AI领域的一面旗帜,OpenAI发布的Sora如“鲇鱼”般搅动着国内的AI市场。自Sora首次公开展示后,不少互联网大厂和人工智能公司纷纷跟进视频大模型这一赛道,并取得了一定的成效。

Sora“虽迟但到”

今年2月,OpenAI首次推出其文生视频模型Sora,因视频效果逼真、时长可达1分钟引发全球关注。

OpenAI当时表示,Sora为模型理解和模拟现实世界奠定了基础,相信这一能力将成为实现通用人工智能的关键里程碑。不过之后很长一段时间,Sora一直未对公众开放,只有部分艺术家、电影制作人和安全测试人员可以使用。

等了大半年,Sora终于不再只是艺术家们的工具。不过,此次公开提供给付费用户使用的Sora Turbo版本生成时长最多20秒,而非Sora首次公开展示时的1分钟。

相比旧版本,Sora新版本有哪些“进阶”?

首先是多模态输入支持。Sora-Turbo进一步扩展了输入形式,支持文本、图像以及现有视频的多模态输入。例如,用户可以上传一张静态图像为其生成动画,或对已有视频进行扩展以补全缺失帧。这种灵活性为创作者提供了更多可能性,显著拓宽了模型的应用场景。

其次是更高的生成质量。Sora-Turbo能够生成分辨率高达1080p的视频,并支持生成最长可达20秒的动态内容。这种优化不仅提升了生成视频的视觉细腻度,还显著增强了场景的连贯性与动态表现。

初始视频生成后,用户如果需要优化,可通过Remix工具来操作。为此,Sora还设置了细微、轻微、强力三种强度,以满足用户不同的更改需求。

总的来说,Sora 除了在生成视频上的出色表现之外,它还带来了更独有的视频创作产品功能,相当于给视频加分镜、剪辑、特效等等。这意味着,每个人都有机会创作出自己真正想要的视频。

定价方面,Sora Turbo将免费提供给ChatGPT Plus和Pro用户,每月月租20美元(约合人民币145元)的Plus用户,每月最多可以生成50个480P分辨率的优先视频;Pro订阅者则最多可生成500个优先视频,普通视频无限量生成,可下载无水印版视频,对应每月费用为200美元(约合1450元)。

需要注意的是,Sora暂不支持ChatGPT Team、Enterprise和Edu用户,也不向18岁以下用户开放。此外,英国、瑞士和欧盟等地区目前无法访问Sora。

中国厂商态度有点不一样

继今年2月OpenAI发布Sora样片以来,国内多家厂商抓住机会抢先入场,推出了文生视频产品,包括字节、快手、阿里云、腾讯、美图等在内的互联网厂商,以及Minimax、智谱、爱诗科技与生数科技等大模型初创厂商等都在快速跟进。

4月,生成式人工智能基础设施及应用提供商生数科技,发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

11月,字节跳动旗下的AI内容平台即梦AI宣布推出自研的视频生成模型Seaweed,现已正式向用户开放。用户只需登录平台,选择“视频生成”功能下的“视频S2.0”即可开始体验这一创新工具。

12月,腾讯混元大模型上线了视频生成能力,并开源了参数量130亿的视频生成大模型HunYuan-Vieo。据称该模型是业界参数最大的开源视频模型,可生成5秒视频……

值得一提的是,视频生成赛道不再延续GPT时代的发展模式,即OpenAI打出一张王牌,国内科技企业抢着跟进。这一次有点不同,国内没有重现语言大模型的盛况,甚至有厂商明确表示不会跟进。

Sora问世之后,百川智能创始人王小川表示,团队有人提出要做Sora,但他明确表态称不会跟进这个方向。

同样想法的还有百度创始人李彦宏,尽管百度已经在视频生成领域取得了一定的成果,但他不做Sora的态度也非常坚决,原因是Sora的商业化可能要五年甚至十年,目前百度更聚焦在大语言模型、多模态大模型,没有类Sora的产品化尝试。

总结下来,国内公司不跟进Sora的原因可能主要有以下两点:

一方面是出于技术考量,Sora的技术路线是Diffusion+Transformer相结合,通过文本、图片、视频作为提示词生成视频。但该技术路线目前存在不少争议,如李飞飞、Lecun等学术大神认为,Sora不能实现AGI,其根本不是真正的“世界模型”,并且仍会面临GPT4的巨大瓶颈。

另一方面是出于对商业化前景的担忧,Sora的商业化可能需要五年甚至十年,投资回报周期长。目前国内公司更关注短期内能够带来商业价值和收益的项目,对于需要长期投入且前景不明朗的视频生成领域,会更加谨慎。

紫金财观
聚焦*头条的泛财经、TMT资讯!

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)