汽车零部件Ⅱ:Sora的诞生对智能驾驶行业的影响.pdf

目Sora是文生视频的集大成者,核心创新点在于时空编码和DiT模型。Sora是Open Al推出的首个文本生视频模型,视频生成长度、逼真度等均远超现有竞品。从技术上看,Sora的核心创新点在于时空编码和DiffusionTransformer模型的应用。1)Spacetime patches时空编码将一个完整视频切分成带有时间维度的一系列Tokens输入Transformer模型,时空编码的引入是Sora能够进行大规模视频数据训练的关键,同时为Sora的生成结果具备三维一致性奠定了基础。2)DiT模型结合了Diffusion扩散模型和Transformer模型的优点,将传统扩散模型中采用的U-Net网络结构替换成Transformer,使得模型更擅长捕捉长距离的相关关系。
目Sora验证了Diffusion+Transformer的技术路线或是通往世界模型的
有效技术路径。神经网络模型的预测结果是概率输出,目前尚不具备因果关系的推断能力,因此推理结果可能会出现常识错误或者违背现实物理规律。而学界提出的世界模型概念旨在希望神经网络模型可以像人类一样理解世界,具体可概括为具备以下三个特点:1)理解物理世界运行规律,像
人一样具备常识。2)具备泛化到训练样本以外的能力。3)可以基于记忆进行自我演进。目前关于世界模型的技术路径尚有争议,但从Open Al的官方展示视频来看,Sora已经具备了世界模型的雏形,对于真实物理世界有一定的模拟能力。因此我们认为Sora采用的Diffusion+Transformer的技术路线或许是通往世界模型的有效技术路径。
目特斯拉同样基于与Sora相似的技术路径已开始对世界模型进行探索。
早在2023年6月召开的CVPR会议上,特斯拉已经分享了对于世界模型的
探索,Demo展示效果惊艳:1)可以同时对车身周围八个摄像头周围未来
情况进行预测;2)可以精准的模拟过去难以描述的场景(如烟尘);3)可
以根据动作指令调节;4)可以用来做分割任务。根据特斯拉CVPR上的演
讲及马斯克推特的公开回复,可以推断特斯拉大概率和Open Al一样采用
的是Diffusion+Transformer生成式Al的技术路线。而Sora的成功已经
率先在AGI领域验证了这条技术路线的可行性,由此我们认为World Model
应用于智能驾驶的时代亦将加速到来。
目世界模型中短期内应用于仿真环节,长期作为智驾基座大模型,引领行业迈向L5时代。世界模型在智能驾驶中的应用有望最先在仿真环节落地,推动仿真场景泛化能力提升。当前智能驾驶仿真采用NeRF+素材库排列组合+游戏引擎的技术路线,虽然保证了场景的真实性但泛化性不足。世界模型能够理解物理世界运行规律、同时具备泛化到训练样本以外的能力,因此世界模型能够迅速生成非常真实和多样化的驾驶场景用于智能驾驶仿真。长期来看世界大模型有望成为智驾的基座大模型,所有的智能驾驶下游任务都可以通过简单的插入任务头来实现。届时,智能驾驶将不再存在corner case,智能驾驶的驾驶安全性、驾驶效率都将占优于人类驾驶员。风险提示:技术进步不及预期、市场竞争加剧。1.Sora验证了DiT模型的有效性,具备世界模型的雏形
1.1.Sora是文生视频技术的集大成者,核心创新点在于时空编码及DiT模型Sora是Open Al推出的首个文生视频模型,效果远超现有竞品。一方面Sora大幅提升了行业视频生成长度,Sora可一次性生成60s高质量视频,远超此前Pika的3秒、Runaway Gen2的16秒。并且Sora可在单个视频中进行多镜头切换,并保证了场景、物体在3D空间内的一致性。从技术原理上看,Sora本质上依然是基于Transformer模型,由Transformer三大
组件构成。包括:1)Visual Encoder模块:根本目的是将一个视频通过一系列操作进行Token化(即时空编码Spacetime patches);2)Diffusion Transformer模块:用于视频的生成;
3)Transformer Decoder:将生成的潜在表示映射回像素空间。其中Sora的核心创新点在于时空编码和Diffusion Transformer模型的应用。(关于Transformer模型的分析解读可参考我们此前的报告《Al大模型在自动驾驶中的应用》)
图1.Sora由Transformer三大组件构成

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)