拳打Gen-2脚踢Pika，谷歌爆肝7个月祭出AI视频大模型！首提时空架构，时长史诗级延长

摘要：风格化生成Lumiere能生成各种指定艺术风格的视频。STUNet架构带来的全新突破这次，谷歌的研究者采用了跟以往不同的方法，引入了新的T2V扩散框架，该框架可以立即生成视频的完整持续时间。研究者应用Lumiere图像到视频生成，以ImagenVideo生成的视频的第一帧为条件，可视化相应的X-T切片。...

深度学习专家经过7个月的奋斗，谷歌终于推出了AI视频大模型Lumiere，颠覆了AI视频的游戏规则。这一全新架构在视频时长和一致性方面实现了重大突破，直接压倒了Gen-2和Pika。

与以往的视频生成模型不同，Lumiere采用了最先进的时空U-Net架构，可以在一次一致的通道中生成整个视频，而不是像以往的模型一样对生成的简短视频进行时间采样。

这一新架构可以显著增加生成视频的长度和质量，让视频呈现出更高的连贯性和运动幅度。论文指出，Lumiere可以直接生成5秒长的80帧视频，比以往大多数模型生成的视频更为连贯。

此外，Lumiere还具有丰富的功能，比如视频编辑/修复、图像到视频、风格化生成、动作笔刷，甚至可以直接从文本生成详细的视频。研究者表示，Lumiere不仅在定性评估中表现优异，而且在用户研究中也获得了更多用户的青睐。

这一突破性的AI视频大模型标志着谷歌在人工智能领域的又一次重大进展，展现了其领先的技术实力和创新能力。论文详细阐述了Lumiere的设计原理和应用展示，并为人工智能领域的发展带来了新的思路和方向。

相关推荐