深度学习专家经过7个月的奋斗,谷歌终于推出了AI视频大模型Lumiere,颠覆了AI视频的游戏规则。这一全新架构在视频时长和一致性方面实现了重大突破,直接压倒了Gen-2和Pika。摘要:风格化生成Lumiere能生成各种指定艺术风格的视频。STUNet架构带来的全新突破这次,谷歌的研究者采用了跟以往不同的方法,引入了新的T2V扩散框架,该框架可以立即生成视频的完整持续时间。研究者应用Lumiere图像到视频生成,以ImagenVideo生成的视频的第一帧为条件,可视化相应的X-T切片。...
与以往的视频生成模型不同,Lumiere采用了最先进的时空U-Net架构,可以在一次一致的通道中生成整个视频,而不是像以往的模型一样对生成的简短视频进行时间采样。
这一新架构可以显著增加生成视频的长度和质量,让视频呈现出更高的连贯性和运动幅度。论文指出,Lumiere可以直接生成5秒长的80帧视频,比以往大多数模型生成的视频更为连贯。
此外,Lumiere还具有丰富的功能,比如视频编辑/修复、图像到视频、风格化生成、动作笔刷,甚至可以直接从文本生成详细的视频。研究者表示,Lumiere不仅在定性评估中表现优异,而且在用户研究中也获得了更多用户的青睐。
这一突破性的AI视频大模型标志着谷歌在人工智能领域的又一次重大进展,展现了其领先的技术实力和创新能力。论文详细阐述了Lumiere的设计原理和应用展示,并为人工智能领域的发展带来了新的思路和方向。