微软开源视频Tokenizer新SOTA!显耀优于Cosmos Tokenizer

微软开源视频Tokenizer新SOTA!显耀优于Cosmos Tokenizer

VidTok团队 投稿

量子位 | 公众号 QbitAI

Sora、Genie等模子会都用到的Tokenizer,微软下手了——

开源了一套万能的Video Tokenizer,名为VidTok。

Sora等视频生成模子责任中,都会期骗Tokenizer将原始的高维视频数据(如图像和视频帧)改换为更为紧凑的视觉Token,再以视觉Token为主义现实生成模子。

而最新的VidTok,在流通和打破、不同压缩率等多种设定下,各项经营均显耀优于SOTA模子。

以下是涵盖PSNR、SSIM、FVD、LPIPS经营的性能比较雷达图,面积越大示意性能越好。

从图中不错看出关于打破Tokenizer,VidTok显耀优于英伟达Cosmos Tokenizer;关于流通Tokenizer,VidTok也比Open-Sora、CogVideoX有更高的性能。

这项接头由来自微软亚研院、上海交通大学、北京大学的接头东谈主员共同完成。

现在,VidTok代码不仅开源了,还支撑用户在自界说数据集上的微调,为接头者和诞生者提供了一个高性能、易用的器用平台。

性能全面进步,适用各式场景

连年来,视频生成以及基于此的天下模子也曾成为东谈主工智能限制的热点接头标的,这两者的中枢在于对视频实质的高效建模。

视频中蕴含了丰富的视觉信息,不仅梗概提供委果的视觉体验,更能动作具身场景中模子透露天下的中间引子。

联系词,由于视频像素级示意信息高度冗余,怎样通过Tokenizer对视频数据进行高效压缩和示意成为关节课题。

当下好多责任如Sora,Genie等都贯通过Tokenizer将原始的高维视频数据(如图像和视频帧)改换为更为紧凑的视觉Token,再以视觉Token为主义现实生成模子。

不错说,视觉Token的示意才智关于最终的后果至关进犯,甚而决定了模子才智的上限。

Tokenizer的主要作用是将高维的原始数据改换为隐空间中高效的压缩示意,使得信息的生成妥协决不错在该隐空间中进行。上图展示了一个视频的Token化经由,通过改换为Token建模,梗概有用镌汰模子现实和推理时的筹商需求。

左证不同的使用需求,视频Tokenizer频繁有如下分类:

流通型和打破型。左证隐空间的数值分散,Tokenizer不错分为流通型和打破型,差别适用于从流通分散中采样的模子(如扩散模子等)和从打破分散中采样的模子(如话语模子等)。因果型和非因果型。因果结构使得模子只依赖历史帧来对面前帧进行Tokenization,这与委果天下系统的因果性质保执一致。非因果模子则不错同期左证历史帧和当年帧对面前帧进行Tokenization,频繁具有更优的重建质料。不同的压缩率模子。Sora等繁密责任选拔了如4x8x8的视频压缩率(时候压缩4倍、空间压缩8倍),达成更高的视频压缩率而保执高质料的视频重建是现在的接头趋势。

现在业界进步的视频模子多为闭源气象,而开源的视频Tokenizer大多受限于单一的模子设定或欠佳的重建质料,导致可用性较差。

由此,来自微软亚研院、上海交通大学和北京大学的接头东谈主员最近负责发布了开源视频Tokenizer——VidTok。

在测试中,VidTok性能全面进步,适用各式场景。

如下表所示,VidTok支撑万般化的隐空间且具有生动的压缩率,同期支撑因果和非因果模子,以适当不同的使用需求。

关于流通型Tokenizer,支撑不同的视频压缩率、不同的隐空间通谈数,同期支撑因果和非因果模子。关于打破型Tokenizer,支撑不同的视频压缩率、不同的码本大小,同期支撑因果和非因果模子。

更多模子在执续更新中。

为了全面评估VidTok在各个设定下的重建性能,作家将VidTok与启程点进的流通和打破视频Tokenizer差别进行了对皆设定下的比较。所有这个词模子均为4x8x8倍视频压缩率的因果模子,主要包含以下三种设定:

VidTok-FSQ:打破型,码本大小各别。基线步调包括MAGVIT-v2,OmniTokenizer,Cosmos-DV等。VidTok-KL-4chn:流通型,隐空间通谈数为4。基线步调包括CV-VAE,Open-Sora-v1.2,Open-Sora-Plan-v1.2等。VidTok-KL-16chn:流通型,隐空间通谈数为16。基线步调包括CogVideoX,Cosmos-CV等。

定量实验截止标明,VidTok在上述三种设定下均达到了SOTA性能,在常见的视频质料评估经营PSNR、SSIM、FVD、LPIPS上具有全面的上风。

与现存的打破Tokenizer比拟,VidTok即使在使用更小的码本大小时(举例32,768),也展现出了更优的重建性能。

在流通Tokenizer的设定下,无论隐空间通谈数是4如故16,VidTok在所有这个词评估经营上比拟基线步调均取得了全面的栽植。值得忽闪的是,这些栽植是在莫得模子大小上风的情况下达成的。

除此除外,团队还进行了定性分析。

上图中展示了以上三种设定下的与基线步调的对比截止。

从视频帧的重建质料不错看出,与现存的步调比拟,VidTok在各式模子设定下,均展现出了最优的重建细节保真度和主不雅视觉质料。讲授了VidTok动作多功能视频Tokenizer的有用性。

是以VidTok是怎样作念到的?

VidTok的技能亮点剖判

联系于现存的视频Tokenizer,VidTok在模子架构、量化技能、现实计策上差别作念了改革。

高效的搀和模子架构遐想

VidTok选拔经典的3D编码器-解码器结构,同期改革性地衔接了3D、2D和1D卷积,有用地解耦空间和时候采样。

在现存接头中深广觉得,尽管筹商本钱较高,澈底的3D架构提供了更优的重建质料。联系词,VidTok发现将部分3D卷积替换为2D和1D卷积的组合,不错有用地解耦空间和时候采样,在镌汰筹商需求的同期,保执了高水平的重建质料。

详备的收罗架构如上图所示。VidTok差别解决空间采样和时候采样模块,并在时候采样模块中引入了AlphaBlender操作符。其余组件,包括输入/输出层和瓶颈层,则期骗3D卷积来促进信息交融。此外,通盘架构中引入了层归一化以增强踏实性和性能。实考据明该架构在重建质料和筹议论之间取得了均衡。

先进的量化技能

VidTok引入了有限标量量化(FSQ)技能,无需显式学习码本,显耀提高了模子的现实踏实性和重建性能。

有限标量量化(FSQ)由「Finite scalar quantization: Vq-vae made simple」建议,其中枢旨趣是,在隐空间表征中,每个标量要求通过四舍五入平稳量化到最近的预界说标量值。

与传统VQ比拟,FSQ无需学习显式的码本,从而提高了现实的踏实性。实验标明,FSQ在码本期骗率、重建质料和现实踏实性方面具有显耀上风,动作一种先进的量化技能,有用栽植了打破Tokenizer的性能。

增强的现实计策

VidTok选拔分阶段现实计策,现及时候减少了50%,而重建质料不受影响。

视频Tokenizer的现实频繁是筹商密集的,要求深广筹商资源(举例关于256x256分辨率的视频需要3,072GPU小时的现及时长)。这就需要诞生有用的计策来镌汰筹商本钱,同期保执模子性能。

VidTok选拔一种两阶段现实步调来应酬这一挑战:当先在低分辨率视频上对齐备模子进行预现实,然后仅在高分辨率视频上微团结码器。这种现实计策显耀镌汰了筹商本钱——现及时候减少了一半(从3,072GPU小时降至1,536GPU 小时),而保执重建视频质料不变。

该两阶段现实的另一上风是,由于第二阶段只会微团结码器,因此模子不错快速适当到新的限制数据中,而不会影响隐空间数据分散。

此外,由于视频Tokenizer旨在建模输入视频的畅通动态,因此在模子中有用示意这些动态至关进犯。VidTok使用较低帧率的数据进行现实,显耀增强了模子捕捉和示意畅通动态的才智,获取了更好的重建质料。

VidTok的开源为视频生成、天下模子限制提供了新的器用,颠倒是在面前业内许多进步模子仍未开源的布景下。

团队示意,VidTok支撑后续微调也为其他应用提供了更浩瀚的使用空间,接头者可猖厥将VidTok应用于特定限制数据集,为主义场景优化性能。

更多细节实质感敬爱的童鞋可参阅原论文。

论文地址:https://arxiv.org/abs/2412.13061方式地址:https://github.com/microsoft/vidtok

— 完 —

量子位 QbitAI · 头条号签约

宝贵咱们,第一时候获知前沿科技动态






Powered by 数字视野网 @2013-2022 RSS地图 HTML地图