热点资讯
九游官网登录入口jiuyou官网为推测者和确立者提供了一个高性能、易用的器用平台-九游体育(Nine Game Sports)官方网站 登录入口
发布日期:2025-01-11 05:01 点击次数:187

Sora、Genie 等模子会都用到的 Tokenizer,微软下手了——
开源了一套万能的 Video Tokenizer,名为VidTok。
Sora 等视频生成模子职责中,都会哄骗 Tokenizer 将原始的高维视频数据(如图像和视频帧)转机为更为紧凑的视觉 Token,再以视觉 Token 为主张教训生成模子。
而最新的 VidTok,在一语气和翻脸、不同压缩率等多种设定下,各项方针均权臣优于 SOTA 模子。
以下是涵盖 PSNR、SSIM、FVD、LPIPS 方针的性能比较雷达图,面积越大默示性能越好。
从图中不错看出关于翻脸 Tokenizer,VidTok 权臣优于英伟达 Cosmos Tokenizer;关于一语气 Tokenizer,VidTok 也比 Open-Sora、CogVideoX 有更高的性能。

这项推测由来自微软亚研院、上海交通大学、北京大学的推测东说念主员共同完成。

当今,VidTok 代码不仅开源了,还搭救用户在自界说数据集上的微调,为推测者和确立者提供了一个高性能、易用的器用平台。
性能全面卓绝,适用各式场景
连年来,视频生成以及基于此的天下模子还是成为东说念主工智能范畴的热点推测主张,这两者的中枢在于对视频践诺的高效建模。
视频中蕴含了丰富的视觉信息,不仅大致提供信得过的视觉体验,更能四肢具身场景中模子伙同天下的中间序论。
干系词,由于视频像素级默示信息高度冗余,怎样通过 Tokenizer 对视频数据进行高效压缩和默示成为要津课题。
当下好多职责如 Sora,Genie 等都和会过 Tokenizer 将原始的高维视频数据(如图像和视频帧)转机为更为紧凑的视觉 Token,再以视觉 Token 为主张教训生成模子。
不错说,视觉 Token 的默示智商关于最终的后果至关紧迫,以至决定了模子智商的上限。

Tokenizer 的主要作用是将高维的原始数据转机为隐空间中高效的压缩默示,使得信息的生成息争决不错在该隐空间中进行。上图展示了一个视频的 Token 化历程,通过转机为 Token 建模,大致有用裁减模子教训和推理时的谋略需求。
笔据不同的使用需求,视频 Tokenizer 频繁有如下分类:
一语气型和翻脸型。笔据隐空间的数值散播,Tokenizer 不错分为一语气型和翻脸型,分辩适用于从一语气散播中采样的模子(如扩散模子等)和从翻脸散播中采样的模子(如讲话模子等)。
因果型和非因果型。因果结构使得模子只依赖历史帧来对现时帧进行 Tokenization,这与信得过天下系统的因果性质保合手一致。非因果模子则不错同期笔据历史帧和将来帧对现时帧进行 Tokenization,频繁具有更优的重建质地。
不同的压缩率模子。Sora 等稠密职责遴选了如 4x8x8 的视频压缩率(时候压缩 4 倍、空间压缩 8 倍),竣事更高的视频压缩率而保合手高质地的视频重建是当今的推测趋势。
当今业界卓绝的视频模子多为闭源情状,而开源的视频 Tokenizer 大多受限于单一的模子设定或欠佳的重建质地,导致可用性较差。
由此,来自微软亚研院、上海交通大学和北京大学的推测东说念主员最近负责发布了开源视频 Tokenizer —— VidTok。
在测试中,VidTok 性能全面卓绝,适用各式场景。
如下表所示,VidTok搭救各样化的隐空间且具有纯确凿压缩率,同期搭救因果和非因果模子,以相宜不同的使用需求。
关于一语气型 Tokenizer,搭救不同的视频压缩率、不同的隐空间通说念数,同期搭救因果和非因果模子。
关于翻脸型 Tokenizer,搭救不同的视频压缩率、不同的码本大小,同期搭救因果和非因果模子。
更多模子在合手续更新中。

为了全面评估 VidTok 在各个设定下的重建性能,作家将 VidTok 与起始进的一语气和翻脸视频 Tokenizer 分辩进行了对王人设定下的比较。扫数模子均为 4x8x8 倍视频压缩率的因果模子,主要包含以下三种设定:
VidTok-FSQ:翻脸型,码本大小各别。基线步调包括 MAGVIT-v2,OmniTokenizer,Cosmos-DV 等。
VidTok-KL-4chn:一语气型,隐空间通说念数为 4。基线步调包括 CV-VAE,Open-Sora-v1.2,Open-Sora-Plan-v1.2 等。
VidTok-KL-16chn:一语气型,隐空间通说念数为 16。基线步调包括 CogVideoX,Cosmos-CV 等。
定量实验限制标明,VidTok 在上述三种设定下均达到了 SOTA 性能,在常见的视频质地评估方针 PSNR、SSIM、FVD、LPIPS 上具有全面的上风。

与现存的翻脸 Tokenizer 比拟,VidTok 即使在使用更小的码本大小时(举例 32,768),也展现出了更优的重建性能。
在一语气 Tokenizer 的设定下,无论隐空间通说念数是 4 照旧 16,VidTok 在扫数评估方针上比拟基线步调均取得了全面的擢升。值得扎眼的是,这些擢升是在莫得模子大小上风的情况下达成的。
除此以外,团队还进行了定性分析。

上图中展示了以上三种设定下的与基线步调的对比限制。
从视频帧的重建质地不错看出,与现存的步调比拟,VidTok 在各式模子设定下,均展现出了最优的重建细节保真度和主不雅视觉质地。涌现了 VidTok 四肢多功能视频 Tokenizer 的有用性。
是以 VidTok 是怎样作念到的?
VidTok 的时间亮点明白
相干于现存的视频 Tokenizer,VidTok 在模子架构、量化时间、教训政策上分辩作念了翻新。
高效的搀杂模子架构瞎想
VidTok 遴选经典的 3D 编码器 - 解码器结构,同期翻新性地合股了 3D、2D 和 1D 卷积,有用地解耦空间和时候采样。
在现存推测中宽绰以为,尽管谋略本钱较高,十足的 3D 架构提供了更优的重建质地。干系词,VidTok 发现将部分 3D 卷积替换为 2D 和 1D 卷积的组合,不错有用地解耦空间和时候采样,在裁减谋略需求的同期,保合手了高水平的重建质地。

详备的网罗架构如上图所示。VidTok 分辩解决空间采样和时候采样模块,并在时候采样模块中引入了 AlphaBlender 操作符。其余组件,包括输入 / 输出层和瓶颈层,则哄骗 3D 卷积来促进信息贯通。此外,扫数这个词架构中引入了层归一化以增强牢固性和性能。实考据明该架构在重建质地和谋略量之间取得了均衡。
先进的量化时间
VidTok 引入了有限标量量化(FSQ)时间,无需显式学习码本,权臣提高了模子的教训牢固性和重建性能。

有限标量量化(FSQ)由「Finite scalar quantization: Vq-vae made simple」提议,其中枢旨趣是,在隐空间表征中,每个标量要求通过四舍五入寂寥量化到最近的预界说标量值。
与传统 VQ 比拟,FSQ 无需学习显式的码本,从而提高了教训的牢固性。实验标明,FSQ 在码本哄骗率、重建质地和教训牢固性方面具有权臣上风,四肢一种先进的量化时间,有用擢升了翻脸 Tokenizer 的性能。
增强的教训政策
VidTok 遴选分阶段教训政策,教训时候减少了 50%,而重建质地不受影响。
视频 Tokenizer 的教训频繁是谋略密集的,要求多半谋略资源(举例关于 256x256 分辨率的视频需要 3,072GPU 小时的教训时长)。这就需要确立有用的政策来裁减谋略本钱,同期保合手模子性能。
VidTok 遴选一种两阶段教训步调来搪塞这一挑战:领先在低分辨率视频上对好意思满模子进行预教训,然后仅在高分辨率视频上微长入码器。这种教训政策权臣裁减了谋略本钱——教训时候减少了一半(从 3,072GPU 小时降至 1,536GPU 小时),而保合手重建视频质地不变。
该两阶段教训的另一上风是,由于第二阶段只会微长入码器,因此模子不错快速相宜到新的范畴数据中,而不会影响隐空间数据散播。

此外,由于视频 Tokenizer 旨在建模输入视频的教唆动态,因此在模子中有用默示这些动态至关紧迫。VidTok 使用较低帧率的数据进行教训,权臣增强了模子捕捉和默示教唆动态的智商,得到了更好的重建质地。
VidTok 的开源为视频生成、天下模子范畴提供了新的器用,尽头是在现时业内许多卓绝模子仍未开源的布景下。
团队默示,VidTok 搭救后续微调也为其他应用提供了更弘大的使用空间,推测者可蹧蹋将 VidTok 应用于特定范畴数据集,为办刑场景优化性能。
更多细节践诺感好奇的童鞋可参阅原论文。
论文地址:https://arxiv.org/abs/2412.13061
技俩地址:https://github.com/microsoft/vidtok
— 完 —
点这里� � 热诚我,铭记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿发达日日相逢 ~
