Wan2.1 是一套全面开放的视频生成模型,采用主流的扩散变换器(diffusion transformer)范式,支持多任务处理和高分辨率生成,同时兼容消费级GPU。

核心功能

1、SOTA性能
在多个基准测试中超越现有开源模型和商业解决方案。

支持生成中英文视觉文本(如视频中的文字嵌入)。

2、低硬件门槛
T2V-1.3B模型仅需8.19GB显存,可在RTX 4090上4分钟生成5秒480P视频(未优化)。

14B模型支持多GPU分布式推理(FSDP + xDiT USP技术)。

3、多任务支持
文本生成视频(T2V)

图像生成视频(I2V)

视频编辑、文本生成图像(T2I)、视频生成音频(V2A)

4、创新视频VAE
Wan-VAE支持任意长度的1080P视频编解码,保留时序信息,为生成任务提供高效基础。

技术细节

1、模型架构

基于扩散Transformer(DiT)和流匹配(Flow Matching)框架。

提出3D因果VAE(Wan-VAE),优化时空压缩效率,降低内存占用。

2、训练策略

大规模数据清洗流程:从候选数据集中筛选高质量图像和视频。

支持多分辨率训练(480P/720P/1080P)。

3、性能对比

在1035条内部测试提示下,人工评估显示Wan2.1在14个主维度和26个子维度上优于闭源模型(如Sora、Pika)和开源模型(如Stable Video Diffusion)。

快速使用指南

1、安装依赖

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt  # 需确保PyTorch >=2.4.0

2、模型下载
通过Hugging Face或ModelScope下载模型:

huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

3、生成示例
文本生成视频(单GPU)

python generate.py --task t2v-14B --size 1280x720 --ckpt_dir ./Wan2.1-T2V-14B \
--prompt "两只拟人化猫咪穿着舒适的拳击装备激烈对战"

启用提示扩展(提升细节质量):

DASH_API_KEY=your_key python generate.py --use_prompt_extend --prompt_extend_method dashscope

4、Gradio交互界面

cd gradio
DASH_API_KEY=your_key python t2v_14B_singleGPU.py  # 支持DashScope API扩展提示

性能与兼容性

模型 分辨率 单GPU耗时(秒) 显存占用(GB) 适用场景
T2V-1.3B 480P 240 8.19 消费级GPU(如RTX 4090)
T2V-14B 720P 480(8 GPU) 分布式优化 高性能多GPU服务器

Wan2.1通过创新的3D VAE架构、高效训练策略和大规模数据工程,实现了视频生成领域的突破性进展。

Wan2.1地址:

https://github.com/Wan-Video/Wan2.1