Wan2.1 是一套全面开放的视频生成模型,采用主流的扩散变换器(diffusion transformer)范式,支持多任务处理和高分辨率生成,同时兼容消费级GPU。
1、SOTA性能
在多个基准测试中超越现有开源模型和商业解决方案。
支持生成中英文视觉文本(如视频中的文字嵌入)。
2、低硬件门槛
T2V-1.3B模型仅需8.19GB显存,可在RTX 4090上4分钟生成5秒480P视频(未优化)。
14B模型支持多GPU分布式推理(FSDP + xDiT USP技术)。
3、多任务支持
文本生成视频(T2V)
图像生成视频(I2V)
视频编辑、文本生成图像(T2I)、视频生成音频(V2A)
4、创新视频VAE
Wan-VAE支持任意长度的1080P视频编解码,保留时序信息,为生成任务提供高效基础。
1、模型架构
基于扩散Transformer(DiT)和流匹配(Flow Matching)框架。
提出3D因果VAE(Wan-VAE),优化时空压缩效率,降低内存占用。
2、训练策略
大规模数据清洗流程:从候选数据集中筛选高质量图像和视频。
支持多分辨率训练(480P/720P/1080P)。
3、性能对比
在1035条内部测试提示下,人工评估显示Wan2.1在14个主维度和26个子维度上优于闭源模型(如Sora、Pika)和开源模型(如Stable Video Diffusion)。
1、安装依赖
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt # 需确保PyTorch >=2.4.0
2、模型下载
通过Hugging Face或ModelScope下载模型:
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
3、生成示例
文本生成视频(单GPU):
python generate.py --task t2v-14B --size 1280x720 --ckpt_dir ./Wan2.1-T2V-14B \
--prompt "两只拟人化猫咪穿着舒适的拳击装备激烈对战"
启用提示扩展(提升细节质量):
DASH_API_KEY=your_key python generate.py --use_prompt_extend --prompt_extend_method dashscope
4、Gradio交互界面
cd gradio
DASH_API_KEY=your_key python t2v_14B_singleGPU.py # 支持DashScope API扩展提示
模型 | 分辨率 | 单GPU耗时(秒) | 显存占用(GB) | 适用场景 |
---|---|---|---|---|
T2V-1.3B | 480P | 240 | 8.19 | 消费级GPU(如RTX 4090) |
T2V-14B | 720P | 480(8 GPU) | 分布式优化 | 高性能多GPU服务器 |
Wan2.1通过创新的3D VAE架构、高效训练策略和大规模数据工程,实现了视频生成领域的突破性进展。
Wan2.1地址:
https://github.com/Wan-Video/Wan2.1