CogVideoX是由清影团队开发的视频生成开源项目,包含CogVideoX-2B、CogVideoX-5B及CogVideoX-5B-I2V三个版本。支持文本生成视频、视频延续和图像生成视频三种功能。基础模型基于Transformer架构,采用3D位置编码技术处理时序数据。
CogVideoX-2B:基础版,FP16训练,支持FP8量化,单卡最低需18GB显存
CogVideoX-5B:增强版,BF16训练,视频质量提升,单卡最低需26GB显存
I2V版本:支持图像输入生成视频,需配合特定位置编码技术
Python版本限定3.10-3.12,推荐使用NVIDIA A100/H100显卡。通过Diffusers库可实现显存优化,RTX 3060等消费级显卡也可运行量化后的5B模型。多GPU环境下支持分布式推理,8卡H100集群可进行全参数微调。
项目提供多种衍生工具:
1、视频描述生成工具(caption_demo)
2、LoRA适配器转换工具(export_sat_lora_weight)
3、本地大模型集成方案(llm_flux_cogvideox)
4、ComfyUI工作流插件
5、自动部署方案(Xorbits Inference框架)
生成视频固定为6秒时长,8帧/秒,分辨率720×480。暂不支持自定义分辨率设置,可通过后续处理实现画质增强。
开源社区已产生多个应用实例:
室内设计专用微调模型
Gradio交互式网页界面(CogStudio)
Colab免费实例运行方案
视频超分辨率处理流程
项目继承自ICLR 2023发表的CogVideo模型,主要改进包括:
3D RoPE位置编码
可学习位置嵌入
新型视频VAE结构
多模态提示优化方案
研究团队强调提示词优化的重要性,建议使用GLM-4等大语言模型预处理输入文本。项目文档提供详细的提示词改写指南和示例。