Github开源生信云平台 DEMO
Diffusers ComfyUI AnimateDiff Stable Video Diffusion Open-Sora 区别这几个名字经常一起出现,但其实它们根本不是同一层级的东西。可以用一句话先帮你建立整体认知:
Diffusers / ComfyUI 是“框架(后端工具)”,AnimateDiff / Stable Video Diffusion / Open-Sora 是“模型或模型体系”。
下面我给你拆清楚。
┌──────────────────────────────┐ │ 应用层(UI/工具) │ │ ComfyUI │ └────────────┬─────────────────┘ │调用 ┌────────────▼─────────────────┐ │ 推理框架(Backend) │ │ Diffusers / PyTorch pipeline │ └────────────┬─────────────────┘ │加载 ┌────────────▼─────────────────┐ │ 视频生成模型 │ │ AnimateDiff / SVD / Open-Sora │ └──────────────────────────────┘
你这个问题已经进入“模型文件到底长什么样”的层面了,我给你按图像生成模型 vs LLM彻底对齐讲清楚。
图像生成模型(比如 Stable Diffusion)不是 GGUF 那种单文件格式体系,它通常是:
✔ 一组 PyTorch / Diffusers 权重 + 配置文件✔ 分模块存储(UNet / VAE / Text Encoder)
而文本模型(llama.cpp / GGUF)是:
✔ 单文件量化格式(GGUF)+ 少量 tokenizer/config
以 llama.cpp 为例:
model.gguf ← 权重(核心) tokenizer.json ← 分词器 config.json ← 模型结构
以 Stable Diffusion 为例:
它完全不是 GGUF 那种结构。
model/ ├── unet/ │ ├── diffusion_pytorch_model.bin │ └── config.json │ ├── vae/ │ ├── diffusion_pytorch_model.bin │ └── config.json │ ├── text_encoder/ │ ├── model.safetensors │ └── config.json │ ├── tokenizer/ │ ├── tokenizer.json │ ├── merges.txt │ └── vocab.json │ └── scheduler/ └── scheduler_config.json
噪声 → 去噪 → latent image
文件:
unet/diffusion_pytorch_model.bin
latent → pixel image
vae/diffusion_pytorch_model.bin
通常是:
text_encoder/model.safetensors
LLM:
Transformer stack(统一结构)
图像模型:
UNet + VAE + Text Encoder + Scheduler
👉 多模型组合系统
token → token
noise → iterative denoise → image
现在有趋势:
✔ HuggingFace 标准✔ 多文件模块化
model.safetensors
✔ 比 .ckpt 安全✔ 防代码执行
model.ckpt
👉 目前没有完全等价 GGUF 的图像模型标准
但有:
TensorRT
特点:
LLM(GGUF)是“单体语言模型文件系统”,图像模型(Stable Diffusion)是“多模块生成系统”,因此不存在 tokenizer.json + gguf 的统一结构,而是 UNet/VAE/Text Encoder 分离的 pipeline 结构。
我可以帮你拆:
你选一个方向,我可以带你到源码级理解。