多模态——使用stable-video-diffusion将图片生成视频

本文介绍: 近期，s tab i li t yAI发布了一个新的项目，是将图片作为基础，生成一个相关的小视频，本文主要是体验一下stable–video–diffusion的使用，以及对其使用方法进行简单的介绍。

近期，stab i li tyAI发布了一个新的项目，是将图片作为基础，生成一个相关的小视频，其实也算是其之前研究内容的扩展。早在stable–diffusion的模型开源出来的时候，除了由prompt 生成图片之外，也可以生成连续帧的短视频。

本文主要是体验一下stable–video–diffusion的使用，以及对其使用方法进行简单的介绍。具体原理相关内容并不是我的主要研究方法，也就不在此展开介绍了。

下面的这个小火箭就是项目的示例图片，生成视频之后，小火箭可以发射升空。

test_image

项目地址：
HF：https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt
git：https://github.com/Stability-AI/generative-models
论文地址：
https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

系统：CentOS 7
Python：3.10
驱动：470.63.01
CUDA：11.4
cudnn：8.5.0
torch：2.0.1+cu117
torchvision：0.15.2+cu117

模型的创建用到了yaml 配置文件，所以需要把git中的svd_xt.yaml等yaml 文件下载下来，并且将其中的模型地址 c k p t _path，修改为第2部分中，从HF下载的stable-video-diffusion-img2vid-xt/svd_xt.safetensors的地址。

svd_xt_image_decoder.yaml同理。

import math
import os
from glob import glob
from pathlib import Path
from typing import Optional

import cv2
import numpy as np
import torch
from einops import rearrange, repeat
from fire import Fire
from omegaconf import OmegaConf
from PIL import Image
from torchvision.transforms import ToTensor

# from scripts.util.detection.nsfw_and_watermark_dectection import 
#     DeepFloydDataFiltering
# from sgm.inference.helpers import embed_watermark
# from sgm.util import default, instantiate_from_config

找到其中的DeepFloyDataFiltering，将其中的路径修改为2中下载的ViT-L-14.pt的路径。

在python 环境中，找到…lib/python3.10/site–packages/open_clip/factory.py，大约在210行的if model_cfg is None之后，添加：

if model_cfg is None:
    with open('.../CLIP-ViT-H-14-laion2B-s32B-b79K/open_clip_config.json', 'r') as f:
    model_cfg = json.load(f)['model_cfg']

import math
import os
from glob import glob
from pathlib import Path
from typing import Optional

import cv2
import numpy as np
import torch
from einops import rearrange, repeat
from fire import Fire
from omegaconf import OmegaConf
from PIL import Image
from torchvision.transforms import ToTensor

# from scripts.util.detection.nsfw_and_watermark_dectection import 
#     DeepFloydDataFiltering
from sgm.inference.helpers import embed_watermark
from sgm.util import default, instantiate_from_config

import clip
import torchvision.transforms as T

os.environ['CUDA_VISIBLE_DEVICES'] = '0'

# 注意这里的路径，是配置文件yaml所在的目录，我直接把yaml放在同级目录了
RESOURCES_ROOT = './'

def load_model_weights(path: str):

def load_img(path: str) -> torch.Tensor:

# 注意将self.clip_model, _ = clip.load中的路径修改为下载的ViT-L-14.pt路径
class DeepFloydDataFiltering(object):

def predict_proba(X, weights, biases):

def get_unique_embedder_keys_from_conditioner(conditioner):

def clip_process_images(images: torch.Tensor) -> torch.Tensor:

def get_batch(keys, value_dict, N, T, device):

def load_model(...

# 在这个方法里修改输入图像的路径
def sample(...

# 执行：可以不用Fire，直接调用即可
sample()

官方提供的样例图片，尺寸为(1024, 576)，在所有参数均选择默认的情况下，占用显存约为60G。

当我使用的图片为手机原图时，程序很容易就OOM了，所以对于一般手机的相片，可以将尺寸压缩到(960, 720)，显存消耗就大概维持在60G。

from PIL import Image
img = Image.open("image.png")

img = img.crop((left, top, right, bot))

img = img.resize((960, 720))

关于图片的帧数，目前还没有进一步实验，猜测应该是代码中的num_frames参数来控制。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

多模态——使用 stable–video–diffusion将图片生成 视频

0. 内容 简介

1. 运行 环境

2. 模型 下载

3. 代码梳理

3.1 修改 yaml 文件中的svd 路径

3.2 修改De e pFloyDataFilte r in g的vit路径

3.3 修改open_clip的clip 路径

3.4 代码总体结构

4. 资源消耗

5. 效果 预览

发表回复取消回复

多模态——使用stable–video–diffusion将图片生成视频

0. 内容简介

1. 运行环境

2. 模型下载

3. 代码梳理

3.1 修改yaml文件中的svd路径

3.2 修改DeepFloyDataFiltering的vit路径

3.3 修改open_clip的clip路径

3.4 代码总体结构

4. 资源消耗

5. 效果预览

相关文章

发表回复 取消回复

多模态——使用 stable–video–diffusion将图片生成视频

3.1 修改 yaml 文件中的svd 路径

3.2 修改De e pFloyDataFilte r in g的vit路径

3.3 修改open_clip的clip 路径

发表回复取消回复