近日,由Picsart AI Research团队联合发布的StreamingT2V模型可生成长达2分钟(1200帧)的高质量视频,超越了之前的Sora模型。这一开源模型不仅可以生成更长时长的视频,还能与SVD、animatediff等其他模型无缝兼容,为开源视频生成领域带来新的突破。

亮点总结:

  1. 生成时长达2分钟(1200帧),超越以往模型
  2. 视频质量优秀
  3. 与业内其他主流模型实现无缝衔接
  4. 开源免费,便于开发者使用和二次开发

 

免费在线试玩:【点击进入】 目测在线人太多需要排队

自己本地搭建教程:

1.安装并安装 Python 3.10 and CUDA >= 11.6 环境 【Python 3.10 】、【Cuda 下载

2.克隆开源项目至本地:

git clone https://github.com/Picsart-AI-Research/StreamingT2V.git
cd StreamingT2V/

3.安装必备的环境:

conda create -n st2v python=3.10
conda activate st2v
pip install -r requirements.txt

4.(可选)如果您的系统上缺少 FFmpeg,请安装 FFmpeg

 

conda install conda-forge::ffmpeg

5. 从HF 下载模型权重并将它放在 t2v_enhanced/checkpoints目录下

 

6.文本转视频

cd t2v_enhanced
python inference.py --prompt="A cat running on the street"

如要使用其他基本模型,请添加--base_model=AnimateDiff参数。用于python inference.py --help更多选项

7.图片转视频

cd t2v_enhanced
python inference.py --image=../__assets__/demo/fish.jpg --base_model=SVD

推理时间

 

ModelscopeT2V作为基础模型

 

帧数更快预览的推理时间 (256×256)最终结果的推理时间 (720×720)
24帧40秒165秒
56帧75秒360秒
80帧110秒525秒
240帧340秒1610 秒(约 27 分钟)
600帧860秒5128 秒(约 85 分钟)
1200帧1710 秒(约 28 分钟)10225 秒(约 170 分钟)
AnimateDiff作为基础模型

 

帧数更快预览的推理时间 (256×256)最终结果的推理时间 (720×720)
24帧50秒180秒
56帧85秒370秒
80帧120秒535秒
240帧350秒1620 秒(约 27 分钟)
600帧870秒5138 秒(~85 分钟)
1200帧1720 秒(约 28 分钟)10235 秒(约 170 分钟)
SVD作为基本模型

 

帧数更快预览的推理时间 (256×256)最终结果的推理时间 (720×720)
24帧80秒210秒
56帧115秒400秒
80帧150秒565秒
240帧380秒1650 秒(约 27 分钟)
600帧900秒5168 秒(~86 分钟)
1200帧1750 秒(约 29 分钟)10265 秒(~171 分钟)

所有测量均使用 NVIDIA A100 (80 GB) GPU 进行。当帧数超过 80 时,采用随机混合。对于随机混合,chunk_size和 的值overlap_size分别设置为 112 和 32。

更多的文生视频在线使用:【点击前往】 支持多模型自由切换!

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。