Skip to content

whisper 参数模型

本项目采用 OpenAI 开源的 whisper 模型进行 Automatic Speech Recognition (ASR) 任务。

模型信息

模型基本参数参数及链接如下,注意 GPU 显存必须大于所需 VRAM:

TIP

如果追求识别准确率,推荐使用参数量 small 及以上的模型。

SizeParametersMultilingual modelRequired VRAM
tiny39 Mtiny~1 GB
base74 Mbase~1 GB
small244 Msmall~2 GB
medium769 Mmedium~5 GB
large1550 Mlarge~10 GB

计算 VRAM 需求

用 Nvidia 显卡加速 ffmpeg 渲染过程,每个任务所需的 VRAM 约为 180 MB。whisper 模型运行所需显存如上表所示。 因此可以大约计算所需显存。

small 模型为例:

  • 如果采用 pipeline 模式,由于并行运行,则运行至少需要 180 + 2620 = 2800 MB 显存。
  • 如果采用 append 或者 merge 模式,则运行至少需要 2620 MB 显存。

WARNING

请一定保证 GPU 显存大于计算结果,否则会爆显存,RuntimeError: CUDA out of memory.

更换模型方法

  1. 请将 src/config.py 文件中的 Inference_Model 参数设置为模型对应Size名称,如 tinybasesmallmediumlarge
  2. 将对应的模型文件下载,并放置在 src/subtitle/models 文件夹中。
  3. 重新运行 ./scan.sh 脚本。