本地训练,立等可取,30秒音频素材复刻霉霉讲中文音色基于Bert-VITS2V2.0.2

本文介绍: 之前我们[使用Be rt-VITS2V2.0.2版本对现有的原神数据集进行了本地训练](https://v3u.cn/a _id _330)，但如果克隆对象脱离了原神角色，我们就需要自己构建数据集了，事实上，深度学习模型的性能和泛化能力都依托于所使用的数据集的质量和多样性，本次我们在本地利用Be rt-VITS2V2.0.2对霉霉讲中文的音色进行克隆实践。

在这里插入图片描述

之前我们使用Bert-VITS2V2.0.2版本对现有的原神数据集进行了本地训练，但如果克隆对象脱离了原神角色，我们就需要自己构建数据集了，事实上，深度学习模型的性能和泛化能力都依托于所使用的数据集的质量和多样性，本次我们在本地利用Be r t-VITS2V2.0.2对霉霉讲中文的音色进行克隆实践。

霉霉讲中文的原始音视频地址：

https://www.bilibili.com/video/BV1bB4y1R7Nu/

这一段是基于He yGen项目的AI音色克隆以及唇形合成技术，全片1分钟左右，中文和英文各30秒，因为我们只克隆中文音色部分，那么将英文部分截去，留下30秒的中文音频素材。

拿到视频后，首先需要做音画分离的操作，即将视频和音频拆开，因为数据集并不需要视频，运行命令安装相关库：

pip3 install moviepy

from moviepy.editor import AudioFileClip  
my_audio_clip = AudioFileClip("e:/meimei.mp4")  
my_audio_clip.write_audiofile("e:/meimei.wav")

import librosa  
import numpy as np  
audio, freq = librosa.load("e:meimei.wav")  
time = np.arange(0, len(audio)) / freq  
print(len(audio), type(audio), freq, sep="t")

python3 -u "test.py"  
848384  <class 'numpy.ndarray'&gt; 22050

https://github.com/v3ucn/Bert-VITS2_V202_Train.git

pip install -r requirements.txt

python3 audio_slicer.py

import librosa  # Optional. Use any library you like to read audio files.  
import soundfile  # Optional. Use any library you like to write audio files.  
  
import shutil  
import gradio as gr  
import os  
import webbrowser  
import subprocess  
import datetime  
import json  
import requests  
import soundfile as sf  
import numpy as np  
import yaml  
from config import config  
import os  
  
with open('config.yml', mode="r", encoding="utf-8") as f:  
    configyml=yaml.load(f,Loader=yaml.FullLoader)  
  
model_name = configyml["dataset_path"].replace("Data\","")  
  
from slicer2 import Slicer  
  
audio, sr = librosa.load(f'./Data/{model_name}/raw/{model_name}/{model_name}.wav', sr=None, mono=False)  # Load an audio file with librosa.  
slicer = Slicer(  
    sr=sr,  
    threshold=-40,  
    min_length=2000,  
    min_interval=300,  
    hop_size=10,  
    max_sil_kept=500  
)  
chunks = slicer.slice(audio)  
for i, chunk in enumerate(chunks):  
    if len(chunk.shape) &gt; 1:  
        chunk = chunk.T  # Swap axes if the audio is stereo.  
    soundfile.write(f'./Data/{model_name}/raw/{model_name}/{model_name}_{i}.wav', chunk, sr)  # Save sliced audio files with soundfile.  
  
if os.path.exists(f'./Data/{model_name}/raw/{model_name}/{model_name}.wav'):  # 如果文件存在  
    os.remove(f'./Data/{model_name}/raw/{model_name}/{model_name}.wav')

E:workBert-VITS2-v202_demoDatameimeirawmeimei&gt;tree /f  
Folder PATH listing for volume myssd  
Volume serial number is 7CE3-15AE  
E:.  
    meimei_0.wav  
    meimei_1.wav  
    meimei_2.wav  
    meimei_3.wav  
    meimei_4.wav  
    meimei_5.wav  
    meimei_6.wav  
    meimei_7.wav  
    meimei_8.wav

python3 short_audio_transcribe.py --languages "CJE" --whisper_size medium

E:workBert-VITS2-v202_demovenvlibsite-packageswhispertiming.py:58: NumbaDeprecationWarning: The 'nopython' keyword argument was not supplied to the 'numba.jit' decorator. The implicit default value for this argument is currently False, but it will be changed to True in Numba 0.59.0. See https://numba.readthedocs.io/en/stable/reference/deprecation.html#deprecation-of-object-mode-fall-back-behaviour-when-using-jit for details.  
  def backtrace(trace: np.ndarray):  
Datameimeiraw  
Detected language: zh  
但这些歌曲没进入专辑因为想留着他们下一张专辑用  
Processed: 1/31  
Detected language: zh  
然後下一張專輯完全不同所以他們被拋在了後面  
Processed: 2/31  
Detected language: zh  
你總是會想起這些歌曲你會想  
Processed: 3/31  
Detected language: zh  
会发生什么因为我希望人们能听到这个但它属于那个时刻  
Processed: 4/31  
Detected language: zh  
所以现在我可以回去重新审视我的旧作品  
Processed: 5/31  
Detected language: zh  
我從他們所在的地方挖掘出那些歌曲  
Processed: 6/31  
Detected language: zh  
並聯繫了我喜歡的藝術家  
Processed: 7/31  
Detected language: zh  
問他們是否願意和我一起演唱這首歌  
Processed: 8/31  
Detected language: zh  
你知道Phoebe Bridgers是我最喜欢的艺术家之一  
Processed: 9/31

python3 preprocess_text.py  
  
python3 bert_gen.py

E:workBert-VITS2-v202Datameimeifilelists>tree /f  
Folder PATH listing for volume myssd  
Volume serial number is 7CE3-15AE  
E:.  
    cleaned.list  
    short_character_anno.list  
    train.list  
    val.list

{  
  "train": {  
    "log_interval": 50,  
    "eval_interval": 50,  
    "seed": 42,  
    "epochs": 200,  
    "learning_rate": 0.0001,  
    "betas": [  
      0.8,  
      0.99  
    ],  
    "eps": 1e-09,  
    "batch_size": 8,  
    "fp16_run": false,  
    "lr_decay": 0.99995,  
    "segment_size": 16384,  
    "init_lr_ratio": 1,  
    "warmup_epochs": 0,  
    "c_mel": 45,  
    "c_kl": 1.0,  
    "skip_optimizer": false  
  },  
  "data": {  
    "training_files": "Data/meimei/filelists/train.list",  
    "validation_files": "Data/meimei/filelists/val.list",  
    "max_wav_value": 32768.0,  
    "sampling_rate": 44100,  
    "filter_length": 2048,  
    "hop_length": 512,  
    "win_length": 2048,  
    "n_mel_channels": 128,  
    "mel_fmin": 0.0,  
    "mel_fmax": null,  
    "add_blank": true,  
    "n_speakers": 1,  
    "cleaned_text": true,  
    "spk2id": {  
      "keqing": 0  
    }  
  },  
  "model": {  
    "use_spk_conditioned_encoder": true,  
    "use_noise_scaled_mas": true,  
    "use_mel_posterior_encoder": false,  
    "use_duration_discriminator": true,  
    "inter_channels": 192,  
    "hidden_channels": 192,  
    "filter_channels": 768,  
    "n_heads": 2,  
    "n_layers": 6,  
    "kernel_size": 3,  
    "p_dropout": 0.1,  
    "resblock": "1",  
    "resblock_kernel_sizes": [  
      3,  
      7,  
      11  
    ],  
    "resblock_dilation_sizes": [  
      [  
        1,  
        3,  
        5  
      ],  
      [  
        1,  
        3,  
        5  
      ],  
      [  
        1,  
        3,  
        5  
      ]  
    ],  
    "upsample_rates": [  
      8,  
      8,  
      2,  
      2,  
      2  
    ],  
    "upsample_initial_channel": 512,  
    "upsample_kernel_sizes": [  
      16,  
      16,  
      8,  
      2,  
      2  
    ],  
    "n_layers_q": 3,  
    "use_spectral_norm": false,  
    "gin_channels": 256  
  },  
  "version": "2.0"  
}

python3 train_ms.py

python3 server_fastapi.py

https://pan.baidu.com/s/1KtNb4wb4UbsHrwVKyTlT0g?pwd=v3uc

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Bert-VITS2V2.0.2构建数据集

Bert-VITS2V2.0.2数据集切分

Bert-VITS2V2.0.2数据集重采样和标注

Bert-VITS2 V2.0.2开始训练

Bert-VITS2 V2.0.2过拟合 问题

结语

发表回复取消回复

Bert-VITS2V2.0.2构建数据集

Bert-VITS2V2.0.2数据集切分

Bert-VITS2V2.0.2数据集重采样和标注

Bert-VITS2 V2.0.2开始训练

Bert-VITS2 V2.0.2过拟合问题

结语

相关文章

发表回复 取消回复

发表回复取消回复