Style-Bert-VITS2 WebUI (version 2.6.1)

モデル一覧

モデルファイル

テキスト

音高(1以外では音質劣化)

0.8 1.5

抑揚(1以外では音質劣化)

0 2

改行で分けて生成（分けたほうが感情が乗ります）

改行ごとに挟む無音の長さ（秒）

0 2

アクセント調整（数値は 0=低か1=高のみ）

改行で分けない場合のみ使えます。万能ではありません。

アクセント調整を使う

Language

話者

スタイルの指定方法

プリセットから選ぶ音声ファイルを入力

スタイル（Neutralが平均スタイル）

スタイルの強さ（声が崩壊したら小さくしてください）

0 20

情報

結果

既に1ファイル2-12秒程度の音声ファイル集とその書き起こしデータがある場合は、このタブは使用せずに学習できます。

Style-Bert-VITS2の学習用データセットを作成するためのツールです。以下の2つからなります。

与えられた音声からちょうどいい長さの発話区間を切り取りスライス
音声に対して文字起こし

このうち両方を使ってもよいし、スライスする必要がない場合は後者のみを使ってもよいです。コーパス音源などすでに適度な長さの音声ファイルがある場合はスライスは不要です。

必要なもの

学習したい音声が入った音声ファイルいくつか（形式はwav以外でもmp3等通常の音声ファイル形式なら可能）。合計時間がある程度はあったほうがいいかも、10分とかでも大丈夫だったとの報告あり。単一ファイルでも良いし複数ファイルでもよい。

スライス使い方

inputsフォルダに音声ファイルをすべて入れる（スタイル分けをしたい場合は、サブフォルダにスタイルごとに音声を分けて入れる）
モデル名を入力して、設定を必要なら調整して音声のスライスボタンを押す
出来上がった音声ファイルたちはData/{モデル名}/rawに保存される

書き起こし使い方

Data/{モデル名}/rawに音声ファイルが入っていることを確認（直下でなくてもよい）
設定を必要なら調整してボタンを押す
書き起こしファイルはData/{モデル名}/esd.listに保存される

注意

長すぎる秒数（12-15秒くらいより長い？）のwavファイルは学習に用いられないようです。また短すぎてもあまりよくない可能性もあります。この制限はVer 2.5では学習時に「カスタムバッチサンプラーを使わない」を選択すればなくなりました。が、長すぎる音声があるとVRAM消費量が増えたり安定しなかったりするので、適度な長さにスライスすることをおすすめします。
書き起こしの結果をどれだけ修正すればいいかはデータセットに依存しそうです。

モデル名を入力してください（話者名としても使われます）。

すでに適度な長さの音声ファイルからなるデータがある場合は、その音声をData/{モデル名}/rawに入れれば、このステップは不要です。

元音声の入っているフォルダパス

下記フォルダにwavやmp3等のファイルを入れておいてください

この秒数未満は切り捨てる

0 10

この秒数以上は切り捨てる

0 15

無音とみなして区切る最小の無音の長さ（ms）

0 2000

WAVファイル名の末尾に元ファイルの時間範囲を付与する

結果

Whisperモデル

HuggingFaceのWhisperを使う（速度が速いがVRAMを多く使う）

HuggingFaceのWhisperモデル

バッチサイズ

大きくすると速度が速くなるがVRAMを多く使う

1 128

言語

初期プロンプト

このように書き起こしてほしいという例文（句読点の入れ方・笑い方・固有名詞等）

ビームサーチのビーム数

小さいほど速度が上がる（以前は5）

1 10

結果

モデル名

音声をスタイルごとにサブフォルダを作り、その中に音声ファイルを入れてください。

注意

Ver 2.5.0以降では、inputs/フォルダやraw/フォルダにサブディレクトリに分けて音声ファイルを入れるだけで、スタイルベクトルが自動で作成されるので、この手順は不要です。
それ未満のバージョンで学習したモデルに新しくスタイルベクトルをつけたい場合や、学習に使ったのとは別の音声でスタイルベクトルを作成したい場合に使います。
学習との整合性のため、もし現在学習中や、今後学習する予定がある場合は、音声ファイルは、Data/{モデル名}/wavsフォルダではなく新しい別のディレクトリに保存してください。

例:

audio_dir
├── style1
│   ├── audio1.wav
│   ├── audio2.wav
│   └── ...
├── style2
│   ├── audio1.wav
│   ├── audio2.wav
│   └── ...
└── ...

音声が入っているフォルダ

音声ファイルをスタイルごとにサブフォルダに分けて保存してください。

結果

次元削減方法

v 1.3以前はt-SNEでしたがUMAPのほうがよい可能性もあります。

UMAP t-SNE

作るスタイルの数（平均スタイルを除く）

上の図を見ながらスタイルの数を試行錯誤してください。

2 10

アルゴリズム

分類する（クラスタリング）アルゴリズムを選択します。いろいろ試してみてください。

Agglomerative after reduction KMeans after reduction Agglomerative KMeans

スタイル分けの結果

注意: もともと256次元なものをを2次元に落としているので、正確なベクトルの位置関係ではありません。

スタイル番号

選択したスタイルの代表音声を表示します。

1 10

代表音声の数をいくつ表示するか

1 10

結果が良さそうなら、これを保存します。

スタイルの名前

スタイルの名前を,で区切って入力してください（日本語可）。例: Angry, Sad, Happyや怒り, 悲しみ, 喜びなど。平均音声はNeutralとして自動的に保存されます。

保存結果

複数のStyle-Bert-VITS2モデルから、声質・話し方・話す速さを取り替えたり混ぜたり引いたりして新しいモデルを作成できます。

使い方

マージ方法の選択

マージの方法には4つの方法があります。

通常のマージ new = (1 - weight) * A + weight * B: AとBのモデルを指定して、要素ごとに比率を指定して混ぜる
- 単純にAとBの二人の話し方や声音を混ぜたいとき
差分マージ new = A + weight * (B - C): AとBとCのモデルを指定して、「Bの要素からCの要素を引いたもの」をAに足す
- 例えば、Bが「Cと同じ人だけど囁いているモデル」とすると、B - Cは「囁きを表すベクトル」だと思えるので、それをAに足すことで、Aの声のままで囁き声を出すモデルができたりする
- 他にも活用例はいろいろありそう
重み付き和 new = a * A + b * B + c * C: AとBとCのモデルを指定して、各モデルの係数を指定して混ぜる
- 例えばnew = A - B としておくと、結果としてできたモデルを別のモデルと「ヌルモデルの加算」で使うことで、差分マージが実現できる
- 他にも何らかの活用法があるかもしれない
ヌルモデルの加算 new = A + weight * B: AとBのモデルを指定して、Bのモデルに要素ごとに比率をかけたものをAに足す
- Bのモデルは重み付き和などで C - D などとして作っている場合を想定している
- 他にも何らかの活用法があるかもしれない

マージの手順

マージ元のモデルたちを選択（model_assetsフォルダの中から選ばれます）
マージ後のモデルの名前を入力
指示に従って重みや係数を入力
「モデルファイルのマージ」ボタンを押す (safetensorsファイルがマージされる)
結果を簡易音声合成で確認
必要に応じてスタイルベクトルのマージを行う

以上でマージは完了で、model_assets/マージ後のモデル名にマージ後のモデルが保存され、音声合成のときに使えます。

またmodel_asses/マージ後のモデル名/recipe.jsonには、マージの配合レシピが記録されます（推論にはいらないので配合メモ用です）。

一番下にマージしたモデルによる簡易的な音声合成機能もつけています。

注意

1.x系と2.x-JP-Extraのモデルマージは失敗するようです。
話者数が違うモデル同士はおそらくマージできません。

マージ方法

通常マージ差分マージ加重和ヌルモデルマージ

モデルA

モデルファイル

モデルB

モデルファイル

weight を下の各スライダーで定める数値とすると、各要素ごとに、

new_model = (1 - weight) * A + weight * B

としてマージされます。

つまり、weight = 0 のときはモデルA、weight = 1 のときはモデルBになります。

新しいモデル名

声質

0 1

声の高さ

0 1

話し方（抑揚・感情表現等）

0 1

話す速さ・リズム・テンポ

0 1

線形補完のかわりに球面線形補完を使う

1. モデルファイル (safetensors) のマージ

情報

2. 結果のテスト

マージ後のモデルで音声合成を行います。ただし、デフォルトではスタイルはNeutralしか使えないので、他のスタイルを使いたい場合は、下の「スタイルベクトルのマージ」を行ってください。

テキスト

スタイル

スタイルの強さ

0 50

情報

結果

3. スタイルベクトルのマージ

マージ後のモデルにいくつスタイルを追加したいかを「作りたいスタイル数」で指定
マージ前のモデルのスタイルを「各モデルのスタイルを取得」ボタンで取得
どのスタイルたちから新しいスタイルを作るかを下の欄で入力
「スタイルのマージ」をクリック

スタイルベクトルの混ぜられ方

構造上の相性の関係で、スタイルベクトルを混ぜる重みは、加重和以外の場合は、上の「話し方」と同じ比率で混ぜられます。例えば「話し方」が0のときはモデルAのみしか使われません。
加重和の場合は、AとBとCの係数によって混ぜられます。

Hello world!

情報

Style-Bert-VITS2 WebUI (version 2.6.1)

必要なもの

スライス使い方

書き起こし使い方

注意

使い方

JP-Extra版について

配置の仕方

書き起こしファイル`esd.list`

自動前処理

Step 1: 設定ファイルの生成

Step 2: 音声ファイルの前処理

Step 3: 書き起こしファイルの前処理

Step 4: BERT特徴ファイルの生成

Step 5: スタイル特徴ファイルの生成

学習

方法

使い方

マージ方法の選択

マージの手順

注意

1. モデルファイル (safetensors) のマージ

2. 結果のテスト

3. スタイルベクトルのマージ

スタイルベクトルの混ぜられ方

Style-Bert-VITS2 WebUI (version 2.6.1)

必要なもの

スライス使い方

書き起こし使い方

注意

使い方

JP-Extra版について

配置の仕方

書き起こしファイルesd.list

自動前処理

Step 1: 設定ファイルの生成

Step 2: 音声ファイルの前処理

Step 3: 書き起こしファイルの前処理

Step 4: BERT特徴ファイルの生成

Step 5: スタイル特徴ファイルの生成

学習

方法

使い方

マージ方法の選択

マージの手順

注意

1. モデルファイル (safetensors) のマージ

2. 結果のテスト

3. スタイルベクトルのマージ

スタイルベクトルの混ぜられ方

書き起こしファイル`esd.list`