Linux や WSL2 での開発を想定しています。
# Install `asdf` before you start if you haven't already.
# asdf: https://asdf-vm.com/guide/getting-started.html
# Clone this repository.
git clone https://github.com/omasakun/concat-vc.git
cd concat-vc
# Install the required tools and packages.
asdf install
pdm install -G :all
# Now you are ready to go!
source .venv/bin/activate
python engine/hello.py変換先の音声が十分にあるなら、変換元の声の発音に近い変換先話者の音声を切り貼りするだけでもそれなりにうまく変換できるかもしれないと思ったので、試してみた。
先の Attempt 01 では、音程があっていない音声を無理やりつなげているせいでうまくいかないように見えた。
なので今度は、音程を調節してから切り貼りするようにしたら良くなるか試してみる。
→ 音程によらない表現を作るのがうまくできなかったので、ひとまず後回しにした。
Fragment VC がどれくらいの性能なのか、実際に確認してみる。
公式の実装があるので、それを使ってみる。
- Faiss (efficient similarity search)
- wav2vec 2.0 (phonetic feature extraction)
- CREPE (pitch estimation)
- AdaSpeech (conditional layer normalization)
- HiFi-GAN (audio waveform generation)
- JVS corpus (free multi-speaker voice corpus)
- FastSpeech 2, FastPitch (introduced me to the world of voice conversion)
- FragmentVC (inspired me to use a similarity search)