2024-02-01から1ヶ月間の記事一覧

reazon-research/reazonspeech(small)の音声データをWADA-SNRで信号対雑音比のデータ分析をする

初めに デモ 開発環境 準備 分析手順 データをダウンロード・ロード WAND-SNRを使って音声データの分析 分析結果をヒストグラムで表示 WADA-SNR値が100以上のデータ個数を取得 備考 Windowsでのプロセスエラー対応 並列処理対応 初めに reazon-research/reaz…

WADA SNRを使ってreazon-research/reazonspeechの音声を評価する

初めに デモ 開発環境 準備 実装 初めに WADA SNRを使って音声の評価ができるみたいなので、以下を使って実際に試してみます gist.github.com デモ 実行すると以下のようなログが表示されます Calculated SNR: 13.775574879980502 開発環境 Windows 11 Pytho…

miipher非公式リポジトリで音声ファイルのノイズ除去を行う

AI

初めに 環境 準備 実行 初めに TTSのデータセットにはクリーンな音声が必要ですが、クリーンな音声を集めるためには労力がかなり大変になります。 以下はGoogle が発表した劣化した音声を高品質に変換する音声復元(SR)技術です。今回はこちらの再現リポジト…

reazonspeech-nemo-v2を使ってフォルダ内にある音声ファイルの文字起こしをしてCSVとJsonに保存する

初めに デモ 開発環境 準備 文字お越し及びファイル保存 エラー対応 CUDAがenabledになっていない場合 ReazonSpeech/pkg/nemo-asrのインストールが失敗する 参考サイト 初めに STTやTTSの学習等をする際に文字データが必要になるのですが、音声だけある場合…

Style-Bert-VITS2の事前学習モデルを独自データで作成する

AI

初めに わかっている人向け デモ 開発環境 環境の準備 データセットの準備 データの配置 前処理の実行 事前学習の開始 pthをsafetensorsに変換する マルチGPUで学習をする場合 初めに Style-Bert-VITS2は、日本語におけるアクセントなどの改善によりTTSでは…

huggingface経由でgoogle/gemma-7b-itを動かす

AI

初めに 環境 準備 実行 初めに 以下を試してみます huggingface.co 環境 L4 GPU(Jupyter Notebook) ubuntu22.04 準備 以下のライブラリを入れます !pip install transformers bitsandbytes accelerate モデルのダウンロードをします # pip install bitsandby…

独自データを使用してQLoRAでfine turningする

AI

初めに 開発環境 データ準備 datasetsを使ったローカルのjsonのロード 初めに 以下のようにQLoRAを使ってfine turningを行いましたが、独自データを使いたい場合の適当方法についてやってみます ayousanz.hatenadiary.jp 開発環境 cuda:12.2.0-base-ubuntu22…

pandasを使ってparquetの中身を確認する

AI

環境 準備 実行 環境 python 3.11 準備 以下のライブラリをインストールします pip install pyarrow pip install pandas 実行 import pandas as pd # 既にあるDataFrameをParquet形式で保存します。 file_path = "./data.parquet" # Parquetファイルを読み込…

GoogleColobでreazonspeechのデータセットの音声とテキストをプレビューする

AI

初めに 環境 準備 実行 初めに 35,000時間のコーパスである「ReazonSpeech v2 コーパス」が公開されたので、実際にどのようなデータが入っているのかを確認したいと思います。 prtimes.jp 環境 Google Colob (CPU) 準備 必要なライブラリを入れていきます !p…