2024-12-17から1日間の記事一覧

2024-12-17

wespeakerとxvectorの話者埋め込みモデルを使った日本語話者ダイアライゼーションの評価

初めに事前調査開発環境評価データ対象のモデル評価結果評価方法 wespeaker xvector_jtubespeech 初めに音声データを文字お越しをする際に、複数人の音声が入っている場合に「誰がいつ話したのか」を推定する技術として話者ダイアライゼーションが…

2024-12-17

talkbank/callhomeの日本語音声をwav形式で保存する

開発環境セットアップ実行開発環境 python 3.9 uv セットアップライブラリをインストールします uv pip install datasets[audio] soundfile pydub 実行以下でデータセットをダウンロードして、wav形式で保存します from datasets import load_dataset i…