2024-12-17から1日間の記事一覧

wespeakerとxvectorの話者埋め込みモデルを使った日本語話者ダイアライゼーションの評価

AI

初めに 事前調査 開発環境 評価データ 対象のモデル 評価結果 評価方法 wespeaker xvector_jtubespeech 初めに 音声データを文字お越しをする際に、複数人の音声が入っている場合に 「誰がいつ話したのか」を推定する技術として 話者ダイアライゼーションが…

talkbank/callhomeの日本語音声をwav形式で保存する

AI

開発環境 セットアップ 実行 開発環境 python 3.9 uv セットアップ ライブラリをインストールします uv pip install datasets[audio] soundfile pydub 実行 以下でデータセットをダウンロードして、wav形式で保存します from datasets import load_dataset i…