日本語を含むZipファイルをコマンドから解凍する

初めに 開発環境 詳細 インストール 一つのファイルを解凍 フォルダ内すべてを解凍 初めに zipファイルを解凍するコマンドでは、日本語を含むzipファイルの場合文字化けをします。そこで違うコマンドを使用します 開発環境 Mac 詳細 インストール brew insta…

ESPNet2を使った音声とテキストのアライメント処理

AI

開発環境 ライブラリのインストール アライメント処理 開発環境 Ubuntu 22.02 Python 3.10 ライブラリのインストール 以下で必要なライブラリを入れます pip install soundfile espnet_model_zoo torch sudo pip install soundfile espnet_model_zoo torch …

KenLMで日本語文章の品質の評価

AI

初めに 開発環境 環境構築 評価コード 結果 sentencepieceを使った場合 参考サイト 初めに 以下でLLMを使って文章の評価をしていますが、速度が速いと言われるKenLMでも評価してみます ayousanz.hatenadiary.jp 開発環境 Ubuntu22.02 環境構築 sudo apt inst…

複数のLLMのPerplexityの精度を比較して、文章の自然さを判定を試す

AI

初めに 環境 準備 比較対象のモデル 対象のデータ 複数のモデルでPerplexityの値を取得 結果 初めに 環境 L4 GPU ubuntu22.04 準備 ライブラリをインストールします pip install torch transformers huggingface_hub 比較対象のモデル stabilityai/StableBel…

cl-tohoku/bert-base-japaneseを使って文章の自然さを判定する

AI

開発環境 ライブラリのインストール データの準備 文章の自然さの判定 開発環境 Ubuntu 22.02 Python 3.10 ライブラリのインストール pip install torch transformers pip install fugashi ipadic データの準備 以下のようなデータを準備します それと僕が材…

文章の類似度にminineedleを使って類似度測定を行う

AI

初めに 開発環境 ライブラリのインストール minineedleで使用できるアルゴリズムについて 複数の文章で実行 初めに 文章の類似度に minineedleを教えていただいたので触ってみます。ライブラリの内容を見る感じ タンパク質配列間などを記載があるので、生物…

espnet/yodasの音声データをmp3に変換してローカルに保存する

AI

開発環境 ライブラリのインストール mp3に変換・保存 開発環境 Ubunts 22.02 ライブラリのインストール pip install pydub sudo apt-get install ffmpeg pip install librosa soundfile mp3に変換・保存 以下で.arrowで保存されているデータをmp3に変換して…

Rustの形態素解析ライブラリのlinderaを動かす

初めに デモ 開発環境 環境構築 プロジェクトの作成 ビルドと実行 初めに Rustで動く辞書サイズが小さくなった形態素解析ライブラリが出ているみたいなので触ってみます Rust製の多言語対応(日本語、中国語、韓国語)形態素解析器Linderaのv0.29.0をリリー…

ChromeDBとBeluuuuuuga/Japanese-Instruction-Linux-Command-169を使って質問に対する適切なLinuxコマンドを探すRAGを構築する

AI

初めに デモ 開発環境 Chromeとは RAGシステムの構築 ライブラリの準備 DBの構築とデータの追加 質問をして回答を取得 初めに 珍しい?データセットがあったので、こちらを使ってLinuxで操作したいことがあるけどコマンドがわからない場合に雑に質問ができる…

マルチGPUででLLMの学習時をする際の「NCCL communicator and retrieving ncclUniqueId」のエラーの対応

AI

開発環境 nvidia-smi nvcc 詳細 開発環境 NVIDIA RTX A5000 × 7(シングルノード) Ubuntu 22.04.4 LTS nvidia-smi +-----------------------------------------------------------------------------------------+ | NVIDIA-SMI 550.54.14 Driver Version: 55…

reazon-research/reazonspeech(tiny)の音声データをNISQAで音声品質と自然さの評価のデータ分析をする

AI

初めに 環境 分析処理の方向性 reazonspeechのデータフォーマット NISQAの実行方法について 分析の方向性 前処理 reazonspeechのデータをflacに変換 flacファイルをwavファイルに変換 NISQAでwavファイルを分析 CSVから分析 初めに NISQAを使ってreazon-rese…

ffmpegを使ってflacファイルをwavファイルにGNU Parallelを使って並列処理で変換をする

AI

初めに 開発環境 詳細 初めに 開発環境 cuda:12.2.0 ubuntu22.04 詳細 以下のコードにて、指定したフォルダ内にあるflacファイルをwavファイルに変換します。このとき -j $(nproc) でCPUの最大コア数を指定しているのため、必要に応じて変更してください #!/…

reazon-research/reazonspeech(tiny)のデータセットをflac及びwavファイルで個別に保存する

AI

環境 準備 実行 pythonでflacに変換 pythonでwavに変換 変換したwavファイルの情報を確認 ffmpegでflacからwavに変換 環境 L4 GPU ubuntu22.04 準備 実行 pythonでflacに変換 from datasets import load_dataset import os # データセットをロード ds = load…

reazon-research/reazonspeech(tiny)の音声データをSpeechMOSで音声の自然さのデータ分析をする

AI

初めに 環境 準備 SpeechMOSによるデータ分析 初めに 前回は、WADR-SNRで分析をしました。今回は SpeechMOSを使って音声の品質を分析していきます ayousanz.hatenadiary.jp 環境 Google Colob(CPU) 準備 必要なライブラリを入れていきます !pip install data…

GaLoreを使って0.01Bモデル(EN)を作ってみる(モデルが保存できない)

AI

初めに 環境環境 準備 学習 初めに LoRAよりもメモリ効率がよく学習ができる手法であるGaLoreで試してみます 論文のabstractの日本語訳は以下です(claude 3 opus を使用) 大規模言語モデル(LLM)の学習では、重みと最適化器の状態のサイズが増大するため、…

intfloat/e5-mistral-7b-instructを動かす

AI

初めに 環境 準備 実行 初めに 日本語の埋め込みモデルでスコアが高い intfloat/e5-mistral-7b-instructを触ってみます 参考(JapaneseEmbeddingEval) github.com 環境 L4 GPU ubuntu22.04 準備 ライブラリの追加をします !pip install flash_attn -U !pip in…

cl-nagoya/shioriha-large-ptを動かす

AI

初めに 環境 準備 実行 初めに 公開されたので触っていきます 東北大BERT-largeに対し、batch size 8192, 系列長 256で、日本語WikipediaやMMARCOといった弱教師データによる対照事前学習を行ったモデルであるshioriha-large-ptを公開しました。文埋め込みに…

TripoSRを動かす

AI

初めに 環境 準備 実行 初めに text to 3DがStabilityAIから出たので触ってみます 新リリース@tripoAI とのコラボレーションにより、TripoSR をリリースしました。TripoSR は、1秒以内に高品質なアウトプットを作成できる新しい image-to-3D モデルです。詳…

MeloTTSを動かす

AI

初めに 環境 準備 実行 初めに 新しいTTSのライブラリが出ていたので触っていきます。 以下概要です MeloTTS is a high-quality multi-lingual text-to-speech library by MyShell.ai. Supported languages include: The Chinese speaker supports mixed Chi…

フォルダ内の全てファイルの先頭に特定の文字を挿入するコマンド

開発環境 内容 開発環境 Mac 内容 特定のフォルダ内のファイルに text という単語を入れたい場合は、以下のように実行します cd /path/to/target_folder && for file in *; do mv "$file" "text$file"; done これによって temp.text というファイルの場合は…

ITAコーパスをファイル名と本文のみに変換するスクリプトを作成する

初めに 環境 変換コード 実行 初めに TTSの学習データを作る際に 音声コーパスにはよく ITAコーパスが用いられることがあります。このコーパスは以下のフォーマットで作成されています. ファイル名:本文,ヨミ こちらを学習に使う際にヨミの部分は、必要がな…

フォルダ内にある音声ファイルの合計を計算する

初めに 環境 準備 実行 初めに 音声処理をする際にフォルダ内に音声ファイルがあるかを確認したいと思う時があります。その際に使用できる簡単なスクリプトを作ります 環境 L4 GPU ubuntu22.04 準備 必要なライブラリを入れます sudo apt update sudo apt in…

独自のデータセットで学習したLoRAモデルをllama.cppで動かす

AI

初めに 環境 LoRAモデルの作成(一部割愛) llama.cppでの変換 LoRAのテスト 初めに 以前に独自のデータセットをQLoRAを使い fine tuningを行いました。ここで作られてたLoRAモデルをllama.cppでも使っていきたいと思います ayousanz.hatenadiary.jp 今回はつ…

tokyotech-llm/Swallow-7b-plus-hfをGoogleColobで動かす

AI

初めに 環境 準備 ライブラリの追加 モデルのロード 実行 サンプルプロンプト まどマギプロンプト 使用リソース 初めに Swallow-7bよりも精度が高いモデルが出たみたいなので触ってみます huggingface.co まどマギプロンプトの場合は、以下のようになります …

LayerDiffusionをGoogle Colobで動かす

AI

初めに 環境 準備 実行 備考 初めに 背景を透過できる画像生成ができるLayerDiffusionが出てきたので触っていきます。今回はColob版が公開されていたのでこちらでやっていきます LayerDiffusion 能用了!作者更新了 README ,Forge 版已优先支持了基础的图像…

reazon-research/reazonspeech(small)の音声データをWADA-SNRで信号対雑音比のデータ分析をする

初めに デモ 開発環境 準備 分析手順 データをダウンロード・ロード WAND-SNRを使って音声データの分析 分析結果をヒストグラムで表示 WADA-SNR値が100以上のデータ個数を取得 備考 Windowsでのプロセスエラー対応 並列処理対応 初めに reazon-research/reaz…

WADA SNRを使ってreazon-research/reazonspeechの音声を評価する

初めに デモ 開発環境 準備 実装 初めに WADA SNRを使って音声の評価ができるみたいなので、以下を使って実際に試してみます gist.github.com デモ 実行すると以下のようなログが表示されます Calculated SNR: 13.775574879980502 開発環境 Windows 11 Pytho…

miipher非公式リポジトリで音声ファイルのノイズ除去を行う

AI

初めに 環境 準備 実行 初めに TTSのデータセットにはクリーンな音声が必要ですが、クリーンな音声を集めるためには労力がかなり大変になります。 以下はGoogle が発表した劣化した音声を高品質に変換する音声復元(SR)技術です。今回はこちらの再現リポジト…

reazonspeech-nemo-v2を使ってフォルダ内にある音声ファイルの文字起こしをしてCSVとJsonに保存する

初めに デモ 開発環境 準備 文字お越し及びファイル保存 エラー対応 CUDAがenabledになっていない場合 ReazonSpeech/pkg/nemo-asrのインストールが失敗する 参考サイト 初めに STTやTTSの学習等をする際に文字データが必要になるのですが、音声だけある場合…

Style-Bert-VITS2の事前学習モデルを独自データで作成する

AI

初めに わかっている人向け デモ 開発環境 環境の準備 データセットの準備 データの配置 前処理の実行 事前学習の開始 pthをsafetensorsに変換する マルチGPUで学習をする場合 初めに Style-Bert-VITS2は、日本語におけるアクセントなどの改善によりTTSでは…