2024-01-01から1年間の記事一覧
初めに 開発環境 詳細 オブジェクト側の設定 1. Collider 2. RIgidbody 3. NRGrabbale Object オブジェクトの登録 初めに 以下の画像のように左側に自分で追加したオブジェクトをXREAL SDKを通して掴めるようにしていきます 開発環境 Unity 2022.3.42f1 XREA…
初めに 開発環境 実装 スクリプトからshaderのテクスチャーのプロパティについて MaterialPropertyBlockを使ってマテリアルのプロパティの取得・更新 備考 初めに テクスチャの位置を変更した実装を行う際に スクリプトから任意のタイミングで materialのoff…
初めに 開発環境 準備 実行 初めに ayousanz.hatenadiary.jp 開発環境 Linux H100(80GB) 準備 以下のライブラリをインストールします pip install torch --index-url https://download.pytorch.org/whl/nightly/cu121 pip install transformers==4.46.2 bits…
初めに 開発環境 実装 初めに 以下の記事でUnityでOpenAIのrealtime apiを使って音声のやり取りを行いました。今回は以下のやり取りをする際に ユーザーが入力をした音声の文字起こしを取得したい場合の設定についてです。 ayousanz.hatenadiary.jp 開発環境…
初めに 開発環境 準備 推論 使用VRAM 初めに SB Intuitions株式会社から現時点で日本語の性能が一番高い(らしい)モデルが出たので、動かしていきます。 /日本語に特化した4,000億クラスのパラメータを持つモデルを公開‼️\公開モデル:Sarashina2-8x70B詳細…
初めに 開発環境 環境構築 実行 初めに transformers v4.46.0にBitNetが追加されたみたいなので、今後加速しそうなBitNetの本家を触ってみます github.com MicrosoftのBitNetは以下です github.com 開発環境 Windows 11 CPU : AMD Ryzen 9 5900X メモリ : 64…
初めに 開発環境 準備 環境作成とライブラリのインストール 各モデルの配置 サーバーコードの修正 ローカルサーバーの起動 クライアントからサーバーを実行 エラー対応 pyopenjtalkのインストールがうまくいかない場合 torch関連が上手くいかない CMakeがな…
初めに 開発環境 実装の方針 音声フォーマットについて イベントタイプの一覧 session.created response.created rate_limits.updated conversation.item.created response.output_item.added response.output_item.done response.content_part.added respon…
初めに 開発環境 準備 簡単な接続確認 Unity Python クライアントから定期的にメッセージを送信 初めに UnityでWebSoketを使って通信をするのはいろいろ大変なので、どのライブラリを使おうかと調べていましたが、以下のライブラリを見つけたので動かしてみ…
初めに 環境 準備 実行 初めに 新しくttsのライブラリが出たので触ってみます ありがたいことに昨年度のlineサマーインターンの成果であるprompttts++のコードとデモを公開していただきました---paperhttps://t.co/2pZ7Vd057g demo (new)https://t.co/WnA5CC…
初めに 構成要素の概要 エンコーダー(Encoder) デコーダー(Decoder) ボコーダー(Vocoder) 特徴的な部分 Sway Sampling ConvNeXT トレーニングと推論 トレーニングデータ 非自己回帰型TTS 環境 準備 ライブラリのインストール 事前学習モデルの配置 実…
開発環境 詳細 開発環境 Windows python 3.10.11 uv 0.4.16 詳細 crcmod(==1.7)をインストールする際に以下のエラーが出ました。 error: Failed to prepare distributions Caused by: Failed to fetch wheel: crcmod==1.7 Caused by: Failed to run `C:\User…
初めに 開発環境 詳細 初めに 査読前の論文がアップロードされている arXivを気になったものを見ているものの気になるものを全て探すのは大変なので API経由で検索をしていきます 記事の内容のリポジトリは以下で公開しています github.com 開発環境 python …
はじめに 開発環境 インストール方法 必要なパッケージのインストール Go 言語のインストール Singularity のソースコードのダウンロード エラー対応 参考サイト はじめに Singularity は、高パフォーマンスコンピューティング(HPC)環境でのコンテナ実行を…
参考 開発環境 内容 pythonのversionの固定 ライブラリをインストール 参考 (この記事はとても参考になっています) zenn.dev 開発環境 Windows 11 内容 requirements.txt を使って ライブラリをインストールするときのメモ pythonのversionの固定 以下で 特…
初めに 環境 docker環境の作成 音声データセットの準備 ノーマライゼーション処理 文字お越しファイルの作成 セマンティックトークンのバッチ抽出 データセットをprotobufにパック LoRAの学習 学習後のLoRAの重みを変換 学習後のモデルを使って推論 備考 初…
開発環境 モデルの構造確認 開発環境 Windows 11 Python 3.10.11 モデルの構造確認 以下のコードでモデルの構造を確認できます テンソルのサイズ分布 重要なテンソルの形状 モデルの主要コンポーネント: レイヤーの構造: 埋め込み次元: モデルの設定情報: im…
開発環境 準備 実行 備考 開発環境 Windows11 python 3.11 4070 ti super 準備 まずは stable-audio-toolsをcloneします 次に依存周りをインストールしていきます pip install . このままだとcudaが認識されないので、cudaに対応したライブラリのインストー…
初めに 開発環境 詳細 初めに 開発環境 Windows 11 Python 3.11 詳細 pyannote.audioのInferenceの処理で以下のエラーが出ることがあります。 Details: choose a window size 400 that is [2, 251] こちらは windowが"whole"になっていることで、"whole" オ…
初めに Demo 開発環境 実装のアプローチ クロスフェード DTWを使ったモーフィング DTW + numbaにて高速化 初めに TTSをしている中で特定の音声同士を合わせた音声が欲しい時があります。TTSではマージがありますが、マージとは違うアプローチを考えていきま…
初めに 開発環境 準備 音声情報を再構築 初めに 音声からmel 情報を再構築をして再度音声に変換するライブラリ「BigVGAN」を動かしていきます。Demo用Gradioはありますが、あえて自分でコードを書いていきます github.com 開発環境 Windows 11 Python 3.11 …
初めに 開発環境 UnityでRustのライブラリを動かす方法について Vibratoをプラグイン化 Unity側でVibratoを呼び出す 初めに 形態素解析で有名なものとして、Mecabがありますがより高速に動く Rust版のVibratoを以下の記事で動かしてみました。今回は、それを…
初めに Demo 開発環境 Vibrato専用の辞書ファイルをダウンロード Rustのプロジェクトの作成 Vibratoを動かす 初めに より速い形態素解析ライブラリを探していて,Mecab(および高速化)や jaggerよりも速いと言われている vibratoを触ってみます。 Demo 本とカ…
MacにRustをインストールする Permissionのエラー対応 MacにRustをインストールする まず MacにRustがインストールされていることを確認します 以下のコマンドで 各種verがインストールされいれば問題ないため,次に進んでください rustc --version インスト…
初めに 開発環境 準備 データセットの準備 学習の実行 学習したモデルで推論 初めに Transformer モデルに基づく、書記素から音素への変換ライブラリがあります。このライブラリで使用できるモデルをデータセットの整形からモデルの事前学習まで作ってみます…
開発環境 ライブラリのインストール 動画および再生リストのダウンロード 開発環境 Windows 11 Python 3.11 ライブラリのインストール 以下でライブラリのインストールできます pip install yt-dlp 動画および再生リストのダウンロード まずは単体の動画のダ…
初めに 開発環境 ライブラリのインストール 実行 初めに 歌ってみたなどの音声ファイルからボーカルのみを抽出した場合、以下などのボーカル抽出ソフトなどで対応することができます。 github.com しかしこのソフトには、CLI版がないため CLIで動くものを探…
初めに 開発環境 ライブラリのインストール BM42のindexおよび検索 初めに 以下でBM25よりも精度がいいBM42が発表されたとあるので、実際に触ってみます www.atpartners.co.jp 以下の記事で、過去にBM25を動かしています。 ayousanz.hatenadiary.jp 以下で今…
開発環境 ライブラリのインストール ドキュメントから関連文の抽出 開発環境 Python 3.11 Windows 11 ライブラリのインストール 以下のドキュメントにあるようにインストールをします pip install rank_bm25 pypi.org ドキュメントから関連文の抽出 まずはい…
開発環境 ライブラリのインストール 7zファイルの解凍 開発環境 Ubuntu 22.02 ライブラリのインストール 以下で7zの解凍するためのライブラリを入れます sudo apt-get install p7zip-full 7zファイルの解凍 以下でフォルダ内にある7zファイルを解凍します fo…