stealthinuのブックマーク / 2022年4月22日

stealthinu id:stealthinu

2022年4月22日のブックマーク (6件)

GitHub - VOICEVOX/voicevox_engine: 無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXの音声合成エンジン
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
stealthinu 2022/04/22
VOICEVOXではHTTPサーバへのリクエストに対しコアで変換したものを返すという形にして「音声変換エンジンサーバ」として独立するよう設計されてる。

deeplearning

音声
リンク
【PyTorch】既存モデルをONNXに保存しC#で推論する方法
PyTorchで既存モデルをONNXファイルに保存今回は、画像認識モデル（Object Detection）をONNXファイルに保存するサンプルです。入力画像サイズや出力の名前を使用するモデルに合わせる必要があります。 import torch import torchvision # 入力画像サイズ(N, C, H, W) x = torch.randn(1, 3, 480, 640) # 学習済みモデル # 参考 https://pytorch.org/vision/main/models.html#object-detection-instance-segmentation-and-person-keypoint-detection model = torchvision.models.detection.fasterr cnn_mobilenet_v3_large_320_fpn
stealthinu 2022/04/22
PyTorchで学習したものをONNXにして試した実際例。結構お手軽に利用できそうな感じではある。

pytorch

deeplearning
リンク
ONNX モデル: 推論を最適化する - Azure Machine Learning
Open Neural Network Exchange (ONNX) の使用が機械学習モデルの推論の最適化にどのように寄与するかについて説明します。 "推論" つまり "モデルスコアリング" は、デプロイされたモデルを使用して実稼働データに対して予測を生成するプロセスです。推論用に機械学習モデルを最適化するには、ハードウェア機能を最大限に活用するためにモデルと推論ライブラリを調整する必要があります。クラウドやエッジ、CPU や GPU などのさまざまな種類のプラットフォームで最適なパフォーマンスを引き出そうとすると、このタスクは複雑になります。それぞれのプラットフォームで性能と特性が異なるためです。さまざまなフレームワークのモデルがあって、それらを異なるプラットフォームで実行する必要がある場合、複雑さが増します。異なるフレームワークとハードウェアの組み合わせをすべて最適化するに
stealthinu 2022/04/22
PyTorchやTensorflowなどからONNX形式に変換したらWindowsMLのフレームワーク上でよしなに動かしてくれるらしい。VOICEVOXで利用されていて知った。Win上で学習済みネットを使いたいときは便利そう。

deeplearning

windows
リンク
VOICEVOX | 無料のテキスト読み上げ・歌声合成ソフトウェア
オープンソースVOICEVOX は OSS（オープンソース・ソフトウェア）版 VOICEVOX をもとに構築されています。製品版と OSS 版の違いやモジュール構成は VOICEVOX の全体構成をご参照ください。ソフトウェア部分は Electron + Vue 、音声合成エンジン部分は Python + FastAPI です。追加したい・改善したい機能があれば、ぜひ開発にご参加ください。
stealthinu 2022/04/22
元々はRealtime yukarinという名で開発されてたものでエディタ部、エンジン部、コア部、にわかれてる。が真のメインはonnxになっている部分でそこは公開されてない感じなのかな。

deeplearning

音声
リンク
PyInstaller より圧倒的に優れている Nuitka の使い方とハマったポイント
この記事は最終更新日から1年以上が経過しています。情報が古くなっている可能性があります。この記事は Python Advent Calendar 2021 の24日目（？？？）の記事です。 Qiita の仕様なのかわかりませんが、25日を過ぎたあとでもなぜか申し込めてしまったので、記念として空いてた枠に入れさせてもらいました。大晦日ギリギリに何の記事を書いてるんだ？となりそうですが、皆さんは PyInstaller で Python で作ったソフトを exe 化したい！と思った事はありますか？私は何度かあります。ですが、PyInstaller で作ったソフトはファイルサイズがデカい・起動が遅い・ウイルス判定されやすいとちょっと微妙な点が多いです。それでも比較的簡単に exe 化できるのでよく使われているわけですが、とはいえネイティブの exe ほどパフォーマンスは上がりません
stealthinu 2022/04/22
pythonのプログラムをWindowsのexe化するのに使えるツールでpyinstallerよりもよさそう。全部DLL化される。

python

windows
リンク
Pythonでwavファイルを書き出す
ndarrayのdtypeによって、出力するwavデータのフォーマットが変わります。例えば、int16なら16bitのPCMになります。 wavファイルの書き出し例 GarageBandで作った適当な音声データ（ステレオ）のwavファイルを読み込んで、片側のチャンネルの出力を0にしたwavファイルを作ってみます。まずは、加工の元になるデータを読み込みます。 >>>from scipy.io.wavfile import read >>> rate, data = read('test.wav') /usr/local/var/pyenv/versions/3.6.5/lib/python3.6/site-packages/scipy/io/wavfile.py:273: WavFileWarning: Chunk (non-data) not understood, skipping i
stealthinu 2022/04/22
scipyのwavfile使うとnumpyのデータをサンプリング周波数指定するだけで簡単にwavファイルとして書き出せる。

python

音声
リンク
- 2022年4月24日
- 2022年4月22日
- 2022年4月21日