エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
LLMベースTTS「CosyVoice3」を完全ONNX化してPyTorchなしで推論する - yousanのメモ
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
LLMベースTTS「CosyVoice3」を完全ONNX化してPyTorchなしで推論する - yousanのメモ
はじめに 成果物 (ONNXモデル/推論スクリプト) CosyVoice3のアーキテクチャ Zero-Shot音声クローニング... はじめに 成果物 (ONNXモデル/推論スクリプト) CosyVoice3のアーキテクチャ Zero-Shot音声クローニングの仕組み 開発環境 ONNXエクスポート 生成されたONNXファイル LLMのKVキャッシュ分割 HiFTのFP32必須問題 PyTorchフリー推論の実装 依存パッケージ NumPy/SciPyによるSTFT/ISTFT実装 推論ループの実装 発見した問題と解決策 言語タグが発音される問題 ONNX Runtimeのバージョン問題 使い方 環境構築 推論実行 はじめに CosyVoice3は、Alibaba FunAudioLLMが開発したLLMベースの音声合成(TTS)システムです。9言語以上に対応し、ゼロショット音声クローニングが可能な最新のTTSモデルです。 今回、このCosyVoice3を完全にONNX化し、PyTorchなしで推論できるようにしました。U

