タグ

2024年2月7日のブックマーク (3件)

  • (Style-)Bert-VITS2 JP-Extra (日本語特化版)について

    宣伝 Style-Bert-VITS2のチュートリアル解説動画を作りました discordサーバー「AI声づくり研究会」によく出没しています 概要 2024-02-01、音声合成(TTS)の中国発オープンソースのBert-VITS2の日語特化版のBert-VITS2 JP-Extra がリリースされ、私が作っているそれの改造版 Style-Bert-VITS2 でもJP-Extra版を2/3に使えるようになりました(しました)。 実際にどんな感じかは オンラインのデモ 上で試せるのでぜひお試しください。 これにより日語の発音やアクセントやイントネーション等の自然性が上がり、クリアさや学習を回していったときのガタツキが大きく減る傾向があります。英語中国語で音声合成したいという需要がなく日語しか使わない場合はJP-Extra版を使うことを強くおすすめします。 稿では、以前の の記事で

    (Style-)Bert-VITS2 JP-Extra (日本語特化版)について
    kazuph1986
    kazuph1986 2024/02/07
    音素の変換方法、同時に生み出しているのすごい。
  • プログラミングとは経営判断の集積である - 分裂勘違い君劇場 by ふろむだ

    ソースコードの一行一行は、経営判断そのものだ。 どの部分を汎用的につくり、どの部分をやっつけで作るか、そして、どの部分をパフォーマンス優先でつくり、どの部分を可読性優先でつくるかは、そのソフトウェアステムを使って今後どのようなビジネス展開をするか、ということと一体不可分だ。プログラマーは、絶え間なく改変されていく部分と、財産として今後も使われつづけそうな部分を意識しながらコーディングする。そして、ここでいう財産とは、プログラマが財産とみなすものであるだけでなく、同時に経営的・財務的な意味においても財産であり、会社のバランスシートの「資産」の項目に登場するような性質のものだということは、多くのエンジニアが漠然としかいしきしていないように見える。 「このルーチンは、時間がかかっても、汎用的なライブラリやフレームワークにしておこう」、とエンジニアが「なんとなく」決めたとき、実は、そのエンジニア

    プログラミングとは経営判断の集積である - 分裂勘違い君劇場 by ふろむだ
  • 3Dモデルの配信サーバーでRustとZstandardを採用して数倍のパフォーマンス向上を実現した - pixiv inside

    はじめに こんにちは、VRoid部所属のエンジニアのyueです。 この度VRoid Hubで3Dモデルの配信サーバーの見直しを行い、技術選定から始めRustとZstandard (zstd)を採用した実装に切り替えました。 結論から見るに従来のNode.js製サーバーと比べて以下のことを実現しました。 最大のレスポンス時間が 1.5 ~ 2.5s から 300 ~ 400msまで低下 平均のレスポンス時間が 700 ~ 800ms から 150 ~ 200msまで低下 サーバーのCPU使用率が ~ 50% から ~ 10%まで低下 docker image のサイズが ~ 346mb から ~ 21mb程度まで削減 配信されるファイルサイズが平均 10 ~ 20% 軽量化されました レスポンス時間 CPU使用量 (上からAVG(MAX), AVG, AVG(MIN)) メモリー使用量に関し

    3Dモデルの配信サーバーでRustとZstandardを採用して数倍のパフォーマンス向上を実現した - pixiv inside
    kazuph1986
    kazuph1986 2024/02/07
    こういう記事が読みたかったという内容。