ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。
はじめに こんにちは。 早速本題に入ります。 [2023/01/20追記] この記事で説明しているDepth-to-Imageモデルのドメイン適応と、適応したモデルのAUTOMATIC1111さんのWebUIでの使用が行えるColab Notebookを公開しました。 こんな感じで使えます Depth-to-Imageモデルの説明 StabilityAIが公開したStable Diffusion V2系のモデルの中に、depthモデルというものがあります。 このモデルができることは、一般的なStable Diffusionのimg2imgができることと基本的には同じで、画像とテキストを入力とし、入力された画像スタイルをテキストの指示に従って変換する、というものです。 まずは、一般的なモデル(ここではWaifu Diffusion V1.4 Epoch1を使用しています)のimg2img結果
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く