並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 7 件 / 7件

新着順 人気順

voicebox githubの検索結果1 - 7 件 / 7件

  • Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能

    Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能 米Metaは6月16日(現地時間)、新たな音声生成AIモデル「Voicebox」を開発したと発表した。音声の編集、サンプリング、スタイルの設定などを行える。 音声とテキストを入力することで、以下のような音声を出力できる。 入力した声で入力したテキストを読み上げる音声クリップを作成する 録音した音声から犬の鳴き声やブザー音などのノイズを除去する 録音した音声の言い間違いを修正する 1つの言語のスピーチを同じ声のまま別の言語に変換する(英語の音声を仏語に、など) 1つのテキストを多様な声で読み上げる Metaは、Voiceboxで将来的にはメタバース内のバーチャルアシスタントやNPC(ノンプレイヤーキャラクター)が自然な声で話せるようになるとしている。また、自分の声のまま(本来は話せない)外

      Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能
    • Meta、テキストプロンプトで作曲できる生成AIスイート「AudioCraft」をオープンソース化

      米Metaは8月2日(現地時間)、テキストプロンプトから音楽や音声を生成する生成AIツールスイート「AudioCraft」をオープンソース化したと発表した。トレーニングに使うデータの多様化もオープンソース化のねらいの1つだ。 AudioCraftは、エフェクトやサウンドスケープを生成する「AudioGen」、テキストからメロディーを生成する「MusicGen」、ニューラルネットワークベースのオーディオ圧縮コーデックの「EnCodec」の3つのコンポーネントで構成されている。MusicGenは単体で6月にオープンソース化されている。EnCodecは昨年11月に公開済みだが、最近の改良でより高品質な音楽生成が可能になったという。 MusicGenは、Metaが所有する音楽と、「この目的のために特別にライセンスを取得した音楽」をあわせて2万時間分のデータでトレーニングしたとしている。 Metaは

        Meta、テキストプロンプトで作曲できる生成AIスイート「AudioCraft」をオープンソース化
      • GitHub - jamiepine/voicebox: The open-source voice synthesis studio powered by Qwen3-TTS.

        Voicebox is a local-first voice cloning studio with DAW-like features for professional voice synthesis. Think of it as a local, free and open-source alternative to ElevenLabs — download models, clone voices, and generate speech entirely on your machine. Unlike cloud services that lock your voice data behind subscriptions, Voicebox gives you: Complete privacy — models and voice data stay on your ma

          GitHub - jamiepine/voicebox: The open-source voice synthesis studio powered by Qwen3-TTS.
        • Optimal Transport Conditional Flow Matching - 拡散モデルに取って代わる次世代の生成技術?

          Optimal Transport Conditional Flow Matching - 拡散モデルに取って代わる次世代の生成技術? こんにちは!Fusic 機械学習チームの鷲崎です。最近、音声や言語処理に興味がありますが、機械学習モデルの開発からMLOpsまでなんでもしています。もし、機械学習で困っていることがあれば、気軽にDMください。 本記事では、Flow Matching (FM)と、その発展版であるOptimal Transport Conditional Flow Matching (OT-CFM)を解説します。最近の生成AIでは、拡散モデルがよく使用されていますが、Flow Matchingは、拡散モデルに取って代わる可能性がある生成技術と考えています。 おもに、Improving and Generalizing Flow-Based Generative Models

            Optimal Transport Conditional Flow Matching - 拡散モデルに取って代わる次世代の生成技術?
          • スマートホーム(HomeAssistant + ESP32 + ESPHome + AI)まとめ|龙集团(ロングループ)

            スマートホーム化の記録メモ。 Home Assistant以前はRaspberryPi、Intel N100ミニPCを使用していましたが、現在はM1 Mac mini(16GB)に変更しています。 Hyper-V(N100ミニP C) ・メモリ2048MB ・WIFIではなく有線LANを使用 ・仮想ネットワークスイッチを新たに作成 接続の種類:外部ネットワーク ・ネットワークアダプター MACアドレスは固定にし、ルーターの固定DHCP設定でIPアドレス設定 ・セキュアブートは無効 ・チェックポイントは無効 HA側で定期的にバックアップを取るため。 UTM(Mac mini) ・メモリ2GB ・ディスク64GB ・4コア ・ログインしないとHAOSを起動できない点を改善したい File editor Add-on 最初に入れておくべきアドオン。 Enforce BasepathはOFFを設定

              スマートホーム(HomeAssistant + ESP32 + ESPHome + AI)まとめ|龙集团(ロングループ)
            • 【TechFeed】生成AI界隈の注目記事をまとめてみました【2023年6月版】

              この記事は、TechFeed Experts Night#22 〜 エンジニアに送る、生成AI ✕ 開発/クリエイティブ最前線!の開催に際し、TechFeedのデータを元に日本語記事ランキングを紹介していくものです。 60日以内で、獲得スコアが高かった順にトップ10を紹介しています(1pt以下の記事はランキングに含めていません)。 本記事は、TechFeed Experts Night#22 〜 エンジニアに送る、生成AI ✕ 開発/クリエイティブ最前線!のセッション書き起こし記事になります。 イベントページのタイムテーブルから、その他のセッションに関する記事もお読み頂けますので、一度アクセスしてみてください。 本セッションの登壇者 こんにちは、TechFeed CEOの白石です。 この記事は、TechFeed Experts Night#22 〜 エンジニアに送る、生成AI ✕ 開発/ク

                【TechFeed】生成AI界隈の注目記事をまとめてみました【2023年6月版】
              • レベルファイブがゲーム開発やプロモーションにAIを業務で使用して効率化を図っている資料を発表|3DCG最新情報サイト MODELING HAPPY

                株式会社レベルファイブ 提出資料(PDF/6,756KB) 2023年12月11日に国産業の国際競争力の強化を図るために実施された、AI時代の知的財産権検討会で妖怪ウォッチやイナズマイレブンで有名なレベルファイブが実務でAIを使用してどのように業務を効率的に図っているのか発表した資料が公開されています。 ゲームタイトル画面のレイアウト案出しでは、stable Diffusionでレイアウト案を生成してイラストを元に映像を作成してゲームタイトル画面に使用。 3Dティストの案出しでは、キャラクターの学習素材を用意してそれをベースにStable Diffusionで様々なパターンや材料やプロンプトを指定して雰囲気や質感などのイメージ案画像を生成。 3Dマップのレイアウト案出しでは、仮の3Dマップから画像をベースに室内レイアウト案をStable Diffusionで生成して3Dマップに投影して3D

                  レベルファイブがゲーム開発やプロモーションにAIを業務で使用して効率化を図っている資料を発表|3DCG最新情報サイト MODELING HAPPY
                1