並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 44件

新着順 人気順

Demucsの検索結果1 - 40 件 / 44件

  • AIで音楽をボーカル・ドラム・ベース・その他に分離できる「Demucs」/煩雑な環境構築作業をしなくても「Colaboratory」で手軽に試せる【レビュー】

      AIで音楽をボーカル・ドラム・ベース・その他に分離できる「Demucs」/煩雑な環境構築作業をしなくても「Colaboratory」で手軽に試せる【レビュー】
    • AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す【藤本健のDigital Audio Laboratory】

        AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す【藤本健のDigital Audio Laboratory】
      • AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す(Impress Watch) - Yahoo!ニュース

        ステレオミックスされたオーディオからボーカルを抽出したり、ベースを抽出するなど、任意の音を取り出したり消すということは、昔からいろいろな人がさまざまな方法でトライしてきた、ある意味、夢のテクニックだ。それが近年、AIを用いた手法により、ほぼ完ぺきな形で実現できるようになってきており、さまざまな企業が製品化を行っている。 【この記事に関する別の画像を見る】 そうした中、オープンソースのフリーウェアでもかなり優秀なものが登場している。「Demucs」というソフトがそれだ。以前からPythonで実行するタイプのものは出ていたようだが、現在はWindowsやMacで普通に起動できるソフトも登場しており、誰でも手軽に使えるようになっている。実際試してみたので、どんなものなのか紹介してみたい。 ■ AI技術の進化で、大きく変わった夢の“音声分離” “ステレオにミックスされた音からボーカルを消してカラオ

          AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す(Impress Watch) - Yahoo!ニュース
        • Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし

          日本音響学会 学生・若手フォーラム Advent Calendar 2023 24日目 Suno AI とは、歌詞と曲のスタイル(と曲名)を指定するだけで、自動で歌詞入りの楽曲を作成してくれる生成 AI サービスです。 Suno AI 最近ではこのほかにも様々な音楽生成AIが発表されていますが、 Suno AI が特にバズっている要因はおそらく歌詞入力という他サービスではあまり無い UI と、 ボーカルが付加されることにより生成楽曲の面白さが格段に上がる点が大きいのではないでしょうか。 Suno AI 自体の使い方や詳細は多くのブログで紹介されているため特に取り上げる必要はないかと思いますが、 本記事では技術者の観点から Suno AI のようなシステムをどのようにすれば作れるか具体的に解説します。 個人的には Suno AI について、以下のような所見を持っています。 Suno AI は

            Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし
          • 生成AI「Suno」が作った楽曲は再利用できる? 分解して想像した、「Suno以降」の音楽制作と音楽体験(CloseBox) | テクノエッジ TechnoEdge

            脅威に感じたり、まだまだ不足している部分を指摘する一方で、「こういう使い方なら効率がすごく上がる」といったポジティブなアイデアが次々と生まれていて、さすがシンセサイザー、サンプリング、物理モデリング、ループベース制作、VOCALOIDといった破壊的技術をいくつもくぐりぬけてきただけのことはあります。 前回はSunoが作ったものをそのまま公開したのですが、全体的な完成度は相当に高いとはいえ、不満なポイントはいくつかあります。 ・ボーカルと伴奏が合っていない部分がある ・節回しで不自然なところがある ・全体的に音質が良くない ・無理やり展開しているところがある ・エンディングまで到達しておらず尻切れトンボ でも、楽曲としては非常に気に入っているので、部分的に直すことができればベスト。じゃあこれをベースに作り直してみようと考えたのです。最小限のアレンジを施した「歌ってみた」。これが目標です。 今

              生成AI「Suno」が作った楽曲は再利用できる? 分解して想像した、「Suno以降」の音楽制作と音楽体験(CloseBox) | テクノエッジ TechnoEdge
            • ビートルズ最後の新曲「Now And Then」はどのように現代に復活したか。公式ドキュメンタリーで分かったAIの貢献(CloseBox) | テクノエッジ TechnoEdge

              バンドとしてレコードデビューを果たしたのが1962年。解散を発表したのが1970年。その間にポピュラーミュージックを決定的に変えたロックグループ、ザ・ビートルズ。彼らの音楽が解散して半世紀以上経つのにいまだに世の中に受け入れられ、聴かれている理由は何か、と問われれば、音楽自体の素晴らしさもありますが、「その時代の最先端の技術を以て作り直しているから」だと考えます。 そんなビートルズの「新曲」の制作ドキュメンタリーが11月2日早朝に公開されました。4分8秒のフル楽曲は午後11時に聞けるようになっています。ここでは、その制作過程でどんなことが行われていたのかをまとめてみようと思います。 ビートルズはレコーディング技術の最先端を行っていました。潤沢な資金と、ツアーをやめたことによる時間、レコーディング知識に長けたプロデューサー(ジョージ・マーティン)、ビートル達が要求するサウンドを新しいアイデア

                ビートルズ最後の新曲「Now And Then」はどのように現代に復活したか。公式ドキュメンタリーで分かったAIの貢献(CloseBox) | テクノエッジ TechnoEdge
              • 今週のはてなブックマーク数ランキング (2022年9月第2週) - はてなブックマーク開発ブログ

                2022年9月5日にブラウザ版はてなブックマークのトップページに「あとで読むランキング」を新設しました。 bookmark.hatenastaff.com これを機に、はてなブックマーク開発ブログにて「ブックマーク数ランキング(週間/月間)」を更新していきます。「あとで読むランキング」とあわせてお楽しみください。 はてなブックマーク数ランキング〔2022年9月第2週〕 はてなブックマークのブックマーク数が多い順に記事を紹介する「はてなブックマーク数ランキング」。9月5日(月)〜9月11日(日)〔2022年9月第2週〕のトップ30です*1。 順位 タイトル 1位 150 分で学ぶ高校数学の基礎 - Speaker Deck 2位 いし🏔️役立つ法律情報はここ! on Twitter: "40代以上は聞いてください。いつかは訪れる親の死。前触れもなく突如おきる。お葬式、保険証の返却、年金、相

                  今週のはてなブックマーク数ランキング (2022年9月第2週) - はてなブックマーク開発ブログ
                • ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。

                  ※つくよみちゃんイラスト素材:花兎*さん 概要(忙しい人向け) 手軽にローカル LLM (音声・立ち絵付き) と会話できるソフトウェア ez-chat-llm を開発しました。動作の様子は動画 (https://www.nicovideo.jp/watch/sm43196446) からご覧いただけます。 ez-chat-llm は、GitHub のリポジトリ (https://github.com/offtoung/ez-chat-llm) から利用できます。また、Google Colab Pro をお使いの方は、ノートブックから簡単に試せます。 副産物として、Pythonから簡単に利用できる音声合成ライブラリ eztts ができました。なんと、このために音声合成モデルをフルスクラッチで学習するという手の込みようです。 上記の GitHubリポジトリをクローンしたディレクトリに入り、次のよ

                    ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。
                  • GitHub - facebookresearch/demucs: Code for the paper Hybrid Spectrogram and Waveform Source Separation

                    Important: As I am no longer working at Meta, this repository is not maintained anymore. I've created a fork at github.com/adefossez/demucs. Note that this project is not actively maintained anymore and only important bug fixes will be processed on the new repo. Please do not open issues for feature request or if Demucs doesn't work perfectly for your use case :) This is the 4th release of Demucs

                      GitHub - facebookresearch/demucs: Code for the paper Hybrid Spectrogram and Waveform Source Separation
                    • AIボーカル除去・抽出ソフト 「Ultimate Vocal Remover」の使い方と最良設定について - YTPMV.info

                      2023/01/13 追記 最新版ではこの記事で紹介しているものに加えいくつかの昨日が追加されています。使用の上でこの記事の内容で問題ありませんが、後日アプデ要素について追記します 要旨 機械学習を用いたボーカル除去ソフト「Ultimate Vocal Remover」導入方法・使用方法を解説した上で、いくつかの学習モデルを用い複数条件でボーカル抽出を行い、ボーカル抽出に適したモデル・設定を追求した。その結果、VR Architectureメソッドの3_HP-vocalUVR.pthと、MDX-netメソッドのUVR-MDX-NET Mainモデルでのボーカル抽出が精度が高いという結論になった。両者でのモデルで抽出した後にManual Ensembleで合成するとより良い抽出となるかもしれない。 設定については、結論の項目のスクショを参考のこと。 また、楽曲でのボーカル抽出とは別に、BGM

                        AIボーカル除去・抽出ソフト 「Ultimate Vocal Remover」の使い方と最良設定について - YTPMV.info
                      • 音源を4つに分解するソフト Demucs Gui

                        動作要件 CPUオンリーでも動作しますが解析にかなり時間が掛かります。 なのでGPU使用が前提と考えた方がいいです。 その分SpleeterGUIより音がより分離する場合もあります。 システム要件 Windows 8 以降 64bitのみ macOS 10.15 以降(intelCPUのみ) ハードウェア メモリ 最小 6 GB (曲が長いほど多くのメモリが必要) NVIDIA GPUのみ 最低3 GB CPUのみでも動作可(かなり低速) ダウンロード 今回はCarlGao4さんが作成したDemucs Guiを使用します。 GitHubページ

                          音源を4つに分解するソフト Demucs Gui
                        • StemRoller - Make stems, instrumental, or acapella version of any song!

                          StemRoller enables anyone to make karaoke, vocal, and stem tracks from their favorite songs. Simply type the name of a song into the search bar - StemRoller will find the song online and split it into four stems: vocals, drums, bass, and everything else. For your convenience, an instrumental will also be created, containing all non-vocal stems mixed down into one track. StemRoller is totally free

                            StemRoller - Make stems, instrumental, or acapella version of any song!
                          • Demucs v4の簡単インストーラ - Qiita

                            Demucsは音楽データをAIを使ってドラム・ベース・ボーカル・その他に高精度に分離するツールです。 詳細は試用記事やサンプルを見てもらうとして、音楽ゲーム(BeatSaber)の譜面作成の音取りに便利そうなので紹介したいのですが、一般の人には結構ハードルが高いです。 GUI版のDemucs-Guiもありますが、Demucs v3で開発が止まっていて最新のv4には対応していません。 DemucsのインストールはPythonでpip installするだけですが、環境を汚さないようにvenvで仮想環境を作ってとか、Python3.10や3.11ではインストールに問題があるので3.9を使うとかあって、どうしようか悩みます。 なので、バージョンと環境の問題は、Python embeddableを使って、Demucsを含めたpipでのパッケージインストーラーのバッチファイルを作成することにします。

                              Demucs v4の簡単インストーラ - Qiita
                            • 🏠 Home

                              このサイトは自分の興味分野である生産性の改善、プログラミング、データの可視化、音楽やガジェット、料理、考えていることなどのメモを書いている竹内仁の個人サイトです。 私のObsidianにあるノートをQuartzというツールを使って公開しており、書きかけのものや内容に誤りがあるものなども含まれますが、ご了承ください。 データの可視化 § 可視化のフレームワーク § 可視化のフレームワーク ペイオフマトリクス プロセスマッピング 意志決定テーブル フォースフィールド分析 ポジショニングマップ SWOT分析 二分割法 4W1H オポチュニティマッピング ゴールツリー マインドマップ 可視化の作例 § Mermaid 🤖 自動でサイト更新している横浜FC関連ニュースサイト 自作ニュースサイトのシステム概要図的なもの Garmin Connectへ体重を取り込む方法 体重計からGarmin Con

                                🏠 Home
                              • StemRoller - k本的に無料ソフト・フリーソフト

                                指定した音声ファイルを、ボーカル / ベース / ドラム / シンセ 等のパートごとに分解してくれるソフト。 Facebook の音源分離技術 “ Demucs ” を採用した音声デミックスツールで、指定した音声ファイルを超簡単な操作でボーカル / ベース / ドラム / その他(キーボード、ギター 等)、および、ボーカルのみを除去したバックミュージック に分離することができます。 音源分離処理を CUDA で実行する機能も付いています。 「StemRoller」は、指定した楽曲をパートごとに分解してくれる音源分離ツールです。 Facebook の音源分離技術 “ Demucs ” を使用して音源をパートごとに分解してくれるソフトで、指定した楽曲を ボーカル ベース ドラム その他(シンセサイザー、ギター等) ボーカルのみを除去したバックミュージック といった 5 つの WAVE ファイル

                                  StemRoller - k本的に無料ソフト・フリーソフト
                                • Demucs: 音楽制作から音声認識まで、幅広く使える音源分離ツール

                                  Demucsは音楽制作から音声認識まで幅広く活躍する音源分離ツールです。 その技術は深層学習(ディープラーニング)に基づいています。 この記事ではDemucsの概要、インストール方法、基本的な使用法を紹介します。 音楽クリエイターや研究者にとって有益な情報が満載です。 本記事の内容 Demucsとは?DemucsのインストールDemucsの動作確認 それでは、上記に沿って解説していきます。 Demucsとは? Demucsは深層学習に基づく音楽ソース分離ツールです。 ボーカルや楽器のトラックを元の音楽ファイルから分離できます。 このツールはPythonで実装されており、PyTorchフレームワークを利用しています。 主な利用用途は、音楽制作やリミックスとなります。 加えて、教育目的でも用いられることがあります。 同じようなツールとして、SpleeterやOpen-Unmixが公開されていま

                                    Demucs: 音楽制作から音声認識まで、幅広く使える音源分離ツール
                                  • AI音声解析・分離ソフトDemucsの検証レポート - Qiita

                                    はじめに Demucs とは ・AI技術を利用して楽曲の各パートを分離・出力できるソフトウェアライブラリ ・開発元はMeta(Facebook)。オープンソースPJのため、無償で公開されている [2021年4月公開] Demucs の ソース Demoサイト Demucsを用いて私がやりたいこと 楽曲データから直接Sampling! DJing & Mixingに活用したい 各パートを聴き込むことで、より繊細なchoreographが出来るようになりたい 各パートを聴き込むことで、楽器演奏の練習効率をあげたい 所見 ・各パートの音域が綺麗に別れているのであれば、既存の音声データ編集ソフトでも同様のことが出来ると思います。しかし、そう単純ではない為そういった手段では分離をすることがこれまで出来ませんでした(※私が知る限り) そういった経緯より、この技術は斬新かつ魅力的と感じます。 検証01

                                      AI音声解析・分離ソフトDemucsの検証レポート - Qiita
                                    • 2022/09/08(木)の出来事 - My Bookmark

                                      けーさん[emoji:7D1]️ on Twitter: "3歳の子が亡くなった事件に対する記者会見でこの笑顔が出たことに恐怖を感じた #川崎幼稚園 https://t.co/FMMccQ9m3i" 【速報】iPhone14 Pro/Pro Max発表!ノッチを廃止、画面は常時点灯 データ分析の初心者はExcelを使い、中級者はR, Python, SAS, SPSSなどを使い、上級者は「Excel」に戻っていく「Excelに始まりExcelに終わる」 A15搭載の「iPhone 14」と大画面の「iPhone 14 Plus」。緊急衛星通信機能も 「iPhone 14」発表 衛星通信に対応、11万9800円から 「Plus」も復活 基地のある風景――小泉悠さん・評『世界の基地問題と沖縄』|じんぶん堂 静と弁慶 - 三木有 | 少年ジャンプ+ 東京地検、パーク24本社を家宅捜索 五輪担当幹

                                      • GitHub - stemrollerapp/stemroller: Isolate vocals, drums, bass, and other instrumental stems from any song

                                        StemRoller is the first free app which enables you to separate vocal and instrumental stems from any song with a single click! StemRoller uses Facebook's state-of-the-art Demucs algorithm for demixing songs and integrates search results from YouTube. Simply type the name/artist of any song into the search bar and click the Split button that appears in the results! You'll need to wait several minut

                                          GitHub - stemrollerapp/stemroller: Isolate vocals, drums, bass, and other instrumental stems from any song
                                        • Demucs - Google ドライブ

                                          メイン コンテンツにスキップキーボード ショートカットユーザー補助に関するフィードバックドライブ名前オーナー最終更新ファイルサイズ その他の並べ替えオプションフォルダOLDオーナーは非公開です2023/07/10—ダウンロードファイルDemucs20230710.zipオーナーは非公開です2023/07/13161.2 MB詳細(Alt+→)Demucsのインストール&使い方オーナーは非公開です2023/07/12392 KBダウンロード詳細(Alt+→)このフォルダにはファイルがありません。このフォルダにファイルを追加するにはログインしてくださいGoogle アプリメインメニュー

                                          • [Demucs] 機械学習で音源分離・ボーカル抽出 [Python]

                                            本記事では、機械学習手法Demucsを用いて音声ファイルから音源分離、ボーカル抽出を行う方法をご紹介します。 Demucs 概要 DemucsはFacebookresearchによって発表された音源分離手法です。 Wave-U-NetをベースとしたU-Net CNNアーキテクチャで構成され2020年4月のv1リリースから改善を重ね、2021年12月にはv3がリリースされています。 spectrogramとwaveform domainの両方で機能するEnd to Endのhybrid source separation(ハイブリッドソース分離)であるDemucsは、SONY主催のMusic Demixing Challenge 2021で優勝した手法となっています。 詳細はこちらの論文をご参照ください。 本記事では上記手法を用いて、音声ファイルからボーカル抽出を行っていきます。 デモ(Co

                                              [Demucs] 機械学習で音源分離・ボーカル抽出 [Python]
                                            • 【試行錯誤】OpenAI Whisperを活用した日本語歌詞のforced-alignment その7:最初から最後まで処理をつなげる - Qiita

                                              【試行錯誤】OpenAI Whisperを活用した日本語歌詞のforced-alignment その7:最初から最後まで処理をつなげるPythonアルゴリズム音声認識alignment 概要 「その6」までの知見を結集して、音源分離からalignmentまでの処理をワンパス通してみました。 シリーズ一覧は以下 【試行錯誤】OpenAI Whisperを活用した日本語歌詞のforced-alignment リンクまとめ 背景 「その6」までで以下の要素実装に取り組んできました。 meducsによるボーカル抽出 Whisperによる歌詞認識 inaSpeechSegmenterによるWhisperタイムスタンプの補正 認識歌詞と正解歌詞の対応付け forced-alignment 今回はこれらの処理をすべてつなげてforced-alignmentのワンパスを通してみます。 方針 各処理には時間

                                                【試行錯誤】OpenAI Whisperを活用した日本語歌詞のforced-alignment その7:最初から最後まで処理をつなげる - Qiita
                                              • DemucsGUIで音声分離!ベース、ドラム、ボーカルを人工知能(AI)で抽出。カラオケ音源も簡単に作成

                                                ドラムの練習にあたり、いつも悩んでしまうポイントがドラム抜き音源の用意です。 例えばカラオケでは、楽曲のうちボーカルのみが削除されたいわゆるオフボーカル、カラオケ音源を用いて歌います。 ドラムも同様にドラム抜き音源が欲しいのですが、カラオケ音源と違って配布されていない場合も多く、なかなか調達が難しい。 楽曲から簡単にドラム音源だけを選択して取り除くことができたら、こんな問題は解消されますね。 また、逆にドラム音源だけを抜き出すことができれば耳コピ、譜面起こしも楽になるため魅力的です。 今回ご紹介するのは、そんな夢をAIで叶える「Demucs」という音声分離ソフトウェアです。

                                                  DemucsGUIで音声分離!ベース、ドラム、ボーカルを人工知能(AI)で抽出。カラオケ音源も簡単に作成
                                                • 【kaggle】 ベンガル語音声認識コンペの振り返り

                                                  2023/7/18-2023/10/18で、ベンガル語の音声認識(ASR)に関するコンペティション(Bengali.AI Speech Recognition)がKaggleで開催されていました。 解法をまとめるには遅すぎですが、最近コンペティションに参加する余裕がないのでせめて記事でも。。。という思いでコンペティションの解法をまとめてみました。 Audio系のコンペティションはそれほど多くないので参考になればと思います。 (書き終えた後に3rdの方の記事に気づきました。。。そちらも是非ご参考ください) コンペの概要 タスク 音声を入力して、その発話テキストを出力するという、非常にシンプルな音声認識タスクです。 評価指標 音声認識タスクではデファクトなWER(Word Error Rate)です。[1] WERは正解単語数に対して、置換や挿入、削除といった操作がどのくらい行われたかで計算さ

                                                    【kaggle】 ベンガル語音声認識コンペの振り返り
                                                  • 読み上げ白上フブキが欲しいので作った - 技術日記 2月8日号 - セーブポイント

                                                    前々から声質変換とか音声合成に興味があって「やりたいな~」と思っていたのですが、Diff-SVCという手法(?)がすごいのでやってみた、という記事です。 日本語どころか、英語でもあんまりドキュメントっぽいのが無いな~って感じなのでざっくり解説。 作成したモデルは良識を持って使いましょう。 基本的な訓練の流れは公式のドキュメントを参照。 ここ→ training_and_inference_EN.markdown 必要なもの: VRAM24GB以上のGPU(訓練時) 24GBもねえよって人でもクラウドで借りればできるので、安心。今回自分はColaboratoryでやったので適当に参考にしてください。 ちなみに私はRTX 3070ユーザーです。 1. 学習データの収集 まず学習に使うデータ集め。1つの音声ファイルは5秒から15秒程度にするとよく、今はwav形式かogg形式がサポートされているよ

                                                      読み上げ白上フブキが欲しいので作った - 技術日記 2月8日号 - セーブポイント
                                                    • 音声入力・音声検索・音声ナビ・音声アプリ・音声SNS(随時更新) | ネットビジネス・アナリスト横田秀珠

                                                      音声検索に関するニュースは https://yokotashurin.com/seo/search-voice.html に移行しましたので見てね。 松浦法子さんのLINE新刊を読んでたら 自分の顔写真が出て来てビックリした イーンスパイアの横田です。 http://www.enspire.co.jp 先日に発売された松浦法子さんの新刊 「LINEでビジネスとコミュニケーションを加速する方法」 http://www.amazon.co.jp/dp/4800720036/ は、オススメですよ! さて、2012年の年頭に書いたブログで 2012年ネットビジネスで大注目の「音声」の歴史を紐解く https://yokotashurin.com/etc/koe.html という記事で2011年までの音声を 振り返ったのを覚えていますか? 以下の通りです。(太文字は今回に追加した記事です) 2007

                                                        音声入力・音声検索・音声ナビ・音声アプリ・音声SNS(随時更新) | ネットビジネス・アナリスト横田秀珠
                                                      • Demucs で音源分離 | SPLOUT BLOG

                                                        音源分離という技術分野があります。 音楽データを入力として、各楽器や音声毎に分離して出力するというものです。 例えば曲の中から歌の部分だけを分離して消してしまえばカラオケのデータになります。 音源分離は昔から様々な手法で取り組まれてきましたが、近年ではこの分野でもAI技術が応用されています。 オープンソースの音声分離ソフトウェアの一つに「Demucs」があります。 Metaの研究所が開発しているもので、GitHub で公開されています。 Python が動く環境であれば簡単にインストールできるようなので使ってみました。 https://github.com/facebookresearch/demucs/blob/main/docs/linux.md に従ってインストールします。 まずはpythonのバージョンを確認。 $ python3 --version Python 3.9.2 Py

                                                          Demucs で音源分離 | SPLOUT BLOG
                                                        • 音源分離AI「Demucs」をWindowsに導入&使用法解説-その実力を実演する-

                                                          これらをインストール&パスの通った状態にします。 仮想環境作成 適当なフォルダを作成し、フォルダ内で右クリック→「ターミナルで開く」を選択。 フォルダ内にPyhtonの仮想環境を構築します。 以下のコマンドをコピペして実行しましょう。 python -m venv venv venv\Scripts\activate.ps1 警告は気にせず貼り付けてください。 これで仮想環境が作成できました。 demucsをインストール python -m pip install -U demucs ターミナルは音源分離の際も使うので開きっぱなしにしておいてください。 2. demucsで音源分離するには demucsの設定項目 コマンド作成 基本コレだけ!! たった2つの指定項目 基本は、処理対象のファイルパスと分離された音声の保存ビットレートを指定するだけです。 python -m demucs --

                                                          • 歌唱者ダイアリゼーションの実装 --その1 データセット - Qiita

                                                            今日はとにかくデータセット集め、モデルを学習するにもデータセットが必要であるが、ここで困ったことがある。 あまりにもデータセットを集めるのが大変。 楽曲ファイルをいちいち全て聴き歌唱者が変わるごとにそのその区間を記録し歌唱者IDもつける。これを20曲ほどやった段階で流石に力尽きたこんなのやってられない。 そこで思いついたのは、同じ歌を異なる歌唱者が歌っている楽曲から歌っている箇所のみを切り出しその範囲からランダムに複数の歌唱ファイルから取り出して重ねればいいじゃんと、そしたら自動的にアノテーションもできれば一石二鳥だと。 で、作ったpythonコードがこちら ディレクトリ構造は以下のようになっている - song_name/ |- 1/ | |- vocals.wav | |- drums.wav | |- piano.wav | |- other.wav | |- 2/ | |- voc

                                                              歌唱者ダイアリゼーションの実装 --その1 データセット - Qiita
                                                            • ChatGPTだけではない、「Demucs」に代表されるAIオープンライブラリーが音楽も変える

                                                              前回のOPPO「MariSilicon Y」の記事で、OPPOの提唱するパーソナライズ/空間オーディオ技術とは、声や楽器をAIが抽出して、仮想空間に再配置するものだと書いた。このように音楽から声や楽器のパートをAIで自動的に抽出するという技術が最近のトレンドになっている。 Apple Music Sing 例えば、最近アップルがApple Musicに「Apple Music Sing」というカラオケの機能を突然追加して話題となった。これも音源のヴォーカル部分だけを抽出し、音量調節ができることから、同様の技術を使用していると想像できる。また、Apple Music Singにおいては音節ごとに歌詞を正確に合わせる技術も使われている。これもやはりAI技術によるものだろう。 アップルは今年の2月に、イギリスのスタートアップであるAI Musicを買収している。AI Musicはリスナーの心臓の

                                                                ChatGPTだけではない、「Demucs」に代表されるAIオープンライブラリーが音楽も変える
                                                              • 2022/12/06(火)の出来事 - My Bookmark

                                                                AbemaのW杯配信、ヤマトだけでなく佐川と西濃と日本郵便も呼んだ、みたいな増強で臨んでいて別の熱い戦いが繰り広げられていた 【W杯】日本は前回準優勝のクロアチア相手に善戦もPK戦で散る…8強の壁またも破れず : WasmバイナリをWin/Mac/Linuxで実行可能なバイナリファイルへ変換可能に「Wasmer 3.0」正式リリース サッカーワールドカップ 日本対クロアチア戦【速報】試合開始 | NHK AIイラストの本当の悪影響って絵師を目指す若者が激減することじゃないだろうか コロナ陽性になるまでと、なってからと、終わってから 格闘家の「ぱんちゃん璃奈」容疑者逮捕 那須川天心さんらの偽サインポスター販売疑い(神戸新聞NEXT) - Yahoo!ニュース 映画広告、歯 古代ギリシャ彫刻はカラフルだった! メトロポリタン美術館で展覧会が開催中。覆される「白さの神話」|ARTnews JAP

                                                                • kaggle Bengaliコンペ 上位解法まとめ

                                                                  はじめに ベンガル語の音声を文字起こしするというタスクのkaggleコンペが、2023/10/18まで行われていました。 上位チームの解法から学びを得て、今後のコンペに活かすことが、この記事の目的です。 コンペ概要 音声データが与えられ、それを文字起こしした精度(WER)を競うコンペでした。 テストデータについて、次のような特徴がありました。 テストデータにのみノイズやBGMがある トレーニングデータと比べて、テストデータの音声・文章が長い テストデータのみに存在する語彙がたくさんある 上位チーム解法まとめ 1. Approach 全てのチームが、ASRモデルを構築してsentenceを推論していました。 いくつかのチームは、後処理として句読点を予測するモデルを構築していました。 ASRモデルは、次のいずれかが選ばれていました。 CTC(Connectionist Temporal Cla

                                                                    kaggle Bengaliコンペ 上位解法まとめ
                                                                  • Demucsで音声を分離する手順(Windows)|まゆひら

                                                                    Last update 09-17-2023 ※処理しやすくするため「実行用バッチファイルの作成1」~「実行用バッチファイルの作成4」を追加しました。通常は3か4をご利用ください。ただし、特に4については自己責任でお願いします。 ※高性能なMVSEP MDX23モデルを使用する方法について書きました(下記)。 ▼ 本記事について概要 Meta Researchがオープンソースで開発をしているDemucsは、音声(主に楽曲)をヴォーカル、ベース、ドラム、その他に分離することができます。本記事では、Demucsをインストールして利用するための手順について説明します。 動作環境(推定) 本記事ではGPU動作を前提とします。VRAM 4GB以上のGeforce RTX 2xxx以降、Python 3.10、CUDA Toolkit 11.8であれば確実です。これらを下回る環境でも動作すると思われま

                                                                      Demucsで音声を分離する手順(Windows)|まゆひら
                                                                    • RVCで歌わせよう改訂版(Google colab使用)|prinp_san

                                                                      12/29追記 無料版Google ColabでRVCを使うことができなくなりました。 課金していない人は下の記事を見てください。 この前投稿したRVCで歌わせようの記事を作ってから、数日間いろいろと試してみました。 その結果、RVCで歌わせようで書いたものよりもっと簡単に、楽にできる方法を見つけたので紹介します。 (ローカルのrvcが入っている。なおかつRVCで歌わせようを読んだ前提で話を進めていきます。) colab版RVCなぜGoogle colab版RVCを導入していきます。 目的としては、Google様のVRAMを借りることです。 VRAMをたくさん使えることによって学習データの質が向上します。 8GBじゃRVCは足りないね。 (VRAMつよつよ勢はcolab版を導入しなくても大丈夫です。ボーカルリムーブまでとばしてね。) 導入導入はいたって簡単。 まず、ddPn08/rvc-w

                                                                        RVCで歌わせよう改訂版(Google colab使用)|prinp_san
                                                                      • 2022/12/08(木)の出来事 - My Bookmark

                                                                        事務ミス選手権とは[emoji:B04]他業界でも分かるような本当にヤバ事務ミスレベルを争うものである[emoji:B04]第1回優勝は「客の免許証をシュレッダー」第2回優勝は「担保物件ブルドーザー済」[emoji:B04] 「Twitterのタイムラインをごちゃごちゃにする仕事」は本当に実在したのか? 話題の元Twitterエンジニアに聞いた 突如終了で批判受けた家族SNS「ウェルノート」、一括ダウンロード提供へ 「みてね」移行も チャットできるAI、ChatGPTが「そこまですごくない」理由。見えてしまった限界 ダイソン空気清浄ヘッドフォン「Dyson Zone」全仕様公開 商用利用可能なフリー効果音・BGM素材サイト「Springin’ Sound Stock」に約400点の素材が追加/ 群馬・草津町長が提訴 ライターや町議3人に慰謝料4400万円求め 芸名”愛内里菜”の無期限使用禁

                                                                        • 【試行錯誤】OpenAI Whisperを活用した日本語歌詞のforced-alignment その2:音源分離 - Qiita

                                                                          概要 Whisperを活用した日本語歌詞のforced-alignmentの試行錯誤 その2です。 音源分離を事前にすることで結果が良くなるかを検証します。 シリーズ一覧は以下 【試行錯誤】OpenAI Whisperを活用した日本語歌詞のforced-alignment リンクまとめ 背景 Whisperで歌唱区間を抽出した後、wav2vecでforced-alignmentをすることで、多少それっぽい結果を得ることができました。しかし、whisperがBGMのみの区間もsegmentとして抽出してしまうなど課題もありました。 今回は、ノイズ除去してからwhisperに入力すると精度がよくなるという情報も見られたため、試してみることにしました。 spleeterで背景のBGMやSEを消してwhisperに突っ込むといい感じでテキスト起こしできる感じ pic.twitter.com/A9e

                                                                            【試行錯誤】OpenAI Whisperを活用した日本語歌詞のforced-alignment その2:音源分離 - Qiita
                                                                          • MVSEP MDX23モデルで音声を分離する手順(Windows)|まゆひら

                                                                            Last update 08-27-2023 ※表記揺れについての補足:「GPUメモリ」はWindowsの表記で、「占有GPUメモリ(GPUのVRAM)」+「共有GPUメモリ(PCのメインRAMに割当)」と解釈してください。「占有GPUメモリ」が優先的に使用され、溢れた分は「共有GPUメモリ」を使用します。 ▼ 本記事について概要 音声(主に楽曲)をヴォーカル、ベース、ドラム、その他に分離するためのDemucsを、下記の記事にて紹介したところです。 本記事では、さらに高性能なモデル(特にヴォーカルとカラオケの分離に優れる模様)を使って、Windows PC上で分離を行う手順を説明します。こちらはDemucsの標準モデル(Hybrid Demucs v4)と比べて、多くのVRAMと時間を消費します(「消費リソースについて」を参照)。 経緯 Demucsのモデルについて調べていたところ、プレプ

                                                                              MVSEP MDX23モデルで音声を分離する手順(Windows)|まゆひら
                                                                            • ULTIMATE VOCAL REMOVERのボーカル分離に感動した話|e

                                                                              先日、オープンソースのspleeterを試したのだが、SpleeterよりもULTIMATE VOCAL REMOVERの方が精度がよいと感じたので記事にする。結論から言えば、自分の中では感動するレベルの結果が得られた 前提下記の環境で実行した、GPUを使う処理も選択できるがCPUで処理させている。選択する処理によってはCPUは100%に達する可能性もある。メモリは10GB程度は使用していた。高負荷が掛かるので注意が必要である。また、選択する処理によってはとても時間が掛かる(30分~1時間程度は掛かった)ので、何か別のことをしながらするのがおすすめである。 Windows 11 Pro CPU 3.6Ghz ( AMD Ryzen 5) メモリ 32GB GPU 4GB (NVIDIA GTX 1630) 製品オープンソースで公開しているのがすごい。githubを見ると914Kダウンロード

                                                                                ULTIMATE VOCAL REMOVERのボーカル分離に感動した話|e
                                                                              • so-vits-svcで推しに歌わせてみよう in Google Colab - もみあげコレクション

                                                                                こんにちは、高森藍子です。 最近はAIの隆盛がすごいですね。絵だとか動画だとか音声だとか。僕の夢である「科学技術によって高森藍子を生み出す」もいずれ実現できてしまいそうです。シンギュラリティの時は近い。 ということで、この記事では音声変換の手法「so-vits-svc」をGoogle Colabで使う方法を解説しようと思います。 ※2023/4/9追記 Retrieval-based-Voice-Conversion(RVC)という新手法が発表されました。 個人的に感じた双方の特徴は以下の通りです。 RVC ・導入が簡単 ・前処理、学習、推論すべてWeb UIで操作できる ・学習が高速(1時間足らず)*1 ・モデルが小さい ・声の掠れが出にくい(ピッチ抽出にharvestを使用した場合) ・元の話者の特徴が出やすい ・ノイズが出やすい so-vits-svc ・複数話者の同時学習が行える

                                                                                  so-vits-svcで推しに歌わせてみよう in Google Colab - もみあげコレクション
                                                                                • 『AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す【藤本健のDigital Audio Laboratory】』へのコメント

                                                                                  テクノロジー AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す【藤本健のDigital Audio Laboratory】

                                                                                    『AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す【藤本健のDigital Audio Laboratory】』へのコメント