並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 15 件 / 15件

新着順 人気順

Demucsの検索結果1 - 15 件 / 15件

  • Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし

    日本音響学会 学生・若手フォーラム Advent Calendar 2023 24日目 Suno AI とは、歌詞と曲のスタイル(と曲名)を指定するだけで、自動で歌詞入りの楽曲を作成してくれる生成 AI サービスです。 Suno AI 最近ではこのほかにも様々な音楽生成AIが発表されていますが、 Suno AI が特にバズっている要因はおそらく歌詞入力という他サービスではあまり無い UI と、 ボーカルが付加されることにより生成楽曲の面白さが格段に上がる点が大きいのではないでしょうか。 Suno AI 自体の使い方や詳細は多くのブログで紹介されているため特に取り上げる必要はないかと思いますが、 本記事では技術者の観点から Suno AI のようなシステムをどのようにすれば作れるか具体的に解説します。 個人的には Suno AI について、以下のような所見を持っています。 Suno AI は

      Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし
    • 生成AI「Suno」が作った楽曲は再利用できる? 分解して想像した、「Suno以降」の音楽制作と音楽体験(CloseBox) | テクノエッジ TechnoEdge

      脅威に感じたり、まだまだ不足している部分を指摘する一方で、「こういう使い方なら効率がすごく上がる」といったポジティブなアイデアが次々と生まれていて、さすがシンセサイザー、サンプリング、物理モデリング、ループベース制作、VOCALOIDといった破壊的技術をいくつもくぐりぬけてきただけのことはあります。 前回はSunoが作ったものをそのまま公開したのですが、全体的な完成度は相当に高いとはいえ、不満なポイントはいくつかあります。 ・ボーカルと伴奏が合っていない部分がある ・節回しで不自然なところがある ・全体的に音質が良くない ・無理やり展開しているところがある ・エンディングまで到達しておらず尻切れトンボ でも、楽曲としては非常に気に入っているので、部分的に直すことができればベスト。じゃあこれをベースに作り直してみようと考えたのです。最小限のアレンジを施した「歌ってみた」。これが目標です。 今

        生成AI「Suno」が作った楽曲は再利用できる? 分解して想像した、「Suno以降」の音楽制作と音楽体験(CloseBox) | テクノエッジ TechnoEdge
      • ビートルズ最後の新曲「Now And Then」はどのように現代に復活したか。公式ドキュメンタリーで分かったAIの貢献(CloseBox) | テクノエッジ TechnoEdge

        バンドとしてレコードデビューを果たしたのが1962年。解散を発表したのが1970年。その間にポピュラーミュージックを決定的に変えたロックグループ、ザ・ビートルズ。彼らの音楽が解散して半世紀以上経つのにいまだに世の中に受け入れられ、聴かれている理由は何か、と問われれば、音楽自体の素晴らしさもありますが、「その時代の最先端の技術を以て作り直しているから」だと考えます。 そんなビートルズの「新曲」の制作ドキュメンタリーが11月2日早朝に公開されました。4分8秒のフル楽曲は午後11時に聞けるようになっています。ここでは、その制作過程でどんなことが行われていたのかをまとめてみようと思います。 ビートルズはレコーディング技術の最先端を行っていました。潤沢な資金と、ツアーをやめたことによる時間、レコーディング知識に長けたプロデューサー(ジョージ・マーティン)、ビートル達が要求するサウンドを新しいアイデア

          ビートルズ最後の新曲「Now And Then」はどのように現代に復活したか。公式ドキュメンタリーで分かったAIの貢献(CloseBox) | テクノエッジ TechnoEdge
        • ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。

          ※つくよみちゃんイラスト素材:花兎*さん 概要(忙しい人向け) 手軽にローカル LLM (音声・立ち絵付き) と会話できるソフトウェア ez-chat-llm を開発しました。動作の様子は動画 (https://www.nicovideo.jp/watch/sm43196446) からご覧いただけます。 ez-chat-llm は、GitHub のリポジトリ (https://github.com/offtoung/ez-chat-llm) から利用できます。また、Google Colab Pro をお使いの方は、ノートブックから簡単に試せます。 副産物として、Pythonから簡単に利用できる音声合成ライブラリ eztts ができました。なんと、このために音声合成モデルをフルスクラッチで学習するという手の込みようです。 上記の GitHubリポジトリをクローンしたディレクトリに入り、次のよ

            ローカル環境で音声・立ち絵付きのAIと会話できるソフトウェア ez-chat-llm を作りました。
          • Demucs: 音楽制作から音声認識まで、幅広く使える音源分離ツール

            Demucsは音楽制作から音声認識まで幅広く活躍する音源分離ツールです。 その技術は深層学習(ディープラーニング)に基づいています。 この記事ではDemucsの概要、インストール方法、基本的な使用法を紹介します。 音楽クリエイターや研究者にとって有益な情報が満載です。 本記事の内容 Demucsとは?DemucsのインストールDemucsの動作確認 それでは、上記に沿って解説していきます。 Demucsとは? Demucsは深層学習に基づく音楽ソース分離ツールです。 ボーカルや楽器のトラックを元の音楽ファイルから分離できます。 このツールはPythonで実装されており、PyTorchフレームワークを利用しています。 主な利用用途は、音楽制作やリミックスとなります。 加えて、教育目的でも用いられることがあります。 同じようなツールとして、SpleeterやOpen-Unmixが公開されていま

              Demucs: 音楽制作から音声認識まで、幅広く使える音源分離ツール
            • Demucs - Google ドライブ

              メイン コンテンツにスキップキーボード ショートカットユーザー補助に関するフィードバックドライブ名前オーナー最終更新ファイルサイズ その他の並べ替えオプションフォルダOLDオーナーは非公開です2023/07/10—ダウンロードファイルDemucs20230710.zipオーナーは非公開です2023/07/13161.2 MB詳細(Alt+→)Demucsのインストール&使い方オーナーは非公開です2023/07/12392 KBダウンロード詳細(Alt+→)このフォルダにはファイルがありません。このフォルダにファイルを追加するにはログインしてくださいGoogle アプリメインメニュー

              • 【kaggle】 ベンガル語音声認識コンペの振り返り

                2023/7/18-2023/10/18で、ベンガル語の音声認識(ASR)に関するコンペティション(Bengali.AI Speech Recognition)がKaggleで開催されていました。 解法をまとめるには遅すぎですが、最近コンペティションに参加する余裕がないのでせめて記事でも。。。という思いでコンペティションの解法をまとめてみました。 Audio系のコンペティションはそれほど多くないので参考になればと思います。 (書き終えた後に3rdの方の記事に気づきました。。。そちらも是非ご参考ください) コンペの概要 タスク 音声を入力して、その発話テキストを出力するという、非常にシンプルな音声認識タスクです。 評価指標 音声認識タスクではデファクトなWER(Word Error Rate)です。[1] WERは正解単語数に対して、置換や挿入、削除といった操作がどのくらい行われたかで計算さ

                  【kaggle】 ベンガル語音声認識コンペの振り返り
                • Demucs で音源分離 | SPLOUT BLOG

                  音源分離という技術分野があります。 音楽データを入力として、各楽器や音声毎に分離して出力するというものです。 例えば曲の中から歌の部分だけを分離して消してしまえばカラオケのデータになります。 音源分離は昔から様々な手法で取り組まれてきましたが、近年ではこの分野でもAI技術が応用されています。 オープンソースの音声分離ソフトウェアの一つに「Demucs」があります。 Metaの研究所が開発しているもので、GitHub で公開されています。 Python が動く環境であれば簡単にインストールできるようなので使ってみました。 https://github.com/facebookresearch/demucs/blob/main/docs/linux.md に従ってインストールします。 まずはpythonのバージョンを確認。 $ python3 --version Python 3.9.2 Py

                    Demucs で音源分離 | SPLOUT BLOG
                  • 音源分離AI「Demucs」をWindowsに導入&使用法解説-その実力を実演する-

                    これらをインストール&パスの通った状態にします。 仮想環境作成 適当なフォルダを作成し、フォルダ内で右クリック→「ターミナルで開く」を選択。 フォルダ内にPyhtonの仮想環境を構築します。 以下のコマンドをコピペして実行しましょう。 python -m venv venv venv\Scripts\activate.ps1 警告は気にせず貼り付けてください。 これで仮想環境が作成できました。 demucsをインストール python -m pip install -U demucs ターミナルは音源分離の際も使うので開きっぱなしにしておいてください。 2. demucsで音源分離するには demucsの設定項目 コマンド作成 基本コレだけ!! たった2つの指定項目 基本は、処理対象のファイルパスと分離された音声の保存ビットレートを指定するだけです。 python -m demucs --

                    • kaggle Bengaliコンペ 上位解法まとめ

                      はじめに ベンガル語の音声を文字起こしするというタスクのkaggleコンペが、2023/10/18まで行われていました。 上位チームの解法から学びを得て、今後のコンペに活かすことが、この記事の目的です。 コンペ概要 音声データが与えられ、それを文字起こしした精度(WER)を競うコンペでした。 テストデータについて、次のような特徴がありました。 テストデータにのみノイズやBGMがある トレーニングデータと比べて、テストデータの音声・文章が長い テストデータのみに存在する語彙がたくさんある 上位チーム解法まとめ 1. Approach 全てのチームが、ASRモデルを構築してsentenceを推論していました。 いくつかのチームは、後処理として句読点を予測するモデルを構築していました。 ASRモデルは、次のいずれかが選ばれていました。 CTC(Connectionist Temporal Cla

                        kaggle Bengaliコンペ 上位解法まとめ
                      • Demucsで音声を分離する手順(Windows)|まゆひら

                        Last update 09-17-2023 ※処理しやすくするため「実行用バッチファイルの作成1」~「実行用バッチファイルの作成4」を追加しました。通常は3か4をご利用ください。ただし、特に4については自己責任でお願いします。 ※高性能なMVSEP MDX23モデルを使用する方法について書きました(下記)。 ▼ 本記事について概要 Meta Researchがオープンソースで開発をしているDemucsは、音声(主に楽曲)をヴォーカル、ベース、ドラム、その他に分離することができます。本記事では、Demucsをインストールして利用するための手順について説明します。 動作環境(推定) 本記事ではGPU動作を前提とします。VRAM 4GB以上のGeforce RTX 2xxx以降、Python 3.10、CUDA Toolkit 11.8であれば確実です。これらを下回る環境でも動作すると思われま

                          Demucsで音声を分離する手順(Windows)|まゆひら
                        • MVSEP MDX23モデルで音声を分離する手順(Windows)|まゆひら

                          Last update 08-27-2023 ※表記揺れについての補足:「GPUメモリ」はWindowsの表記で、「占有GPUメモリ(GPUのVRAM)」+「共有GPUメモリ(PCのメインRAMに割当)」と解釈してください。「占有GPUメモリ」が優先的に使用され、溢れた分は「共有GPUメモリ」を使用します。 ▼ 本記事について概要 音声(主に楽曲)をヴォーカル、ベース、ドラム、その他に分離するためのDemucsを、下記の記事にて紹介したところです。 本記事では、さらに高性能なモデル(特にヴォーカルとカラオケの分離に優れる模様)を使って、Windows PC上で分離を行う手順を説明します。こちらはDemucsの標準モデル(Hybrid Demucs v4)と比べて、多くのVRAMと時間を消費します(「消費リソースについて」を参照)。 経緯 Demucsのモデルについて調べていたところ、プレプ

                            MVSEP MDX23モデルで音声を分離する手順(Windows)|まゆひら
                          • ULTIMATE VOCAL REMOVERのボーカル分離に感動した話|e

                            先日、オープンソースのspleeterを試したのだが、SpleeterよりもULTIMATE VOCAL REMOVERの方が精度がよいと感じたので記事にする。結論から言えば、自分の中では感動するレベルの結果が得られた 前提下記の環境で実行した、GPUを使う処理も選択できるがCPUで処理させている。選択する処理によってはCPUは100%に達する可能性もある。メモリは10GB程度は使用していた。高負荷が掛かるので注意が必要である。また、選択する処理によってはとても時間が掛かる(30分~1時間程度は掛かった)ので、何か別のことをしながらするのがおすすめである。 Windows 11 Pro CPU 3.6Ghz ( AMD Ryzen 5) メモリ 32GB GPU 4GB (NVIDIA GTX 1630) 製品オープンソースで公開しているのがすごい。githubを見ると914Kダウンロード

                              ULTIMATE VOCAL REMOVERのボーカル分離に感動した話|e
                            • RVCで歌わせよう 改訂版2(RVC v2使用)|prinp_san

                              アップデート来たよ。 流行に乗り遅れていてRVC v2が出ていることを知りませんでした。 知ったらやるしかないよね。 めっちゃ性能上がってるし。 一番でかいのは声がかすれなくなったことかな 性能チェック↓ v2導入1⃣ v2-RVC-WebUI-for-Japanese-AI-beginners.ipynb - Colaboratory (google.com) colab版はとりあえず上のリンクに従っていけばできると思います。 ですが私はローカル版のRVCも同時に使っていきたいと思います。 ローカル導入ローカル版を導入していきましょう。 RVC-beta.7z · lj1995/VoiceConversionWebUI at main (huggingface.co) にアクセスしてください アクセスできたらダウンロードしてRVC-beta.7zを任意の場所に展開してください。(7z:「

                                RVCで歌わせよう 改訂版2(RVC v2使用)|prinp_san
                              • 5分で動かせる!Pythonで音源分離(demucs) - Qiita

                                demucsって? 2021年4月ごろに、facebookのメタ研究チームが開発した音源分離ライブラリです。これまでspleeterなども提供されていましたが、畳み込みニューラルネットワーク(CNN)を使ったモデルとして最近注目されています。 ただ、ライブラリの細かいメソッドが紹介されているドキュメントはまだ用意されておらず、現状、使い方の参考となっているのはこのGitHubリポジトリのリードスのみなのです。 やること すでに多くのライターがdemucsについて紹介していますが、Pythonスクリプト(かつmacOS)で紹介しているものは少なかった気がするので、今回は開発環境の構築からスクリプトでの実行まで紹介できればと思います。 環境構築 まずは環境を作っていきます。今回は以下の環境で作成していきます。pythonとpythonのパッケージマネージャーが用意できていれば大丈夫です。pip

                                  5分で動かせる!Pythonで音源分離(demucs) - Qiita
                                1