タグ

音源分離に関するotori334のブックマーク (31)

  • Universal Speech Enhancement With Score-based Diffusion

    Universal Speech Enhancement With Score-based Diffusion This is the companion page of UNIVERSE, the universal speech enhancer described in the paper “Universal Speech Enhancement With Score-based Diffusion” by Joan Serrà, Santiago Pascual, Jordi Pons, R. Oguz Araz, and Davide Scaini. To access the paper, click here. In this page you will find basic information about the paper, three sets of speech

  • https://www.jstage.jst.go.jp/article/audiology1968/40/3/40_3_189/_pdf

    otori334
    otori334 2022/01/29
    調音結合の語音明瞭度への影響
  • インパルス応答の測定とその応用について

    技術部 高島 和博 1. はじめに 稿では、一つの測定技術とその応用例について紹介させて頂きたいと思います。 実際、この手法は音響の分野では広く行われている測定手法です。 ただ、教科書を見ても、厳密に説明するために難しい数式が並んでいたりするわけで、なかなか感覚的に理解することは難しいものです。 ここでは、私たちがこれまでに様々なお客様と関わらせて頂いた応用例を多く取り上げ、 「インパルス応答を測定すると、何が解るのか?」ということをできるだけ解り易く書かせて頂いたつもりです。 また、不足の点などありましたら、御教授の程よろしくお願いいたします。 2. インパルス応答について 皆様もどこかで、「インパルス応答」もしくは「インパルスレスポンス」という言葉は耳にされたことがあると思います。 耳にされたことのない方は、次のような状況を想像してみて下さい。 今、部屋の中で誰かが手を叩いています。

    インパルス応答の測定とその応用について
  • ブラインド信号源分離 - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "ブラインド信号源分離" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2018年12月) ブラインド信号源分離(ブラインドしんごうげんぶんり、blind source separation、BSS)は、複数の未知の信号系列を未知の線形混合系で混合した複数の測定値系列から、それぞれの信号を分離することである。 ブラインド情報源分離とも訳す。また、ブラインド分離 (blind separation)、ブラインド信号分離 (blind signal separation、BSS) ともいう。 音声に対し使われることが多く、その場合ブラインド

  • fluct_sound.pdf

    otori334
    otori334 2021/12/09
    変動音解析とは
  • Microphone array - Wikipedia

  • 任意のSignal-to-Noise比の音声波形をPythonで作ろう! : LINE Engineering Blog

    LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog この記事は、 LINE Engineering Blog 「夏休みの自由研究 -Summer Homework-」 の 12 日目の記事です。 こんにちは、LINE Ads Platformの開発チームに所属している新卒1年目の佐藤邦彦です。 記事では、Pythonを使って任意のSignal-to-Noise比(SN比)の音声波形を作る方法を紹介します。なお、記事の内容は、Clova等の弊社音声事業とは関係ありません。 音声のDeep Learning 画像処理分野においてDeep Learningが技術革新を起こしてから久しいですが、同様のことが音声処理の分野においても起きています。Deep Learningによって音声

    任意のSignal-to-Noise比の音声波形をPythonで作ろう! : LINE Engineering Blog
  • SN比 - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "SN比" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2013年3月) SN比(エスエヌひ)は、通信理論ないし情報理論あるいは電子工学などで扱われる値で、信号 (signal) と雑音 (noise) の比である。 信号雑音比 (signal-noise ratio) または 信号対雑音比 (signal-to-noise ratio) の略。SNR、S/Nとも略す。S/N比と書くのは/が比を意味するため,比が二重になり間違いである[1]。 desired signal to undesired signal ratio、D/U r

  • 無料で曲からボーカルが抜ける音楽素材分離エンジン「Spleeter」公開 iZotope RX 7との違いは? | block.fm

    無料で曲からボーカルが抜ける音楽素材分離エンジン「Spleeter」公開 iZotope RX 7との違いは? | block.fm
  • スケルチ - Wikipedia

    スケルチ (英語: squelch) は、無線通信における信号を選択するための技術。音声の雑音(ノイズ)を遮断する機能および、機器を遠隔的に制御する機能に用いられる。SQまたはSQLと略記されることもある。 受信信号がなくなった瞬間に聞こえる「ザッ」と言う音(テールノイズ)を、スケルチテールとも呼ぶ。スケルチ機能が特定の条件を満たすことを日語で「スケルチが開く」という。 音響処理での音量レベルに基づく類似の機能はノイズゲートと呼ばれる。 スケルチの種類[編集] 無信号時の雑音を遮断するためのスケルチ[編集] 無線電話の機能を持つ無線機において、無信号時にスピーカーから出力される耳障りで不快な雑音や、交信する必要のない相手方の送信する音声を遮断し、無音状態にするための機能。日語では雑音制御ともいうが、ほとんど使われない。 ノイズスケルチ[編集] FM通信に特有の、無信号時に復調器から出力

  • 30.ディープラーニングでノイズを消してみよう - keep learning blog(キープラーニングブログ)

    ――科学者とは、自然のひみつと美しさを探し求めるおとぎの国の旅人です。それは大変おもしろく、夢のある楽しい仕事なんですよ。―― マリア・スクウォドフスカ・キュリー ディープラーニングでノイズを消してみよう 論文の概要 U-Netとは U-Netのアレンジ Pythonで実装 ディープラーニングでノイズを消してみよう すっかり季節が初夏の陽気になってきたと思っていたら、暦はもう6月になっていました。キュリー夫人の言う「おとぎの国」という表現がぴったりのデンマーク生活も、そろそろ終わりを告げようとしています。 昨年7月にデンマークの土を踏んでから約1年間、短いようでとても長かったです。西洋のことわざで、「ロバが旅に出かけたところで、馬になって帰ってくるわけではない」という言葉があります。私はポニーくらいにはなれたでしょうか。 デンマーク生活で印象に残っていることはいくつかあります。そこに住む人

    30.ディープラーニングでノイズを消してみよう - keep learning blog(キープラーニングブログ)
    otori334
    otori334 2021/07/05
    “2015年頃に電子顕微鏡画像から細胞などの特定箇所を検出する(Segmentation)用途で開発された、U-Netという比較的シンプルな畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を採用”
  • 8.HPSSで音楽を分離してみよう - keep learning blog(キープラーニングブログ)

    ――私には、完璧ではない音楽のつくり方がわからないんですよ。―― ヴォルフガング・アマデウス・モーツァルト HPSSで音楽を分離してみよう 音声処理の基中の基 デジタルとアナログ サンプリング デジタルデータと離散フーリエ変換 短時間フーリエ変換(STFT) 調波打楽器音分離(HPSS) 最も基的なHPSSの理論 PythonでHPSSを実装 実行結果 HPSSで音楽を分離してみよう 私には、完璧ではない仕事のやり方がわからないんですよ。なんて、一度でいいから言ってみたいですね。天才モーツァルトだから許される一言です。 さて、飽き飽きしてるとは思いますが、今回もプログラミング関連です。最近だんだん音声処理の雰囲気が分かってきて少し面白くなってきました。でもさすがに今回でいったん最後にします(書くのが大変だし読む人も退屈だから)。 keep-learning.hatenablog.jp

    8.HPSSで音楽を分離してみよう - keep learning blog(キープラーニングブログ)
    otori334
    otori334 2021/07/04
    “STFTのWindow Widthを30msecではなく200msec程度まで長くすると、今度は歌声がPercussive側に分離されて、Harmonicはコード楽器音の旋律だけになる”
  • Python: LibROSA で調波打楽器音分離 (HPSS) - Wizard Notes

    調波打楽器音分離とは? 一般的な楽曲では、様々な楽器音が含まれています。 そのため、元の楽曲信号から直接、音楽的な情報(例:コード進行)を分析するのは 計算機ではなかなか難しいです*1。 そこで、分析の前処理として、 打楽器の音と非打楽器(調波楽器)の音を分離する調波打楽器音分離 (HPSS: Hermonic/Percussive Source Seperation) *2が良く使われています。 この記事では、HPSSの概要とPython (LibROSA) のコードの解説します。 調波打楽器音分離とは? 調波打楽器音分離のアイディア アルゴリズムの設計 非負値行列因子分解+基底クラスタリング 最適化問題(行列因子分解)として解く 深層学習を使った手法 メディアンフィルタベースの手法 LibROSAにおける調波打楽器分離(HPSS)の実装 使い方 実装の詳細 librosa.effect

    Python: LibROSA で調波打楽器音分離 (HPSS) - Wizard Notes
  • フェーズボコーダ - Wikipedia

    フェーズボコーダ(英語: Phase vocoder)は音声信号を周波数領域の振幅と位相でモデル化するボコーダである[1][注釈 1]。 フェーズボコーダの心臓部は短時間フーリエ変換 (STFT)であり、次の段階を経る。 分析:  STFTによる時間領域表現→時間-周波数表現(英語版)変換 変更:  任意の周波数成分の振幅・位相操作 再合成: 逆STFTによる周波数領域表現→時間領域表現変換 フェーズボコーダは周波数領域での変更処理により音声信号の時間伸縮とピッチ変換などを可能にする。また再合成前にSTFT分析フレームの時間的位置を変更すれば、再合成結果の時間発展を変更でき、たとえば音の時間スケール変更を実現できる。 位相コヒーレンス問題はSTFTによる時間-周波数表現 (STFT表現) の操作で必ず解決が必要な主要問題である。これは、時間軸方向にオーバーラップした分析窓(窓関数)を使用す

  • ヴォコーダー - Wikipedia

    この項目では、音楽分野のヴォコーダーについて説明しています。音声信号処理分野のヴォコーダーについては「音声分析合成#ボコーダー」をご覧ください。 Korg VC-10 音楽におけるヴォコーダー(英: vocoder)は音の分解・要素の操作・再合成をおこなう電子楽器・エフェクター・シンセサイザーの一種である。ボコーダーとも。 概要[編集] 音声符号化・音声分析合成分野で「音を要素へ分解し再構成するシステム」として発展したボコーダーを「要素を操作して音作りをおこなう機材」として音楽分野へ転用したものが(稿で解説する)ヴォコーダーである。 ヴォコーダーにはチャネルヴォコーダーとフェーズボコーダがあり、これらは使用分野が異なる。音楽分野における昔ながらの「ヴォコーダー」エフェクトはチャネルヴォコーダーを指し、フェーズボコーダは「タイムストレッチ/ピッチシフト」に用いられる[1][2][3][4]

    ヴォコーダー - Wikipedia
  • 音声強調 - Wikipedia

    音声強調(おんせいきょうちょう、英: speech enhancement)は音声の特定成分を相対的に強調し質を改善する音声信号処理である[1]。 改善の対象としては音声の明瞭度や音質など様々なものがある。SN比を改善する雑音抑制の技術は最も重要なもので、携帯電話、VoIP、電話会議などの通信の分野や、音声認識、補聴器での応用など多くの分野で利用されている。 ハンズフリー通話や、野外での携帯電話の使用など、音声アプリケーションを雑音や反響音の多い環境で使うケースは多い。雑音や反響音で歪んだ音声信号に対して音声強調を行うことで、音声の明瞭度の向上、聞く人の疲労の軽減などの効果が期待できる。 また、携帯電話や衛星電話などで使用されている低ビットレートの音声符号化や、音声認識の処理では、音声を何らかのモデルに当てはめパラメータ化を行うため、音声信号に雑音が含まれるとパラメータ化がうまく行えない。

  • スペクトラルノイズ除去による雑音除去 | 株式会社AI Shift

    こんにちは AIチームの戸田です 先日、KaggleのCornell Birdcall Identificationというコンペに参加し、参加報告ブログを掲載させていただきました。使用した手法にこちらのライブラリを使ったノイズ除去を用いていたのですが、今回その内部の働きを勉強したので共有させていただきたいと思います。 スペクトラルノイズ除去 使用されていた手法はスペクトラルノイズ除去と呼ばれるそうで、ノイズ部分の信号をもとの音源から差し引くことでクリアな音源を実現します。モーター音や風の音など、固定ノイズや緩やかに変化するノイズの除去に効果的です。 Audacityというフリーソフトでも内部で使われています。 以下から実際にpythonでの実装を通じてスペクトラルノイズ除去の処理の流れを解説していきたいと思います。 データはCornell Birdcall Identificationのデ

    スペクトラルノイズ除去による雑音除去 | 株式会社AI Shift
  • Pythonの音声区間検出ライブラリ inaSpeechSegmenterを試してみた話 - 備忘録

    Pythonでいい感じの音声区間検出してくれるライブラリはないかなと探していたら、inaSpeechSegmenterというものが見つかったので使ってみた。 github.com デフォルトでは音声の区間、音楽の区間、ノイズの区間、無音の区間を検出し、その区間ラベルと時間情報(開始・終了時刻)の情報を返してくれる。面白いのは音声区間においてジェンダーの区別もデフォルトでしてくれるということ。 区間ラベルを列挙しておこう: speech (male/female) 音声 music 音楽 noise ノイズ noEnergy 無音 インストールは以下。 pip install inaSpeechSegmenterこんなスクリプトを書いてみた。 gist.github.com inaSpeechSegmenterは区間ラベルと時間情報のみを取得できる。同ライブラリのseg2csvをインポートす

    Pythonの音声区間検出ライブラリ inaSpeechSegmenterを試してみた話 - 備忘録
  • 【まとめ】ディープラーニングによる環境音の認識 - Qiita

    とあるきっかけで、環境音の認識(歩く音や雨の音、掃除機の音など)について、 論文を調べたので、メモとして残しておきます。 せっかくなので、精度向上の歴史を振り返る形式で、書いていきます。 データセット 精度の基準となるデータセットをご紹介します。画像の認識では、ImageNetという圧倒的な データセットがあり、性能評価で用いられます。 一方、音の認識はImageNetほど巨大ではありませんが、ESC-50というデータセットが あります。今回の基準となるESC-50の概要は以下のとおりです。 犬の鳴き声やドアのノック音など50種類、2000個の音源を収録 音源の長さは5秒間 精度評価をするときは、学習用とテスト用に分けて(5-foldなど)それぞれ評価 音の前処理 画像の前処理は、通常255で割れば良く、非常に簡単です。 一方、音の前処理は通常logmelを用います。logmelで処理する

    【まとめ】ディープラーニングによる環境音の認識 - Qiita
  • Microsoft Word - 12C_120_18_0287.doc

    otori334
    otori334 2021/06/12
    音声信号スペクトログラムの画像処理による雑音低減手法