[B! Python][Audio] take-tech-engineerのブックマーク

take-tech-engineer id:take-tech-engineer

PythonとAudioに関するtake-tech-engineerのブックマーク (18)

【Python】すべてのwavファイルを読み込んで、リサンプリングして書き出す
take-tech-engineer 2023/09/22
Python

Audio

librosa

sound
リンク
【PyTorch】音声/音へのデータ拡張をするFrequencyMasking、TimeMasking、TimeStretch【SpecAugment】
音声強調、音声認識や音環境分類のような音データにおけるデータ拡張方法であるSpecAugmentをPyTrochで試す。PyTorchには、FrequencyMasking、TimeMaskingとTimeStretchの３つのクラスが用意されている。 torchaudio.transf orms – Torchaudio v0.10.0 Documentation データ拡張する対象の音源を、以下コードでダウンロードし、スペクトログラムに変換する。関連記事 – 【PyTorch】Pythonで時間波形からスペクトログラムへ変換【librosa】 import os import requests import librosa import matplotlib.pyplot as plt import torch import torchaudio import torchaudio.t
take-tech-engineer 2022/09/28
Python

PyTorch

Audio

機械学習
リンク
PyTorchで高速フーリエ変換をするtorch.fft.fft
torch.fft.fftの使い方 torch.fft.fftの第一引数inputにTensor配列を指定しれば、高速フーリエ変換の結果が返ってくる。 import torch t = torch.arange(10) print(t) # tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) T = torch.fft.fft(input=t) print(T) # tensor([45.+0.0000j, -5.+15.3884j, -5.+6.8819j, -5.+3.6327j, -5.+1.6246j, # -5.+0.0000j, -5.-1.6246j, -5.-3.6327j, -5.-6.8819j, -5.-15.3884j]) T = torch.fft.fft(input=t, n=3) print(T) # tensor([ 3.0000+
take-tech-engineer 2022/09/24
Python

PyTorch

Audio
リンク
【PyTorch/librosa】Pythonで音声/音楽データをリサンプリングする
take-tech-engineer 2022/07/22
Python

PyTorch

Audio

librosa
リンク
Per-Channel Energy Normalization（PCEN）の性能確認【PyTorch】
speech commands datasetsのダウンロード MicrosoftのPyTorch を使用したオーディオ分類の概要に沿って、yes/noのspeech commands datasetsでPCENと対数スペクトルの特徴量による性能差を見ていきます。 PyTorch を使用したオーディオ分類の概要 – Microsoft Docs Learn 必要なライブラリをインポートします。Google Colabの場合は、librosaをインストールしてください。 !pip install git+https://github.com/librosa/librosa import os import torch import torchaudio from torch.utils.data import Dataset, DataLoader from torchvision impo
take-tech-engineer 2022/06/27
Python

PyTorch

Audio

librosa

sound
リンク
【PCEN】対数log-melに代わる特徴量PCEN【librosa】
音声識別や音響イベント検出の特徴量として、対数メルスペクトルがよく用いられています。この対数メルスペクトルに代わる特徴量として、2017年にPer-Channel Energy Normalization（PCEN）が提案され、性能が向上することが報告されています。今回は、librosaを使って、PCENを算出します。 Per-Channel Energy Normalization（PCEN）とは PCENは、 ICASSP2017でGoogleから提案された方法で、以下式から算出されます。 Trainable Frontend For Robust and Far-Field Keyword Spotting – arXiv Eにはメルフィルターバンクのエネルギー、Mは平滑化したエネルギーで、εはゼロ割防止の小さな定数、aによって正規化の強さを設定します。δはオフセット、rはダイナミッ
take-tech-engineer 2022/06/22
Python

librosa

Audio

sound
リンク
【PyTorch】Pythonで時間波形からメルスペクトログラムへ変換【librosa】
take-tech-engineer 2022/06/05
Python

PyTorch

Audio

librosa

sound
リンク
【PyTorch】Pythonで時間波形からスペクトログラムへ変換【librosa】
take-tech-engineer 2022/06/03
Python

PyTorch

Audio

librosa

sound
リンク
Pythonでwav,mp3など音声/音楽ファイルを書き出す【PyTorch, PySoundFile, Scipy】
PyTorch, PySoundFile, Scipyなどを用いることで、音声/音楽ファイルをwav,mp3などの形式で書き出すことができます。ここでは、その関数名と対応フォーマット一覧を記載します。各ライブラリの使い方詳細については関連記事をご覧ください。
take-tech-engineer 2022/02/17
Python

Audio

PyTorch

SciPy
リンク
PySoundFileで音声/音楽データを書き出すsoundfile.write【Python】
PySoundFileで音声/音楽データを書き込むには、soundfile.writeを使う。・soundfile.write – PySoundFile v0.10.0 API Documentation 以下記事を参考に、1000Hzの正弦波を生成し、このデータを音声ファイルとして書き出します。
take-tech-engineer 2022/02/17
Python

Audio
リンク
【SciPy】音声/音楽データを書き出すscipy.io.wavfile.write【Python】
PythonのライブラリSciPyで音声/音楽データを書き出すには、scipy.io.wavfile.writeを使う。 scipy.io.wavfile.write – SciPy v1.8.0 API reference Numpyで生成した、サンプリング周波数44100Hz、振幅0.5、長さ3秒、1000Hzの正弦波を書き出します。
take-tech-engineer 2022/02/16
Python

SciPy

Audio
リンク
【PyTorch】音声/音楽データを書き込むtorchaudio.save
PyTorchで音声/音楽データを書き込むには、torchaudio.save使う。torchaudio.saveは、Tensor型の配列をwav、mp3ファイルで書き出すことができる。 torchaudio.save – Torchaudio v0.10.0 Documentation 以下記事で生成した正弦波を1000Hzに変更し、書き込む。
take-tech-engineer 2022/02/16
Python

PyTorch

Audio
リンク
【PyTorch】Pythonでホワイトノイズを生成【Numpy】
Numpyによるホワイトノイズの生成ホワイトノイズはランダムな時系列信号を生成すれば良いので、np.random.randを使用します。 np.random.rand – Numpy v1.26 Manual ここでは、サンプリング周波数が44.1kHz、振幅の範囲が -1〜1、長さが3秒のホワイトノイズを作成します。 import numpy as np import matplotlib.pyplot as plt A = 1.0 # 振幅 sec = 3.0 # 信号の長さ s sf = 44100 # サンプリング周波数 Hz x = 2*A*(np.random.rand(round(sf*sec))-0.5) # ホワイトノイズの生成f plt.plot(x) 時間波形 PyTorchによるホワイトノイズの生成 PyTorchでは、torch.rand関数を使用して、ホワイト
take-tech-engineer 2022/02/15
Pythonにおけるホワイトノイズの生成コードです。Numpy, PyTorchとも非常に簡単に作れますね！

Python

PyTorch

Audio

Numpy
リンク
【PyTorch】Pythonで正弦波(sin波)を作成【Numpy】
numpyによる正弦波の生成正弦波（純音）は、次式で表すことができる。 Aは振幅、fは周波数[Hz]、tは時間である。今回、振幅は0.5、周波数は1 Hz、3秒間の正弦波を生成する。ここでtは、デジタル信号であるため1サンプルあたりの時間は1/sfとする。詳細は以下参考資料をご覧ください。参考資料 – 法政大学ディジタルデータ資料 import numpy as np import matplotlib.pyplot as plt A = 0.5 # 振幅 f = 1.0 # 周波数 Hz sec = 3.0 # 信号の長さ s sf = 44100 # サンプリング周波数 Hz t = np.arange(0, sec, 1/sf) #サンプリング点の生成 y = A*np.sin(2*np.pi*f*t) # 正弦波の生成 plt.plot(t, y);
take-tech-engineer 2022/02/14
Python

PyTorch

Audio
リンク
Pythonでwav,mp3など音声/音楽データを読み込む【PyTorch, librosa, PySoundFile, Scipy】
take-tech-engineer 2022/02/11
Python

PyTorch

Audio

SciPy

librosa
リンク
PySoundFileで音声/音楽データを読み込むsoundfile.read【Python】
PySoundFileで音声/音楽データを読み込むには、soundfile.readを使う。 soundfile.read – PySoundFile v0.10.0 API Documentation 今回用いるサンプル音源を、以下コードを実行して、_sample_dataフォルダにダウンロードする。 import os import requests _SAMPLE_DIR = "_sample_data" SAMPLE_WAV_URL = "https://pytorch-tutorial-assets.s3.amazon aws.com/steam-train-whistle-daniel_simon.wav" SAMPLE_WAV_PATH = os.path.join(_SAMPLE_DIR, "steam.wav") os.makedirs(_SAMPLE_DIR, exist
take-tech-engineer 2022/02/10
Python

Audio
リンク
SciPyで音声/音楽データを読み込むscipy.io.wavfile.read【Python】
Pythonの科学技術計算ライブラリであるSciPyで、音声/音楽データを読み込むにはscipy.io.wavfile.readを用いる。 scipy.io.wavfile.read – SciPy v1.8.0 API reference SciPyライブラリ内にある音源を、サンプル音源として用いるため以下コードを実行して、音源のパスを得る。 from os.path import dirname, join as pjoin from scipy.io import wavfile import scipy.io data_dir = pjoin(dirname(scipy.io.__file__), 'tests', 'data') wav_fname = pjoin(data_dir, 'test-44100Hz-2ch-32bit-float-be.wav')
take-tech-engineer 2022/02/10
SciPyで音声/音楽データを読み込むには、scipy.io.wavfile.readを使います。読み込み形式がwavのみなのであまり使い勝手が良くないかもしれません。

Python

Audio

SciPy
リンク
librosaで音声/音楽データを読み込むlibrosa.load【Python】
音楽とオーディオ分析のPythonライブラリであるlibrosaで、音声/音楽データを読み込むにはlibrosa.loadを用いる。 librosa.load – librosa v0.9.0 Documentation 今回用いるサンプル音源を、以下コードを実行して、_sample_dataフォルダにダウンロードする。 import os import requests _SAMPLE_DIR = "_sample_data" SAMPLE_WAV_URL = "https://pytorch-tutorial-assets.s3.amazon aws.com/steam-train-whistle-daniel_simon.wav" SAMPLE_WAV_PATH = os.path.join(_SAMPLE_DIR, "steam.wav") os.makedirs(_SAMPLE_D
take-tech-engineer 2022/02/09
引数がデフォルト値だと、勝手にリサンプリングされたり、ステレオ音源がモノ化されたりして注意が必要ですが、適切に使えば音源読み込み時サンプリング周波数を揃えてくれるのは良いですね。

Python

PyTorch

Audio
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx