はじめに Facebookが多言語NLP用のデータセット、Multilingual LibriSpeech(MLS)を発表したので、紹介します。 FacebookAIblog A new open data set for multilingual speech research https://ai.facebook.com/blog/a-new-open-data-set-for-multilingual-speech-research/ 論文 MLS: A Large-Scale Multilingual Dataset for Speech Research https://arxiv.org/abs/2012.03411 データ置き場 http://openslr.org/94/ モデル(GitHub) https://github.com/facebookresearch/wa
Twitterアカウント(@AIAbeShinzo)も開設しており、最初に投稿したツイートは26日正午時点で1万件以上リツイートされるなど関心を集めている。ユーザーからは「素晴らしい」や「ありがとう」など絶賛する声の他、「死者への冒涜ではないか」や「AIで美空ひばりの新曲作ったのと同じ感じがして複雑」など疑問を呈する声も見られる。 「東京大学AI研究会」とは何者か? 発起人である東京大学AI研究会のWebサイトによると、同研究会は東京大学教養学部・工学部有志と学生有志が2021年5月10日に設立。5月時点では「東大13名、京大10名、大阪大学6名、早稲田大学9名、慶応義塾大学1名、筑波大学1名、立命館大学3名」(原文ママ)の43人が在籍し、代表者は東京大学・教養学部・理科一類に所属しているという。 目的は「飛躍的・未到達領域のAI開発」としており、最新の活動記録として4月に「SOTA(特定
どこぞの誰ぞが言ったことだが、「Audacityで編集するとノイズが増えるので良くない」だそうで、実際そうなのかというと確かにデフォルトでは増える設定になっているのではあるけど、それは決してノイズと呼ぶべきものではなく、敢えてノイズをくわえている機能が存在するせい。 なぜそんなことをするのかというと、例えば96kHz24bitや48kHz24bitで録音されたファイルを編集し、44.1Khz16bitのCD音質でリリースするとして、サンプルレートを下げる際に音を構成していた信号がハショられ、なんだか生々しさが失われたり、小さい出力が切り捨てられてしまったりする、そういった"波形が雑になったように感じる"劣化を防ぐ、防ぐというかノイズを加えることによって、それを原音の成分にバケさせてごまかす機能があるのだ。 その機能のことをディザというけど、詳しい説明を入れると長くなるので各自専門書なりWi
AG DSP Controllerのインストールと起動まずはPCでAG03の音質を調整できる機能、AG DSP Controllerのインストールと起動方法を解説します。 インストール方法こちらをクリックしてYamahaのHPに行きます。下部にあるソフトウェアリストからからAG DSP controllerをDLします。 ※Winの場合はYamaha Steinberg USB Driverを合わせてDLし先にインストールしておきます。ファイルを解凍し、起動します。利用規約に同意し、画面の指示に従っていけばインストールがはじまります。インストールが終わったら動作を安定させるためにPCの再起動を行います。画面推移はバージョンによって変わるのでここでは細かい説明は割愛いたします、そこまで複雑な手順ではなく、『次へ』などを数クリックするだけですのでご安心ください。 起動方法インストールが完了する
まえがき 使い方 関数の仕様 サンプルコードとプロット librosa.phase_vocoderの中身について 重要な中間変数を抜粋 メイン処理 補足:フェーズボコーダを使ったピッチシフトの実現方法 librosa.phase_vocoderの音質について 参考文献 まえがき オーディオ編集をしていると、楽器の録音データや楽曲データに、 「ピッチを変えずに、鳴っている時間長を短く/長くしたい」 「時間長を変えずに、ピッチを低く/高くしたい」 という処理をしたくなることが多々あると思います。 それらを実現するには時間伸縮やリサンプリングといった処理が必要ですが、 前者についてはフェーズボコーダという手法が知られています。 Pythonの音楽分析モジュールLibROSAでも、ピッチシフトとタイムストレッチを行う関数 librosa.effects.time_stretchとlibrosa.e
本稿では基本周波数についての予備知識を簡単にまとめることにする。 【2020/11/20】Pythonによる実装例を追加(ページ最下部にリンク有り) そもそも音声分析とは 基本周波数(F0)とは 基本周波数の推定手法 A Robust Algorithm for Pitch Tracking (RAPT) A Sawtooth Waveform Inspired Pitch Estimator (SWIPE) STRAIGHT WORLD REAPER YIN TEMPO その他 Pythonによる基本周波数推定の実装例 おわりに そもそも音声分析とは 音響特徴量(音高,音色等)の抽出 音声合成や音声認識等の基礎技術 音声処理における前段処理 分析結果が後段の音声処理に与える影響大 基本周波数(F0)とは 音声の周期性を表現,音高を司る音響特徴量 F0の有無 ⇒ 音声は有声音と無声音に大別
(随時、更新します) 「スペクトラム」と「スペクトログラム」の違い 時間領域で標本化されたデータはチャンクに分けられ(チャンクは一般にオーバーラップさせる)、チャンク毎にフーリエ変換を施す。 各チャンクの変換結果が、ある時間における全周波数成分のグラフ(スペクトラム)となるので、これを時系列に並べるとスペクトログラムが完成する。 wikiより引用(一部、加工) 単語 言語 次元(x, y, z) spectrum 英語 2次元(周波数、信号成分の強さ) spectrogram 英語 3次元(時間、周波数、信号成分の強さ) 「スペクトラム」と「スペクトル」の違い 同じ意味。 言語 単語 品詞 英語 spectrum 名詞 spectral 形容詞 フランス語 spectre 名詞 「振幅」、「パワー」、「magnitude」、「Energy」の違い フーリエ変換で求まった「実数」と「虚数」に
と表すことができます。 この伝達関数の周波数特性は、 ω0 を境にして減衰を始めるローパス特性になっています。 すなわち、このような RCL 回路を用いて、ローパスフィルタを作ることが出来ます。 ちなみに、クオリティファクタ Q を変えると、カットオフ特性のなだらかさなどが変化します。 ここではローパスフィルタを例に挙げましたが、 RCL の配置をいろいろと変えることで、さまざまな特性を作ることができます。 伝達関数の分母・分子ともに2次のフィルタを双2次フィルタ(biquadratic filter、あるいは biquad filter)といいます。 (余談ですが、quad- という接頭語は“4”という意味を表します。 quadratic は“四角形の”という意味合いから“2次元の”という意味で使われる言葉です。 ついでに、bi- は“2”を表す接頭語です。 biquadratic は文
芸術工学部音響設計学科卒、現在大学院に所属の僕が「音」とはそもそも何なのかを紹介する。音響学中〜上級編。 ここでは、前ページで紹介した「スペクトル包絡」について もう少し見ていきましょう! 人の声(音声)を例に考えてみましょう!! 私たちが声を出すときには、のどの奥にある「 声帯(せいたい)」を使います。 のど(首の付け根の辺り)に手を当てて「アー」と発声すると、 手に振動が伝わってくるかと思います。 その振動している位置にあるのが「声帯」です。 しかし、「声帯」で生まれた声がそのまま私たちの耳に届くわけではありません。 実は、「声帯」で生まれた声そのものは、まるでブザー音のような音をしています。 これがのどや口の中を通ることで、声らしい声になるのです。 この「のどや口の中」のことを「 声道(せいどう)」と呼びます。 下の図に、声帯で生まれてから声らしい声ができるまでの過程を表してみました
音声の特徴抽出 (DFT, LPC, ケプストラム分析) 東京大学 情報理工学系研究科 特任助教 高道 慎之介 奈良先端大 音情報処理論第2回 (2016/10/18) /61 自己紹介 名前・所属 – 高道 慎之介 (たかみち しんのすけ) – 東京大学 大学院情報理工学系研究科 特任助教 NAISTとの関わり – 2011/04: 知能コミュニケーション研究室 (中村 哲教授) 1期生 – 2016/03: 博士課程修了 研究分野 – 電気音響・音像定位 – 音声信号処理 – 音声合成・変換 – 言語教育 2 /61 本講義の目的 デジタル信号処理の基礎 – 特徴抽出の前準備 音声とは – 音声の生成過程、言語依存性 音声の特徴抽出 – ケプストラム分析、LPC分析 3 音声の特徴とは何か、 それをどう定量化するかを学ぶ デジタル信号処理の基礎 4 /61 アナ
今回はCycleGANの実験をした。CycleGANはあるドメインの画像を別のドメインの画像に変換できる。アプリケーションを見たほうがイメージしやすいので論文の図1の画像を引用。 モネの絵を写真に変換する(またはその逆) 馬の画像をシマウマに変換する(またはその逆) 夏の景色を冬の景色に変換する(またはその逆) こんな魔法のようなことが実現できる。 似たような技術にpix2pixという技術がある(両方ともUC Berkeley)が、これは変換元画像と変換先画像の1対1のペアの訓練データが必要になる。その一方で、CycleGANはこのようなペアとなる訓練画像が必要ないという利点がある。ドメインAの画像セット(馬の画像セット)とドメインBの画像セット(シマウマの画像セット)だけがあればよい。 いろいろなアプリケーションがあるが、今回はウマをシマウマに変換するというアプリケーションを実験してみた
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く