[B! 音声] [6ページ] stealthinuのブックマーク

”持田香織になっちゃうマイク”爆誕。話題のヤマハ歌声合成がスゴかった【藤本健のDigital Audio Laboratory】

stealthinu 2022/10/04

例のヤマハのVCのやつ、遅延48ms！すげええ。確かにカラオケだとノイズリダクションが重要そう。友人の隣の研究グループとのことで世間狭いなと思った。

リンク

https://laboro.ai/wp-content/uploads/2020/12/IPSJ-SLP20134008.pdf

stealthinu 2022/10/01

日本語の大規模音声コーパスだとこれがでてくるが公的機関の研究機関のみなんだよね。TVから取ってるからなあ。

リンク

Facebookが新たに多言語音声データセットMLSを公開しました！

はじめに Facebookが多言語NLP用のデータセット、Multilingual LibriSpeech（MLS）を発表したので、紹介します。 FacebookAI blog A new open data set for multilingual speech research https://ai.facebook.com/blog/a-new-open-data-set-for-multilingual-speech-research/ 論文 MLS: A Large-Scale Multilingual Dataset for Speech Research https://arxiv.org/abs/2012.03411 データ置き場 http://openslr.org/94/ モデル（GitHub） https://github.com/facebookresearch/wa

stealthinu 2022/10/01

MLSってLibriSpeechの47倍もあるんだ（英語部分）日本語でそういうのないの…？

リンク

「AI安倍晋三」ネットで物議　合成音声のYouTube動画、“東京大学AI研究会”が公開

Twitterアカウント（＠AIAbeShinzo）も開設しており、最初に投稿したツイートは26日正午時点で1万件以上リツイートされるなど関心を集めている。ユーザーからは「素晴らしい」や「ありがとう」など絶賛する声の他、「死者への冒涜ではないか」や「AIで美空ひばりの新曲作ったのと同じ感じがして複雑」など疑問を呈する声も見られる。「東京大学AI研究会」とは何者か？発起人である東京大学AI研究会のWebサイトによると、同研究会は東京大学教養学部・工学部有志と学生有志が2021年5月10日に設立。5月時点では「東大13名、京大10名、大阪大学6名、早稲田大学9名、慶応義塾大学1名、筑波大学1名、立命館大学3名」（原文ママ）の43人が在籍し、代表者は東京大学・教養学部・理科一類に所属しているという。目的は「飛躍的・未到達領域のAI開発」としており、最新の活動記録として4月に「SOTA（特定

stealthinu 2022/09/26

音声機械学習界隈で話題になってたのこれか…　これは確かに飛び火してきそうな話だ。なりすましと学習データに使うことは別の話だがそれでも叩かれそうだな。

リンク

高性能にASIO化できる? 万能仮想ミキサー「VoiceMeeter Banana」のASIO出力を検証【藤本健のDigital Audio Laboratory】

stealthinu 2022/09/08

ASIOのドライバによりレイテンシの最小値が違ってくるという比較。あとVoiceMeeter BananaはASIO4ALL代わりに使えるのか。なるほどな。

リンク

GitHub - bshall/soft-vc: Soft speech units for voice conversion

stealthinu 2022/09/06

無学習でのVCを高音質で可能。Colabで試せる。HuBERTを使って話者性をなるべく排除し必要な情報を抽出してる。この音質で無学習とかすごいわ。

リンク

Audacityで編集するとノイズが増えるのか｜jack｜note

どこぞの誰ぞが言ったことだが、「Audacityで編集するとノイズが増えるので良くない」だそうで、実際そうなのかというと確かにデフォルトでは増える設定になっているのではあるけど、それは決してノイズと呼ぶべきものではなく、敢えてノイズをくわえている機能が存在するせい。なぜそんなことをするのかというと、例えば96kHz24bitや48kHz24bitで録音されたファイルを編集し、44.1Khz16bitのCD音質でリリースするとして、サンプルレートを下げる際に音を構成していた信号がハショられ、なんだか生々しさが失われたり、小さい出力が切り捨てられてしまったりする、そういった"波形が雑になったように感じる"劣化を防ぐ、防ぐというかノイズを加えることによって、それを原音の成分にバケさせてごまかす機能があるのだ。その機能のことをディザというけど、詳しい説明を入れると長くなるので各自専門書なりWi

stealthinu 2022/09/05

Audacityでディザというあえて小さなノイズを載せている機能を殺す設定

音声
tips

リンク

短時間フーリエ変換(librosa.core.stft)

stealthinu 2022/08/26

stftでn_fftとwin_lengthと同じようなパラメータがあるがどう違いがあるのかについて。デフォルトは同じ値。win_lengthを小さくすると時間分解能が上がるが周波数分解能が下がる。

リンク

Real-time voice conversion with feedback for acquiring character traits

stealthinu 2022/08/20

7pに、VCで似てる感は声質だけじゃなく「パラ言語情報」によるキャラクタ性によるものが大きく話者が意図的に付与するしかないがVCに対応させたいとあって流石だった。

リンク

AG03のエフェクト設定方法。オススメ設定も紹介

AG DSP Controllerのインストールと起動まずはPCでAG03の音質を調整できる機能、AG DSP Controllerのインストールと起動方法を解説します。インストール方法こちらをクリックしてYamahaのHPに行きます。下部にあるソフトウェアリストからからAG DSP controllerをDLします。 ※Winの場合はYamaha Steinberg USB Driverを合わせてDLし先にインストールしておきます。ファイルを解凍し、起動します。利用規約に同意し、画面の指示に従っていけばインストールがはじまります。インストールが終わったら動作を安定させるためにPCの再起動を行います。画面推移はバージョンによって変わるのでここでは細かい説明は割愛いたします、そこまで複雑な手順ではなく、『次へ』などを数クリックするだけですのでご安心ください。起動方法インストールが完了する

stealthinu 2022/08/20

AG03ってDSP使ってイコライザ掛けてからミキシングできるものなのね。んでPCからの設定でどういうイコライザ掛けるかを細かく設定できるものとのこと。だから簡易ノイズリダクションもできる。

音声

リンク

Python：LibROSA のフェーズボコーダで時間伸縮・ピッチシフト librosa.phase_vocoder - Wizard Notes

まえがき使い方関数の仕様サンプルコードとプロット librosa.phase_vocoderの中身について重要な中間変数を抜粋メイン処理補足：フェーズボコーダを使ったピッチシフトの実現方法 librosa.phase_vocoderの音質について参考文献まえがきオーディオ編集をしていると、楽器の録音データや楽曲データに、「ピッチを変えずに、鳴っている時間長を短く/長くしたい」「時間長を変えずに、ピッチを低く/高くしたい」という処理をしたくなることが多々あると思います。それらを実現するには時間伸縮やリサンプリングといった処理が必要ですが、前者についてはフェーズボコーダという手法が知られています。 Pythonの音楽分析モジュールLibROSAでも、ピッチシフトとタイムストレッチを行う関数 librosa.effects.time_stretchとlibrosa.e

stealthinu 2022/08/20

librosaのpitch_shiftはあまり品質よくないということについてここで記述があった。やはりよく知られた問題だったのか。

リンク

librosa.pyin — librosa 0.10.2dev documentation

stealthinu 2022/08/20

librosaにはpyinが入ってるのでなんも考えずともF0推定できる。ありがたすぎる。

リンク

基本周波数についてのまとめ - 備忘録

本稿では基本周波数についての予備知識を簡単にまとめることにする。【2020/11/20】Pythonによる実装例を追加（ページ最下部にリンク有り）そもそも音声分析とは基本周波数（F0）とは基本周波数の推定手法 A Robust Algorithm for Pitch Tracking (RAPT) A Sawtooth Waveform Inspired Pitch Estimator (SWIPE) STRAIGHT WORLD REAPER YIN TEMPO その他 Pythonによる基本周波数推定の実装例おわりにそもそも音声分析とは音響特徴量（音高，音色等）の抽出音声合成や音声認識等の基礎技術音声処理における前段処理分析結果が後段の音声処理に与える影響大基本周波数（F0）とは音声の周期性を表現，音高を司る音響特徴量 F0の有無 ⇒ 音声は有声音と無声音に大別

stealthinu 2022/08/20

音声の音程を調べたくてここがとても参考になた。基本周波数(F0)推定は色んな手法がある。pYINとケプストラム法が良さそうだった。

リンク

音声認識や音声合成に出てくる用語のまとめ - ichou1のブログ

（随時、更新します）「スペクトラム」と「スペクトログラム」の違い時間領域で標本化されたデータはチャンクに分けられ（チャンクは一般にオーバーラップさせる）、チャンク毎にフーリエ変換を施す。各チャンクの変換結果が、ある時間における全周波数成分のグラフ（スペクトラム）となるので、これを時系列に並べるとスペクトログラムが完成する。 wikiより引用（一部、加工）単語言語次元（x, y, z） spectrum 英語 2次元（周波数、信号成分の強さ） spectrogram 英語 3次元（時間、周波数、信号成分の強さ）「スペクトラム」と「スペクトル」の違い同じ意味。言語単語品詞英語 spectrum 名詞 spectral 形容詞フランス語 spectre 名詞「振幅」、「パワー」、「magnitude」、「Energy」の違いフーリエ変換で求まった「実数」と「虚数」に

stealthinu 2022/08/20

「スペクトラム」と「スペクトログラム」の言葉の違いをよくわかってなかった。スペクトログラムが時間変化ありのもの。スペクトラム、スペクトル、スペクトラム、みな同じ意味。パワーは振幅の2乗。

リンク

双2次フィルタ

と表すことができます。この伝達関数の周波数特性は、 ω0 を境にして減衰を始めるローパス特性になっています。すなわち、このような RCL 回路を用いて、ローパスフィルタを作ることが出来ます。ちなみに、クオリティファクタ Q を変えると、カットオフ特性のなだらかさなどが変化します。ここではローパスフィルタを例に挙げましたが、 RCL の配置をいろいろと変えることで、さまざまな特性を作ることができます。伝達関数の分母・分子ともに2次のフィルタを双2次フィルタ（biquadratic filter、あるいは biquad filter）といいます。（余談ですが、quad- という接頭語は“4”という意味を表します。 quadratic は“四角形の”という意味合いから“2次元の”という意味で使われる言葉です。ついでに、bi- は“2”を表す接頭語です。 biquadratic は文

stealthinu 2022/08/20

biquad（双2次フィルタ）について。これだけでいろんな音声のイコライザが実現できる。一般にイコライザは普通これで実装されてるとのこと。STFT掛けなくてよいから軽いし逆変換での劣化とかもない。

リンク

Cute.Guides: 「音」とはそもそも何だろうか！？: 音の形取られ方

芸術工学部音響設計学科卒、現在大学院に所属の僕が「音」とはそもそも何なのかを紹介する。音響学中〜上級編。ここでは、前ページで紹介した「スペクトル包絡」についてもう少し見ていきましょう！人の声（音声）を例に考えてみましょう！！私たちが声を出すときには、のどの奥にある「声帯（せいたい）」を使います。のど（首の付け根の辺り）に手を当てて「アー」と発声すると、手に振動が伝わってくるかと思います。その振動している位置にあるのが「声帯」です。しかし、「声帯」で生まれた声がそのまま私たちの耳に届くわけではありません。実は、「声帯」で生まれた声そのものは、まるでブザー音のような音をしています。これがのどや口の中を通ることで、声らしい声になるのです。この「のどや口の中」のことを「声道（せいどう）」と呼びます。下の図に、声帯で生まれてから声らしい声ができるまでの過程を表してみました

stealthinu 2022/08/20

スペクトル包絡ってなに？と思ってたが「あ」の音とか特定の音の特徴を表してるスペクトルのことを言う言葉ってことなのね。

リンク

Mthesis_takamichi

音声の特徴抽出 (ＤＦＴ, ＬＰＣ, ケプストラム分析) 東京大学情報理工学系研究科特任助教高道慎之介奈良先端大音情報処理論第2回 (2016/10/18) /61 自己紹介  名前・所属 – 高道慎之介 (たかみちしんのすけ) – 東京大学大学院情報理工学系研究科特任助教  NAISTとの関わり – 2011/04: 知能コミュニケーション研究室 (中村哲教授) 1期生 – 2016/03: 博士課程修了  研究分野 – 電気音響・音像定位 – 音声信号処理 – 音声合成・変換 – 言語教育 2 /61 本講義の目的  デジタル信号処理の基礎 – 特徴抽出の前準備  音声とは – 音声の生成過程、言語依存性  音声の特徴抽出 – ケプストラム分析、LPC分析 3 音声の特徴とは何か、それをどう定量化するかを学ぶデジタル信号処理の基礎 4 /61 アナ

stealthinu 2022/08/20

ディープラーニング使ったVCから始めたため音声の特徴抽出について基礎知識が全くなかったのでものすごく勉強になった。先にわからんことがあって？になってたとこに正解もらうからすぐに理解できた。

リンク

PyTorch (15) CycleGAN (horse2zebra) - 人工知能に関する断創録

今回はCycleGANの実験をした。CycleGANはあるドメインの画像を別のドメインの画像に変換できる。アプリケーションを見たほうがイメージしやすいので論文の図1の画像を引用。モネの絵を写真に変換する（またはその逆）馬の画像をシマウマに変換する（またはその逆）夏の景色を冬の景色に変換する（またはその逆）こんな魔法のようなことが実現できる。似たような技術にpix2pixという技術がある（両方ともUC Berkeley）が、これは変換元画像と変換先画像の1対1のペアの訓練データが必要になる。その一方で、CycleGANはこのようなペアとなる訓練画像が必要ないという利点がある。ドメインAの画像セット（馬の画像セット）とドメインBの画像セット（シマウマの画像セット）だけがあればよい。いろいろなアプリケーションがあるが、今回はウマをシマウマに変換するというアプリケーションを実験してみた