[B! 音声][機械学習] stealthinuのブックマーク

無償入手可能な音声コーパス／音声データベースの一覧 - Qiita

無償かつ入手しやすい音声データセットをメモしています。ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。コーパスを探すときに有用なサイトコーパス配布元サイト音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能緩いライセンスのコーパスでなくても良いときはここ自発的発話の日本語音声コーパスはだいたいここにある入手は要申請所属や責任者を記入する必要があるため、研究者や企業でないと厳しい？（この記事では音声資源コンソーシアムのコーパスは未掲載） Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス大量の日本語音声コーパスが配布されている音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情あなたにどうしても伝えたい30の音声コーパス

stealthinu 2023/12/12

コーパスリストがまとまっててアップデートされてる。特に日本語コーパスのリストがしっかり把握されてて良い。しかしこれ高道先生がすごい、ということがわかるリストでもあるな。

リンク

AIによる声優の声と演技泥棒はマジでちょっとまずい。

これから先、確実に法規制が必要になる。現在起きてること・学習は合法との言い訳の下、オタ技術者が、大量にAIに声優の声と特徴を無断で学習・何千人の声が盗まれてるのか、ちょっとわからない。海外で起きてること・企業が勝手に使い始める・抗議した声優に本人の声で脅迫メッセージが届くこれから起きること(イラストで起きたことを当てはめる) ・「声優だって昔の人の演技を真似して技術を覚えたからAI声優は無料で使用する」とかバカが湧く・「声を出せない障害者のためにAI声優を取り上げるな」と無断使用側が障害者を盾にする。・dlsiteに大量のAI声優音声AMSRが登録されてパンク・同人やブラック企業が「使わないと勝てない」「新しい技術だ」と使い始める。・政治家が「日本が珍しく勝つチャンス。法規制は必要ない。みんなが数年後にはAI声優を使い始める」とか言い出す。・「日本だけが法律を作って

stealthinu 2023/03/10

うーん…　声質自体を生成できるようにしたアプリが主流になったときこの人は何と言うのだろう。

リンク

”持田香織になっちゃうマイク”爆誕。話題のヤマハ歌声合成がスゴかった【藤本健のDigital Audio Laboratory】

stealthinu 2022/10/04

例のヤマハのVCのやつ、遅延48ms！すげええ。確かにカラオケだとノイズリダクションが重要そう。友人の隣の研究グループとのことで世間狭いなと思った。

リンク

https://laboro.ai/wp-content/uploads/2020/12/IPSJ-SLP20134008.pdf

stealthinu 2022/10/01

日本語の大規模音声コーパスだとこれがでてくるが公的機関の研究機関のみなんだよね。TVから取ってるからなあ。

リンク

Facebookが新たに多言語音声データセットMLSを公開しました！

はじめに Facebookが多言語NLP用のデータセット、Multilingual LibriSpeech（MLS）を発表したので、紹介します。 FacebookAI blog A new open data set for multilingual speech research https://ai.facebook.com/blog/a-new-open-data-set-for-multilingual-speech-research/ 論文 MLS: A Large-Scale Multilingual Dataset for Speech Research https://arxiv.org/abs/2012.03411 データ置き場 http://openslr.org/94/ モデル（GitHub） https://github.com/facebookresearch/wa

stealthinu 2022/10/01

MLSってLibriSpeechの47倍もあるんだ（英語部分）日本語でそういうのないの…？

リンク

「AI安倍晋三」ネットで物議　合成音声のYouTube動画、“東京大学AI研究会”が公開

Twitterアカウント（＠AIAbeShinzo）も開設しており、最初に投稿したツイートは26日正午時点で1万件以上リツイートされるなど関心を集めている。ユーザーからは「素晴らしい」や「ありがとう」など絶賛する声の他、「死者への冒涜ではないか」や「AIで美空ひばりの新曲作ったのと同じ感じがして複雑」など疑問を呈する声も見られる。「東京大学AI研究会」とは何者か？発起人である東京大学AI研究会のWebサイトによると、同研究会は東京大学教養学部・工学部有志と学生有志が2021年5月10日に設立。5月時点では「東大13名、京大10名、大阪大学6名、早稲田大学9名、慶応義塾大学1名、筑波大学1名、立命館大学3名」（原文ママ）の43人が在籍し、代表者は東京大学・教養学部・理科一類に所属しているという。目的は「飛躍的・未到達領域のAI開発」としており、最新の活動記録として4月に「SOTA（特定

stealthinu 2022/09/26

音声機械学習界隈で話題になってたのこれか…　これは確かに飛び火してきそうな話だ。なりすましと学習データに使うことは別の話だがそれでも叩かれそうだな。

リンク

短時間フーリエ変換(librosa.core.stft)

stealthinu 2022/08/26

stftでn_fftとwin_lengthと同じようなパラメータがあるがどう違いがあるのかについて。デフォルトは同じ値。win_lengthを小さくすると時間分解能が上がるが周波数分解能が下がる。

リンク

Real-time voice conversion with feedback for acquiring character traits

stealthinu 2022/08/20

7pに、VCで似てる感は声質だけじゃなく「パラ言語情報」によるキャラクタ性によるものが大きく話者が意図的に付与するしかないがVCに対応させたいとあって流石だった。

リンク

Python：LibROSA のフェーズボコーダで時間伸縮・ピッチシフト librosa.phase_vocoder - Wizard Notes

まえがき使い方関数の仕様サンプルコードとプロット librosa.phase_vocoderの中身について重要な中間変数を抜粋メイン処理補足：フェーズボコーダを使ったピッチシフトの実現方法 librosa.phase_vocoderの音質について参考文献まえがきオーディオ編集をしていると、楽器の録音データや楽曲データに、「ピッチを変えずに、鳴っている時間長を短く/長くしたい」「時間長を変えずに、ピッチを低く/高くしたい」という処理をしたくなることが多々あると思います。それらを実現するには時間伸縮やリサンプリングといった処理が必要ですが、前者についてはフェーズボコーダという手法が知られています。 Pythonの音楽分析モジュールLibROSAでも、ピッチシフトとタイムストレッチを行う関数 librosa.effects.time_stretchとlibrosa.e

stealthinu 2022/08/20

librosaのpitch_shiftはあまり品質よくないということについてここで記述があった。やはりよく知られた問題だったのか。

リンク

librosa.pyin — librosa 0.10.2dev documentation

stealthinu 2022/08/20

librosaにはpyinが入ってるのでなんも考えずともF0推定できる。ありがたすぎる。

リンク

基本周波数についてのまとめ - 備忘録

本稿では基本周波数についての予備知識を簡単にまとめることにする。【2020/11/20】Pythonによる実装例を追加（ページ最下部にリンク有り）そもそも音声分析とは基本周波数（F0）とは基本周波数の推定手法 A Robust Algorithm for Pitch Tracking (RAPT) A Sawtooth Waveform Inspired Pitch Estimator (SWIPE) STRAIGHT WORLD REAPER YIN TEMPO その他 Pythonによる基本周波数推定の実装例おわりにそもそも音声分析とは音響特徴量（音高，音色等）の抽出音声合成や音声認識等の基礎技術音声処理における前段処理分析結果が後段の音声処理に与える影響大基本周波数（F0）とは音声の周期性を表現，音高を司る音響特徴量 F0の有無 ⇒ 音声は有声音と無声音に大別

stealthinu 2022/08/20

音声の音程を調べたくてここがとても参考になた。基本周波数(F0)推定は色んな手法がある。pYINとケプストラム法が良さそうだった。

リンク

音声認識や音声合成に出てくる用語のまとめ - ichou1のブログ

（随時、更新します）「スペクトラム」と「スペクトログラム」の違い時間領域で標本化されたデータはチャンクに分けられ（チャンクは一般にオーバーラップさせる）、チャンク毎にフーリエ変換を施す。各チャンクの変換結果が、ある時間における全周波数成分のグラフ（スペクトラム）となるので、これを時系列に並べるとスペクトログラムが完成する。 wikiより引用（一部、加工）単語言語次元（x, y, z） spectrum 英語 2次元（周波数、信号成分の強さ） spectrogram 英語 3次元（時間、周波数、信号成分の強さ）「スペクトラム」と「スペクトル」の違い同じ意味。言語単語品詞英語 spectrum 名詞 spectral 形容詞フランス語 spectre 名詞「振幅」、「パワー」、「magnitude」、「Energy」の違いフーリエ変換で求まった「実数」と「虚数」に

stealthinu 2022/08/20

「スペクトラム」と「スペクトログラム」の言葉の違いをよくわかってなかった。スペクトログラムが時間変化ありのもの。スペクトラム、スペクトル、スペクトラム、みな同じ意味。パワーは振幅の2乗。

リンク

双2次フィルタ

と表すことができます。この伝達関数の周波数特性は、 ω0 を境にして減衰を始めるローパス特性になっています。すなわち、このような RCL 回路を用いて、ローパスフィルタを作ることが出来ます。ちなみに、クオリティファクタ Q を変えると、カットオフ特性のなだらかさなどが変化します。ここではローパスフィルタを例に挙げましたが、 RCL の配置をいろいろと変えることで、さまざまな特性を作ることができます。伝達関数の分母・分子ともに2次のフィルタを双2次フィルタ（biquadratic filter、あるいは biquad filter）といいます。（余談ですが、quad- という接頭語は“4”という意味を表します。 quadratic は“四角形の”という意味合いから“2次元の”という意味で使われる言葉です。ついでに、bi- は“2”を表す接頭語です。 biquadratic は文

stealthinu 2022/08/20

biquad（双2次フィルタ）について。これだけでいろんな音声のイコライザが実現できる。一般にイコライザは普通これで実装されてるとのこと。STFT掛けなくてよいから軽いし逆変換での劣化とかもない。

リンク

Cute.Guides: 「音」とはそもそも何だろうか！？: 音の形取られ方

芸術工学部音響設計学科卒、現在大学院に所属の僕が「音」とはそもそも何なのかを紹介する。音響学中〜上級編。ここでは、前ページで紹介した「スペクトル包絡」についてもう少し見ていきましょう！人の声（音声）を例に考えてみましょう！！私たちが声を出すときには、のどの奥にある「声帯（せいたい）」を使います。のど（首の付け根の辺り）に手を当てて「アー」と発声すると、手に振動が伝わってくるかと思います。その振動している位置にあるのが「声帯」です。しかし、「声帯」で生まれた声がそのまま私たちの耳に届くわけではありません。実は、「声帯」で生まれた声そのものは、まるでブザー音のような音をしています。これがのどや口の中を通ることで、声らしい声になるのです。この「のどや口の中」のことを「声道（せいどう）」と呼びます。下の図に、声帯で生まれてから声らしい声ができるまでの過程を表してみました

stealthinu 2022/08/20

スペクトル包絡ってなに？と思ってたが「あ」の音とか特定の音の特徴を表してるスペクトルのことを言う言葉ってことなのね。

リンク

Mthesis_takamichi

音声の特徴抽出 (ＤＦＴ, ＬＰＣ, ケプストラム分析) 東京大学情報理工学系研究科特任助教高道慎之介奈良先端大音情報処理論第2回 (2016/10/18) /61 自己紹介  名前・所属 – 高道慎之介 (たかみちしんのすけ) – 東京大学大学院情報理工学系研究科特任助教  NAISTとの関わり – 2011/04: 知能コミュニケーション研究室 (中村哲教授) 1期生 – 2016/03: 博士課程修了  研究分野 – 電気音響・音像定位 – 音声信号処理 – 音声合成・変換 – 言語教育 2 /61 本講義の目的  デジタル信号処理の基礎 – 特徴抽出の前準備  音声とは – 音声の生成過程、言語依存性  音声の特徴抽出 – ケプストラム分析、LPC分析 3 音声の特徴とは何か、それをどう定量化するかを学ぶデジタル信号処理の基礎 4 /61 アナ

stealthinu 2022/08/20

ディープラーニング使ったVCから始めたため音声の特徴抽出について基礎知識が全くなかったのでものすごく勉強になった。先にわからんことがあって？になってたとこに正解もらうからすぐに理解できた。

リンク

GitHub - jim-schwoebel/voice_datasets: 🔊 A comprehensive list of open-source datasets for voice and sound computing (95+ datasets).

AESDD - around 500 utterances by a diverse group of actors (over 5 actors) simlating various emotions. ANAD - 1384 recording by multiple speakers; 3 emotions: angry, happy, surprised. Arabic Speech Corpus - The Arabic Speech Corpus (1.5 GB) is a Modern Standard Arabic (MSA) speech corpus for speech synthesis. The corpus contains phonetic and orthographic transcriptions of more than 3.7 hours of MS

stealthinu 2022/06/17

音声や音のデータセットのまとめ。ただし英語の。どのくらいの学習データセットの大きさで学習回してるかこれで比較できる。

リンク

動画の雑音をほぼ消す技術、米国などのチームが開発　声のみが強調されすぎてアフレコみたいな結果に

Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。米Dolby LaboratoriesとスペインのUniversitat Pompeu Fabraの研究チームが開発した「Universal Speech Enhancement With Score-based Diffusion」は、収録した映像のバックグラウンドノイズ（背景雑音）を強力に除去する技術だ。動画撮影した雑音を消し去り、話す声だけをくっきり残すことができる。強力すぎるため、映像がアフレコを挿入したみたいな仕上がりになってしまう。実世界で録音した音声には必然的に背景の雑音や残響が含まれ、不快感や明瞭度の妨げになるためノイズ除去が行われる。最近では深層学習の登場によりノイズ除

stealthinu 2022/06/15

すごく強力なノイズ抑制。手法はディープラーニングではないらしい。

リンク

GitHub - zassou65535/VITS: VITSによるテキスト読み上げ器&ボイスチェンジャー

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

stealthinu 2022/05/12

zassou65535氏によるvitsの独自実装なのだが解説記事もわかりやすいのだがvits_train.pyも超わかりやすくて本家ソースでわからんことあったときこのソース見て理解するくらいわかりやすい。

リンク

【機械学習】VITSでアニメ声へ変換できるボイスチェンジャー&読み上げ器を作った話 - Qiita

はじめに DiscordやVRChatなど、オンラインでの会話を楽しむプラットフォームが近年賑わいを見せています。そんな中で「さまざまな声質の音声で会話ができたら面白いだろう」と思い立ち、音声間での声質の変換ができる機械学習モデルを実装してみました。例えば以下の紹介動画のように変換できます。機械学習の一手法「VITS」でアニメ声(つくよみちゃん)へ変換できるボイスチェンジャーを実装しました。https://t.co/LX0TV13uAD pic.twitter.com/vVWcDbUSpn — zassou (@zassouEX) February 25, 2022 また、今回用いたモデルではテキストの読み上げを実行することもできます。読み上げを行うこともできます。 (こちらに関してはもう少しファインチューニングが必要そうです。) pic.twitter.com/xKPhTL7A0E

stealthinu 2022/04/18

VITSの解説が非常に丁寧にされていてとてもわかりやすかった！おかげでVITSの構造ちゃんと理解できた（と思う）。そして独自実装のVITS。

リンク

リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS（オープンソースソフトウェア）として公開しました。ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

stealthinu 2022/04/14

3年前のものだけどセグメントをオーバーラップしてつなぐことで変換精度を下げないというのここではすでに実装されていた

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

音声と機械学習に関するstealthinuのブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス