[B! 音声] skypenguinsのブックマーク

skypenguins id:skypenguins

音声に関するskypenguinsのブックマーク (16)

litagin/moe-speech · Datasets at Hugging Face
Not-For-All-Audiences This repository has been marked as containing sensitive content and may contain potentially harmful and sensitive information. View content
skypenguins 2024/01/24
機械学習

データセット

音声
リンク
デジタル信号を正しく再生するには？　～サンプリング定理の意味
Twitterで以下のように発言をしたら、案の定、あまり理解されなかったので頑張って説明してみます。サンプリング定理は「信号の最大周波数」の2倍より早い速度でサンプリングすれば元信号の情報は完全に再現できる（一意に決まる）、とは言ってるけども、サンプリングしたデータをそのまま再生したとき元波形が再現できるとは一言も言ってない。 https://twitter.com/nabe_abk/status/777874934424940544 フーリエ変換とは式の導出サンプリング定理とは？サンプリング定理が示すものサンプリングされた信号とその再生一般的なデータ再生サンプリング定理が成り立つ条件インパルスで再生してからLPFで処理するとデジタル信号を正しく再生する方法オーディオ再生ではどうやって解決しているのか？オーバーサンプリングについてまとめなおこの記事では、フーリエ変
skypenguins 2021/09/16
信号処理

音声
リンク
VOICEVOX | 無料のテキスト読み上げ・歌声合成ソフトウェア
オープンソースVOICEVOX は OSS（オープンソース・ソフトウェア）版 VOICEVOX をもとに構築されています。製品版と OSS 版の違いやモジュール構成は VOICEVOX の全体構成をご参照ください。ソフトウェア部分は Electron + Vue 、音声合成エンジン部分は Python + FastAPI です。追加したい・改善したい機能があれば、ぜひ開発にご参加ください。
skypenguins 2021/08/01
中品質

音声

OSS
リンク
「ガルパンは騒がしい内容なのに全ての音がはっきり聞こえる」──聴覚障がいのアニメファンが語る岩浪音響監督の丁寧すぎる仕事っぷり
「ガルパンは騒がしい内容なのに全ての音がはっきり聞こえる」──聴覚障がいのアニメファンが語る岩浪音響監督の丁寧すぎる仕事っぷり 2020年3月、あるツイートが話題となった。聴覚障がい者であるくらはしさんが、アニメ音響監督の岩浪美和さんの手掛けた作品がいかに聞きやすいかを記したものだ。岩浪音響監督は「サイコパス」シリーズ、『ガールズアンドパンツァー』、『ソードアートオンライン』、「ジョジョ」シリーズなど、数多くの人気作を手掛けている。聴覚障害者としてアニメの声の聞き取りやすさをメモしているんですが、PSYCHO-PASS 3の聞き取りやすさは神レベルで、無線声、ささやき、室内残響の演出でもほとんどすべて聞き取れる。音響監督は岩浪美和さんという方で、担当作品を調べてみたら「聞き取りにくかったメモ」に該当なしでした。 — くらはし (@TareObjects) March 27, 202
skypenguins 2020/08/19
障害

音響

音声

アニメ
リンク
Neural text to speech のメモ(2020 年 3 月 28 日時点) - Qiita
テキストから, 自然な(人間が話しているっぽい)スピーチを生成し, LibTorch, TensorFlow C++ でモバイル(オフライン)でリアルタイム or インタラクィブに動く(動かしやすそう)な手法に注力しています. 英語に限っています. 人気がありそう(いろいろな人がトライしていて知見や実装があるもの)なやりやた Tacotron2 -> [Mel spectrogram(wav)] -> WaveRNN -> [audio(wav)] 最近のトレンド? Tacotron2 の部分を Transf ormer 系のものを使う(e.g. FastSpeech), WaveRNN の部分を WaveGlow, WaveFlow を使う. Mel spectroguram(メルスペクトログラム) 中間のデータ表現. 誤差を計算したりいろいろ処理がしやすいのでこの Mel spectr
skypenguins 2020/02/25
deeplearning

機械学習

深層学習

音声
リンク
逆FM音源
与えられた楽器の音色に近いFM音源パラメータの探索を勾配法で解く方法を解説しますこれは2020年2月8日に行われたカーネル/VM探検隊@関西 10回目での発表資料ですサンプルコード: https://github.com/Fadis/ifm
skypenguins 2020/02/09
音声
リンク
リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました
はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS（オープンソースソフトウェア）として公開しました。ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま
skypenguins 2019/09/29
ヒューリスティックな遅延対策だけど、割と効果ありそう

音声

deeplearning

機械学習
リンク
変換と高精細化の2段階に分けた声質変換 - Dwango Media Village
概要本研究では，少数のパラレルデータで学習可能な声質変換モデルと，多数のノンパラレルデータで学習可能な高品質化モデルに分けることで，必要なパラレルデータ数を抑えつつ高品質な声質変換を行う手法を提案する。 1段目のモデルでは，時間方向に1次元畳み込み層を持つ畳込みニューラルネットワーク (CNN) を用いて，時間的な依存関係を考慮しつつ，入力話者の基本周波数と低次のメルケプストラム系列を目標話者のものに変換する． 2段目のモデルでは，GANを用いて，過剰に平滑化された変換時の音響特徴を高精細化する．実験結果から，従来手法と比べ，提案手法は同程度の自然性と高い個人性を持つ声質変換が可能であることを示した．実験結果主観評価実験により，変換音声の自然性と個人性をそれぞれ比較した．自然性は音声が自然に聞こえるか，個人性は音声が目標話者らしく聞こえるかを表した指標である．
skypenguins 2018/10/16
deeplearning

機械学習

音声
リンク
「ヤニー」？　「ローレル」？　どちらにも聞こえる音声で騒然 - BBCニュース
世界の終わりは、こうしてやってくるのだ。大爆発によってではなく。「ローレル」という音で。あるいはそれは「ヤニー」なのか。誰にも、決定的なことは分からない。
skypenguins 2018/05/17
音声
リンク
キズナアイとねこますの声を入れ替える機械学習をした - Qiita
最近バーチャルユーチュ－バーが人気ですよね。自分もこの流れに乗って何か作りたいと思い、開発をしました。モーションキャプチャー等を使って見た目を変えるのはかなり普及しているっぽいので、自分は声を変えられるようにしようと開発しました。やったことキズナアイさんとねこますさんの、それぞれの声を入れ替えられるようにしました。これによって、ねこますさんのしゃべった内容を、キズナアイさんの声でしゃべらせることができます。(逆も) 機械学習手法の一つであるCycleGANを用いて、変換するためのネットワークを学習しました。パラレルデータ(話者Aと話者Bが、同時に同じ内容を話した音声)が必要ありません。YouTubeから拾った音声でも変換ができます。当然ですが、一度学習すれば、利用時には何度でも繰り返し利用できます。期待できる効果見た目だけでなく、声まで美少女になれます。やったね。他にも
skypenguins 2018/05/16
CycleGANっぽいなと思ったら言及されてた

機械学習

音声

GAN
リンク
深層学習を使って楽曲のアーティスト分類をやってみた！ - Platinum Data Blog by BrainPad
深層学習を使った音声データによる楽曲分類を実施しました！楽曲の特徴を表すメル周波数スペクトログラムを用いて、その楽曲のアーティストを推定します。こんにちは、アナリティクスサービス本部の井出です。今回のブログは、音声データをテーマとして取り上げ、音声データの特徴量深層学習による楽曲のアーティスト分類についてご紹介します。ブレインパッドでは、深層学習の技術を駆使した活用事例が増えてきています。特に、画像認識の分野における活用事例は多く、当社の公開されている事例だけでも以下のようなものがあります。ブレインパッド、キユーピーの食品工場における不良品の検知をディープラーニングによる画像解析で支援八千代エンジニヤリングとブレインパッド、洪水を安全に流す役割を担う河川のコンクリート護岸の劣化をAIで自動判定するサービス「GoganGo」を共同開発一方で、音声データを扱う事例はなかなか珍
skypenguins 2018/04/18
スペクトログラムって画像だから、音声認識と画像認識を同時にやってることになるのかな

機械学習

音声

深層学習

MFCC
リンク
音声処理で参考になったサイトまとめ - Qiita
これなあに？先週は強化学習の勉強会をしました。今週は音声処理の勉強会をやるぞということになって僕はまた焦って資料をかき集めました。この記事は音声処理の勉強会を行うにあたって、参考になったサイト、もしくは情報をまとめたものです。勉強会で共有するために作ったけどせっかくだしあげておくことにしました。読んだ感想や要点なんかも簡単にまとめれたらと思います。特に参考になった記事、重要だと思った記事には★マークをつけておきます。僕自身が音声処理初心者ということ、短い時間でまとめたことから誤りや不適切な点があるかもしれません。その場合は指摘していただけると幸いです。理論解説基礎の基礎を勉強する勉強会だったので入門記事多め。あんまりちゃんと読んでないものもあります…。音声の音響分析の「いろは」～初めて音声波形を見る方へ～★ 東京大学の授業のスライド？そもそも"音"や"声"はどのよ
skypenguins 2018/02/13
音声認識

音声

Deep Learning
リンク
音楽と機械学習前処理編 MFCC ~ メル周波数ケプストラム係数 - Qiita
最近音楽を機械学習で扱うことに興味があって色々と調べているのですが、せっかくなので備忘録と理解促進を兼ねて記事にしてみます。機械学習に限らず、音楽をデジタル情報として扱う際には楽譜や調、歌詞など、メタな情報を扱う方法と、オーディオデータそのものを扱う方法とに大別されますが、今回はオーディオデータそのものを扱う方法の一つとして、MFCCについてまとめます。お急ぎの方向け mp3 を wav にして MFCC して現実的に扱えそうな次元に落とす # ffmpegのインストール $ brew install ffmpeg # ffmpegで mp3 をサンプリングレート 44.1kHz wavに変換 $ ffmpeg -i hoge.mp3 -ar 44100 hoge.wav # 必要なPythonパッケージのインストール $ pip install --upgrade sklearn
skypenguins 2018/02/13
機械学習

MFCC

音声
リンク
Slackにおける音声通話機能のWebRTC観点からの解析
はじめに 2016/3/3より、Slackに音声通話機能が搭載された。試しに使ってみたSlackユーザもそれなりにいると思う。 Slack音声通話機能の対応クライアントは、現時点では限定的だ。Slackの設定画面の一文を引用すると Currently on Mac and Windows desktop apps and in Chrome; coming soon to mobile! の通りで、Chromeまたはデスクトップのネイティブアプリとなる。音声機能が実装されていてこの種類の対応状況なら、もちろん利用技術はWebRTCと考えるのが素直だ。(しかもWebRTCベースのスタートアップであるScreenHeroを買収していることもあり) ここで、最も気になるのは内部でWebRTCをどのように利用しているか、という点だ。すでに、WebRTCエンジニア御用達のWebRTCHacks
skypenguins 2016/03/06
WebRTC

javascript

TURN

SDP

音声

p2p

slack
リンク
音声認識のしくみ
音声認識を紹介するページとにかくここでは、だらだらと「音声認識」というモノを紹介します。全体が（ほぼ）このページ一枚に収まっています。ところどころにリンクがありますが、そのリンク先には、難しい話やこぼれ話みたいなものがちょこちょことあります。ところで、話を簡単にするために、ちょっと嘘を混ぜています。そうでないと、ものすごく複雑な話になるので。音声認識ってなにさ簡単に言ってしまえば、人間が喋った声を機械が文字に直すことです。図で描くとこんな感じです。左側が音声波形（つまり、声を図に表している）で、右側がそれをひらがなに直したものです。左側の音声波形を少し詳しく見てみる人間は耳で音を聞きますが、機械はマイクで音を聞きます。そして、マイクで収録された音をそのまま表示させると、下のような感じになります。横軸が時刻で、縦軸が振幅です。音声というのは、ようす
skypenguins 2015/12/22
音声認識

研究

音声

フーリエ変換
リンク
知る人ぞ知るUnity 5のネイティブオーディオプラグインについて - Qiita
はじめにみなさん、Unity 5から使えるようになったネイティブオーディオプラグインのこと、知ってますか？え？「DllImportで呼ぶやつだろ」って？はい、それはただのネイティブプラグインですね。 Unity 5ではオーディオ機能が改良され、Audio Mixerなどの仕組みが追加されると同時にネイティブオーディオプラグインが使えるようになりました。今までと何が変わったの？ Unity 5以前では音声データを加工するためにはMonoBehaviourのOnAudioFilterReadを使って、スクリプトで処理するしかありませんでした。ネイティブオーディオプラグインでは処理部分をC/C++などのネイティブコードで記述できるため、高速に音声データの生成・加工を行うことができます。 (エディターからプラグインを操作するためのGUIはC#で記述する) サンプルネイティブオーディオプラ
skypenguins 2015/12/14
Unity

プラグイン

プログラミング

ゲーム開発

オーディオ

音声
リンク
1