タグ

音声に関するskypenguinsのブックマーク (16)

  • litagin/moe-speech · Datasets at Hugging Face

    Not-For-All-Audiences This repository has been marked as containing sensitive content and may contain potentially harmful and sensitive information. View content

    litagin/moe-speech · Datasets at Hugging Face
  • デジタル信号を正しく再生するには? ~サンプリング定理の意味

    Twitterで以下のように発言をしたら、案の定、あまり理解されなかったので頑張って説明してみます。 サンプリング定理は「信号の最大周波数」の2倍より早い速度でサンプリングすれば元信号の情報は完全に再現できる(一意に決まる)、とは言ってるけども、サンプリングしたデータをそのまま再生したとき元波形が再現できるとは一言も言ってない。 https://twitter.com/nabe_abk/status/777874934424940544 フーリエ変換とは 式の導出 サンプリング定理とは? サンプリング定理が示すもの サンプリングされた信号とその再生 一般的なデータ再生 サンプリング定理が成り立つ条件 インパルスで再生してからLPFで処理すると デジタル信号を正しく再生する方法 オーディオ再生ではどうやって解決しているのか? オーバーサンプリングについて まとめ なおこの記事では、フーリエ変

    デジタル信号を正しく再生するには? ~サンプリング定理の意味
  • VOICEVOX | 無料のテキスト読み上げ・歌声合成ソフトウェア

    オープンソースVOICEVOX は OSS(オープンソース・ソフトウェア)版 VOICEVOX をもとに構築されています。 製品版と OSS 版の違いやモジュール構成は VOICEVOX の全体構成 をご参照ください。 ソフトウェア部分は Electron + Vue音声合成エンジン部分は Python + FastAPI です。 追加したい・改善したい機能があれば、ぜひ開発にご参加ください。

    skypenguins
    skypenguins 2021/08/01
    中品質
  • 「ガルパンは騒がしい内容なのに全ての音がはっきり聞こえる」──聴覚障がいのアニメファンが語る岩浪音響監督の丁寧すぎる仕事っぷり

    「ガルパンは騒がしい内容なのに全ての音がはっきり聞こえる」──聴覚障がいのアニメファンが語る岩浪音響監督の丁寧すぎる仕事っぷり 2020年3月、あるツイートが話題となった。 聴覚障がい者であるくらはしさんが、アニメ音響監督の岩浪美和さんの手掛けた作品がいかに聞きやすいかを記したものだ。 岩浪音響監督は「サイコパス」シリーズ、『ガールズアンドパンツァー』、『ソードアートオンライン』、「ジョジョ」シリーズなど、数多くの人気作を手掛けている。 聴覚障害者としてアニメの声の聞き取りやすさをメモしているんですが、PSYCHO-PASS 3の聞き取りやすさは神レベルで、無線声、ささやき、室内残響の演出でもほとんどすべて聞き取れる。 音響監督は岩浪美和さんという方で、担当作品を調べてみたら「聞き取りにくかったメモ」に該当なしでした。 — くらはし (@TareObjects) March 27, 202

    「ガルパンは騒がしい内容なのに全ての音がはっきり聞こえる」──聴覚障がいのアニメファンが語る岩浪音響監督の丁寧すぎる仕事っぷり
  • Neural text to speech のメモ(2020 年 3 月 28 日時点) - Qiita

    テキストから, 自然な(人間が話しているっぽい)スピーチを生成し, LibTorch, TensorFlow C++ でモバイル(オフライン)でリアルタイム or インタラクィブに動く(動かしやすそう)な手法に注力しています. 英語に限っています. 人気がありそう(いろいろな人がトライしていて知見や実装があるもの)なやりやた Tacotron2 -> [Mel spectrogram(wav)] -> WaveRNN -> [audio(wav)] 最近のトレンド? Tacotron2 の部分を Transformer 系のものを使う(e.g. FastSpeech), WaveRNN の部分を WaveGlow, WaveFlow を使う. Mel spectroguram(メル スペクトログラム) 中間のデータ表現. 誤差を計算したりいろいろ処理がしやすいのでこの Mel spectr

    Neural text to speech のメモ(2020 年 3 月 28 日時点) - Qiita
  • 逆FM音源

    与えられた楽器の音色に近いFM音源パラメータの探索を勾配法で解く方法を解説します これは2020年2月8日に行われた カーネル/VM探検隊@関西 10回目 での発表資料です サンプルコード: https://github.com/Fadis/ifm

    逆FM音源
  • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

    はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

    skypenguins
    skypenguins 2019/09/29
    ヒューリスティックな遅延対策だけど、割と効果ありそう
  • 変換と高精細化の2段階に分けた声質変換 - Dwango Media Village

    概要 研究では,少数のパラレルデータで学習可能な声質変換モデルと,多数のノンパラレルデータで学習可能な高品質化モデルに分けることで, 必要なパラレルデータ数を抑えつつ高品質な声質変換を行う手法を提案する。 1段目のモデルでは,時間方向に1次元畳み込み層を持つ畳込みニューラルネットワーク (CNN) を用いて, 時間的な依存関係を考慮しつつ,入力話者の基周波数と低次のメルケプストラム系列を目標話者のものに変換する. 2段目のモデルでは,GANを用いて,過剰に平滑化された変換時の音響特徴を高精細化する. 実験結果から,従来手法と比べ,提案手法は同程度の自然性と高い個人性を持つ声質変換が可能であることを示した. 実験結果 主観評価実験により,変換音声の自然性と個人性をそれぞれ比較した. 自然性は音声が自然に聞こえるか,個人性は音声が目標話者らしく聞こえるかを表した指標である.

    変換と高精細化の2段階に分けた声質変換 - Dwango Media Village
  • 「ヤニー」? 「ローレル」? どちらにも聞こえる音声で騒然 - BBCニュース

    世界の終わりは、こうしてやってくるのだ。大爆発によってではなく。「ローレル」という音で。あるいはそれは「ヤニー」なのか。誰にも、決定的なことは分からない。

    「ヤニー」? 「ローレル」? どちらにも聞こえる音声で騒然 - BBCニュース
  • キズナアイとねこますの声を入れ替える機械学習をした - Qiita

    最近バーチャルユーチュ-バーが人気ですよね。自分もこの流れに乗って何か作りたいと思い、開発をしました。 モーションキャプチャー等を使って見た目を変えるのは かなり普及しているっぽいので、自分は声を変えられるようにしようと開発しました。 やったこと キズナアイさんとねこますさんの、それぞれの声を入れ替えられるようにしました。これによって、ねこますさんのしゃべった内容を、キズナアイさんの声でしゃべらせることができます。(逆も) 機械学習手法の一つであるCycleGANを用いて、変換するためのネットワークを学習しました。 パラレルデータ(話者Aと話者Bが、同時に同じ内容を話した音声)が必要ありません 。YouTubeから拾った音声でも変換ができます。 当然ですが、一度学習すれば、利用時には何度でも繰り返し利用できます。 期待できる効果 見た目だけでなく、声まで美少女になれます。やったね。 他にも

    キズナアイとねこますの声を入れ替える機械学習をした - Qiita
    skypenguins
    skypenguins 2018/05/16
    CycleGANっぽいなと思ったら言及されてた
  • 深層学習を使って楽曲のアーティスト分類をやってみた! - Platinum Data Blog by BrainPad

    深層学習を使った音声データによる楽曲分類を実施しました!楽曲の特徴を表すメル周波数スペクトログラムを用いて、その楽曲のアーティストを推定します。 こんにちは、アナリティクスサービス部の井出です。 今回のブログは、音声データをテーマとして取り上げ、 音声データの特徴量 深層学習による楽曲のアーティスト分類 についてご紹介します。 ブレインパッドでは、深層学習の技術を駆使した活用事例が増えてきています。特に、画像認識の分野における活用事例は多く、当社の公開されている事例だけでも以下のようなものがあります。 ブレインパッド、キユーピーの品工場における不良品の検知をディープラーニングによる画像解析で支援 八千代エンジニヤリングとブレインパッド、洪水を安全に流す役割を担う河川のコンクリート護岸の劣化をAIで自動判定するサービス「GoganGo」を共同開発 一方で、音声データを扱う事例はなかなか珍

    深層学習を使って楽曲のアーティスト分類をやってみた! - Platinum Data Blog by BrainPad
    skypenguins
    skypenguins 2018/04/18
    スペクトログラムって画像だから、音声認識と画像認識を同時にやってることになるのかな
  • 音声処理で参考になったサイトまとめ - Qiita

    これなあに? 先週は強化学習の勉強会をしました。 今週は音声処理の勉強会をやるぞということになって僕はまた焦って資料をかき集めました。 この記事は音声処理の勉強会を行うにあたって、参考になったサイト、もしくは情報をまとめたものです。 勉強会で共有するために作ったけどせっかくだしあげておくことにしました。 読んだ感想や要点なんかも簡単にまとめれたらと思います。 特に参考になった記事、重要だと思った記事には★マークをつけておきます。 僕自身が音声処理初心者ということ、短い時間でまとめたことから誤りや不適切な点があるかもしれません。 その場合は指摘していただけると幸いです。 理論解説 基礎の基礎を勉強する勉強会だったので入門記事多め。 あんまりちゃんと読んでないものもあります…。 音声の音響分析の「いろは」~初めて音声波形を見る方へ~★ 東京大学の授業のスライド? そもそも"音"や"声"はどのよ

    音声処理で参考になったサイトまとめ - Qiita
  • 音楽と機械学習 前処理編 MFCC ~ メル周波数ケプストラム係数 - Qiita

    最近音楽機械学習で扱うことに興味があって色々と調べているのですが、せっかくなので備忘録と理解促進を兼ねて記事にしてみます。 機械学習に限らず、音楽をデジタル情報として扱う際には楽譜や調、歌詞など、メタな情報を扱う方法と、オーディオデータそのものを扱う方法とに大別されますが、今回はオーディオデータそのものを扱う方法の一つとして、MFCCについてまとめます。 お急ぎの方向け mp3 を wav にして MFCC して現実的に扱えそうな次元に落とす # ffmpegのインストール $ brew install ffmpeg # ffmpegmp3 を サンプリングレート 44.1kHz wavに変換 $ ffmpeg -i hoge.mp3 -ar 44100 hoge.wav # 必要なPythonパッケージのインストール $ pip install --upgrade sklearn

    音楽と機械学習 前処理編 MFCC ~ メル周波数ケプストラム係数 - Qiita
  • Slackにおける音声通話機能のWebRTC観点からの解析

    はじめに 2016/3/3より、Slackに音声通話機能が搭載された。 試しに使ってみたSlackユーザもそれなりにいると思う。 Slack音声通話機能の対応クライアントは、現時点では限定的だ。Slackの設定画面の一文を引用すると Currently on Mac and Windows desktop apps and in Chrome; coming soon to mobile! の通りで、Chromeまたはデスクトップのネイティブアプリとなる。 音声機能が実装されていてこの種類の対応状況なら、もちろん利用技術はWebRTCと考えるのが素直だ。(しかもWebRTCベースのスタートアップであるScreenHeroを買収していることもあり) ここで、最も気になるのは内部でWebRTCをどのように利用しているか、という点だ。 すでに、WebRTCエンジニア御用達のWebRTCHacks

    Slackにおける音声通話機能のWebRTC観点からの解析
  • 音声認識のしくみ

    音声認識を紹介するページ とにかくここでは、 だらだらと「音声認識」というモノを紹介します。 全体が(ほぼ)このページ一枚に収まっています。 ところどころにリンクがありますが、 そのリンク先には、 難しい話やこぼれ話みたいなものがちょこちょことあります。 ところで、話を簡単にするために、 ちょっと嘘を混ぜています。 そうでないと、ものすごく複雑な話になるので。 音声認識ってなにさ 簡単に言ってしまえば、 人間が喋った声を機械が文字に直すことです。 図で描くとこんな感じです。 左側が音声波形(つまり、声を図に表している)で、 右側がそれをひらがなに直したものです。 左側の音声波形を少し詳しく見てみる 人間は耳で音を聞きますが、 機械はマイクで音を聞きます。 そして、マイクで収録された音をそのまま表示させると、 下のような感じになります。 横軸が時刻で、縦軸が振幅です。 音声というのは、ようす

  • 知る人ぞ知るUnity 5のネイティブオーディオプラグインについて - Qiita

    はじめに みなさん、Unity 5から使えるようになったネイティブオーディオプラグインのこと、知ってますか? え?「DllImportで呼ぶやつだろ」って?はい、それはただのネイティブプラグインですね。 Unity 5ではオーディオ機能が改良され、Audio Mixerなどの仕組みが追加されると同時にネイティブオーディオプラグインが使えるようになりました。 今までと何が変わったの? Unity 5以前では音声データを加工するためにはMonoBehaviourのOnAudioFilterReadを使って、スクリプトで処理するしかありませんでした。 ネイティブオーディオプラグインでは処理部分をC/C++などのネイティブコードで記述できるため、高速に音声データの生成・加工を行うことができます。 (エディターからプラグインを操作するためのGUIはC#で記述する) サンプル ネイティブオーディオプラ

    知る人ぞ知るUnity 5のネイティブオーディオプラグインについて - Qiita
  • 1