タグ

音声合成と機械学習に関するs_ryuukiのブックマーク (25)

  • おはなし無限読み上げアプリ「ずんだテラー」の開発ポイント解説 - Qiita

    先日、おはなしを自動で生成して読み上げるアプリ「ずんだテラー」を作ってみたので、その開発ポイントについて解説します。主にOpenAI APIとVOICEVOXの機能を利用しています。 ずんだテラー(ずんテラ) ずんだテラーは、東北応援キャラクター東北ずん子の関連キャラクターであるずんだもんが、その場で生成された様々な「おはなし」を読み上げてくれるアプリケーションです。 以下のリポジトリでソースコードとビルド済みPC/Androidアプリを公開しています。Unityプロジェクトです。 以下のような「おはなし」を作れます。 なぜ作った? 大きなモチベーションとしては以下でした。 OpenAI APIを使って何か作りたかった 荒唐無稽なストーリーをAIに考えてもらうのが結構面白い ずんだもんがかわいい、しゃべらせたい 今回はGenerative AIを利用したシステムを作る際の勘所のようなものを

    おはなし無限読み上げアプリ「ずんだテラー」の開発ポイント解説 - Qiita
  • GitHub - mikito/zunda-teller

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - mikito/zunda-teller
  • ChatGPT APIを使ってずんだもんとお話🙌 - Qiita

    はじめに 今話題のChatGPT API!! すごいですよね〜 楽しすぎてChatGPT APIを使った記事第3弾でございます笑 さて、今回はこれまた最近Youtubeで話題のずんだもんとのコラボでございます!! 動作例の方に今回実装したシステムの動作例をアップロードしておりますのでお時間がある方は是非! 音声出力までタイムラグがあるのは自分の実装力不足です(泣) 今回は簡素的にですが、ローカルでコマンドライン上で動作するシステムを構築いたしました。 Githubレポジトリの方にソースコードを挙げておりますので試したい方はどうぞ! 準備 今回のシステムを動作させるにあたり必要なものが2点あります。 1. OpenAI API Keyの取得 2. VOICEVOXのダウンロード OpenAI API Keyの取得方法についてはChatGPT APISlackから利用できるようにしてみたの方

    ChatGPT APIを使ってずんだもんとお話🙌 - Qiita
  • ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた

    2年ほど前に、自分の声を結月ゆかりにする声質変換技術を作り、動画を投稿しました。この技術には利用者の音声データが大量に必要であるという欠点があり、ゆかりさんになりたいというみなさんの願いを叶えるのが難しい状態でした。そこで、この技術を利用者の音声データが不要になるように改良し、誰でも簡単に使えるようにしました。ここではその技術について解説します。 手法 音声を直接変換しようとすると、利用者の音声データが必要になってしまいます。そこで、音声を直接変換するのをやめて、①音声を構成する要素である音素と音高に分解し、②音素と音高を目標の声(ゆかりさん)に再合成することを考えました。 ①は、音素の抽出に音声認識とOpenJTalkとJuliusを、音高の抽出にWORLDを用いれば簡単に実現できます。そのため、②さえ実現できれば、利用者の声のデータを用意することなく、誰でもゆかりさんの声に変換すること

    ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた
  • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

    はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま