タグ

ブックマーク / tadaoyamaoka.hatenablog.com (2)

  • PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記

    PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。 先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。 そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。 ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan

    PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記
    Imamura
    Imamura 2022/10/18
    Whisperの文字起こしはGoogle Colabだと実時間の10倍くらいかかったけど、強いGPUがローカルにあれば現実的な速度になるのかな
  • Stable Diffusionを「いらすとや」で追加学習する - TadaoYamaokaの開発日記

    前回、Stable Diffusionをdanbooruデータセットを使用して追加学習することを試した。 今回は、自分でデータセットを作成して追加学習することを試す。 データセットには、画像とキャプションが揃っている必要があり、キャプションがない場合はCLIPで疑似ラベルを生成するなどする必要がある。 今回は、画像に対するキャプションがある「いらすとや」をスクレイピングして、データセットを作成した。 データセット作成 「いらすとや」から全ての画像とキャプションを取得した。 画像に複数バリエーションがある場合は、1つ目の画像のみを使用した。 キャプションは、日語になっているため、Googleスレッドシートで、「=GOOGLETRANSLATE(XX,"ja","en")」を使って英語に変換を行った。 合計で、22891枚の画像とキャプションのセットが用意できた。 画像サイズ変換 画像は、5

    Stable Diffusionを「いらすとや」で追加学習する - TadaoYamaokaの開発日記
    Imamura
    Imamura 2022/09/18
    すばらしい実験。統一された画風で大量の絵があるいらすとやは学習向きなのかな。(いらすとやの素材で作った素材をいらすとやにアップすると出来がよいものはいらすとやで素材として配布されるというのを昔考えた)
  • 1