Imamuraのブックマーク - はてなブックマーク

PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記
PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan
Imamura 2022/10/18
Whisperの文字起こしはGoogle Colabだと実時間の10倍くらいかかったけど、強いGPUがローカルにあれば現実的な速度になるのかな

人工知能
リンク
Stable Diffusionを「いらすとや」で追加学習する - TadaoYamaokaの開発日記
前回、Stable Diffusionをdanbooruデータセットを使用して追加学習することを試した。今回は、自分でデータセットを作成して追加学習することを試す。データセットには、画像とキャプションが揃っている必要があり、キャプションがない場合はCLIPで疑似ラベルを生成するなどする必要がある。今回は、画像に対するキャプションがある「いらすとや」をスクレイピングして、データセットを作成した。データセット作成「いらすとや」から全ての画像とキャプションを取得した。画像に複数バリエーションがある場合は、1つ目の画像のみを使用した。キャプションは、日本語になっているため、Googleスレッドシートで、「=GOOGLETRANSLATE(XX,"ja","en")」を使って英語に変換を行った。合計で、22891枚の画像とキャプションのセットが用意できた。画像サイズ変換画像は、5
Imamura 2022/09/18
すばらしい実験。統一された画風で大量の絵があるいらすとやは学習向きなのかな。（いらすとやの素材で作った素材をいらすとやにアップすると出来がよいものはいらすとやで素材として配布されるというのを昔考えた）

Stable Diffusion

人工知能
リンク
1

はてなブックマーク

タグ

ブックマーク / tadaoyamaoka.hatenablog.com (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / tadaoyamaoka.hatenablog.com (2)

PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記

Stable Diffusionを「いらすとや」で追加学習する - TadaoYamaokaの開発日記

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス