はじめに 昨日公開された日本語音声認識に特化した「Kotoba-Whisper」のkotoba-whisper-v1.0を試してみました。 本モデルは、OpenAIの「Whisper large-v3」を教師モデルとして使用し、蒸留(大規模な学習モデルから、同機能を持つより小さなモデルを開発する手法)を用いて開発されました。 kotoba-whisper-v1.0は、ReazonSpeechコーパスの一部である日本語音声と文字起こしのペアデータセットを使用して学習されたモデルです。学習データには、日本のテレビ番組の音声と、文字起こしたものが含まれています。具体的には、1,253時間の音声データと16,861,235文字の文字起こしデータが使用されています。 本モデルは、Pythonのライブラリであるtransformersに対応しており、短時間の音声ファイルの文字起こしから、長時間の音声フ
![日本語音声認識に特化したWhisperである kotoba-whisper-v1.0を早速試してみた | DevelopersIO](https://cdn-ak-scissors.b.st-hatena.com/image/square/db3a812e727c7a98ce1767a592a8cb43585a54fd/height=288;version=1;width=512/https%3A%2F%2Fdevio2023-media.developers.io%2Fwp-content%2Fuploads%2F2020%2F05%2Feyecatch_machine_learning.png)