こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 本記事では、株式会社レアゾン・ホールディングスが2023年1月18日に公開したReazonSpeechを使ってみたいと思います。 ReazonSpeechはプロダクト群の総称で、日本語に特化した超高精度なモデルと、その学習に使用されたコーパス、コーパス作成のためのツールなどが公開されています。 詳細は下記リンクを参照ください。 モデルの方は、ライセンスがApache-2.0となっており商用利用も可能な形となっています。 コーパスはテレビなどの音声となりますので、CDLA-Sharing-1.0 (ただし利用目的は著作権法30条の4に定める情報解析に限る)とされています。 今回はこのモデルをColab上で動かして、以前投稿したWhisperなどと比較してみたいと思います。 実行手順は下記の以前の記事も参考にされてください
![日本語に特化した高精度な音声認識 ReazonSpeech を使って、会議音声を書き起こししてみた | DevelopersIO](https://cdn-ak-scissors.b.st-hatena.com/image/square/db3a812e727c7a98ce1767a592a8cb43585a54fd/height=288;version=1;width=512/https%3A%2F%2Fdevio2023-media.developers.io%2Fwp-content%2Fuploads%2F2020%2F05%2Feyecatch_machine_learning.png)