ホーム / つくってみた / Amazon Polly と Slack を使って Alexa へ (物理的に) 話しかけるシステムを作ってみた
文字起こしAPIガチンコバトル ググってざっと見れた範囲の「文字起こしAPI比較してみた」系記事では、数行(もしくは数分)レベルの非常に短い文字起こしを行いgood/badを述べているものが多いです。もしくはニュース動画のような"クリアすぎる音源"に対して行っているものも多いです。Amazon Transcribeについてバズっていたブログでも、英語での文字起こしで精度が高い話をしています。自然言語処理分野では英語の精度が高いのは知られているところですが日本語だとどうかというところが気になるところです。 自分が知りたいのは、 - 日本語の音源 - Podcastのように素人収録されたある程度ノイズが含まれた音源 - 1hくらいの長尺音源 - 複数人がクロストークしている音源 というような特徴を持った音声データに対してAPIだけでどこまで戦えるか(文字起こしできるか)だったので、いろいろ検証
文字起こしをする必要性ってあまりないんだけど、新しいサービスAmazon Transcribeが日本語対応されたので使ってみる。 Amazon Transcribe Now Supports Speech-to-text in 7 Additional Languagesという記事が上がっている。 Amazon Transcribe now supports transcription for audio and video in Gulf Arabic, Swiss German, Hebrew, Japanese, Malay, Telugu, and Turkish languages 元データは某氏の結婚披露宴で来賓祝辞挨拶の動画データから音声データだけを抜き出してAmazon Transcribeにかましてみた。 コストAmazon Transcribe API (文字起こしス
継続的にトレーニングされている最先端のフルマネージド音声認識モデルを使用して、ビジネスの成果を改善します。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く