Gunrock のアーキテクチャを見てみる さて、Gunrock が一体何をしようとしたのかわかってきたところで、どういう仕組みなのかを見ていきましょう。端的に言うと、以下の論文中の画像一枚で済ます。 とはいえ初見でこれは理解が難しいと思うので(理解できれば後の文章は読み飛ばしてください)ちょいちょいと説明を加えていきます。 まず左上の User に注目してください。これは人間を指しています。つまり今椅子に座っているなりして画面を見ているあなたです。発言は矢印を進んでASRへ進んでいきます。この時点でいう発言は、音声 となっています。イメージとしてはギジャギジャした例の音声波形みたいな感じです。 ASR (automatic speech recognition) では音声を文字に書き起こす機能を提供します。Gunrockではこの部分は Amazon が提供している ASR の機能を用いた