本連載「Deep Learningで始める文書解析入門」では、Deep Learningの中でも時系列データを扱う「Recurrent Neural Network」(以下、RNN)と、その応用方法としてリクルートグループ内で取り組んでいる原稿校正(誤字脱字の検知)の実現方法について解説してきました。 連載第1回ではRNNの概要や活用例について述べ、第2回の前回では、「誤字脱字の検知」というタスクの概要を紹介し、それに対してRNNをどのように活用したかを紹介しました。 前回の最後でも述べましたが、誤字脱字の検知という課題に対して始めからRNNがうまく機能したかというと、答えは「ノー」です。「文字の系列から次の単語を予測するRNNを“異常検知”的に利用する」こと自体は、うまく機能しているようでした。 しかし、英語に比べ日本語の文法は思った以上に複雑で、特に、前回『「誤字脱字」の3つの定義』の