はじめに 文法誤り訂正のシステムは,誤り文を入れると修正文が出てきます.これは,一般的に,ニューラル機械翻訳の手法を使うことにより,誤り文から修正文への翻訳として実現されます.この学習データとして,学習者コーパスの誤り文と修正文のペアがよく用いられます.ここで,誤り文は図の「おかしい文」の集合全体,修正文は「ただしい文」の集合全体の部分集合になっています.(ただしさ・おかしさをgrammaticalである・ないってそのまま言っていいのかよくわからないので,あえてこういう言い方をしています) この学習者コーパスの規模が小さいく,質の良い機械翻訳モデルを学習するには不十分だということがよく言われています.そのため,「ただしい文」に人工的な誤りを加えて,データ拡張を行う研究が活発に行われています.流行りというやつです. ただ,ここで言うところの人工的な誤りが必ずしも「おかしい文」である保証はあま
