概要 こんにちは@kajyuuenです。 本記事では日本語データセットに対して、Data Augmentation(データ拡張)を行い、モデルの性能が向上するか検証します。 今回は文書分類と固有表現抽出の2つのタスクに対して、実験を行いました。 その結果、文書分類タスクでは学習に用いた文章数が500文, 2000文, 5000文のどの場合においても性能が向上し、Data Augmentationなしのモデルと比べて、最大2.5ポイントAccuracyが向上しました。 固有表現抽出タスクでは50文, 150文, 500文に対してData Augmentationの効果を検証しました。 文章数によっては性能が下がった場合もありましたが、Data Augmentationによって最も性能が向上したケースではF1が2.7ポイント向上しました。 データ拡張に用いたライブラリdaajaやData Au
![日本語文書分類・固有表現抽出タスクに対するData Augmentationの性能検証 - 農園](https://cdn-ak-scissors.b.st-hatena.com/image/square/2a3c68070e1b9e8261ddf88f4eae5c14a5a296af/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Fk%2Fkajyuuen%2F20220218%2F20220218185940.png)