自然言語処理に限らず機械学習では、データを用意するところからすべてが始まります。 画像ではMNIST、回帰ではボストンの家賃、分類ではアヤメといったデータが有名で機械学習フレームワークに付属していたりもしますが、こと自然言語処理となると何から手を付けていいかわからないことも多いのではないでしょうか。 そこで、今回は自然言語処理のためのデータセットを簡単にダウンロードするためのツールを作成しました。その名もchazutsu(茶筒)です! 自然言語処理を行うための代表的なパッケージであるNLTKにはnltk.downloadというデータをダウンロードするための仕組みが付属しているのですが、より簡単に対応するデータセットを追加でき、より「すぐに利用な形」でデータを用意するために、今回開発を行いました。 (Starを頂ければ励みになりますm(_ _)m) chazutsuの使い方chazutsuを
![自然言語処理のためのデータセットを、一行で読み込む](https://cdn-ak-scissors.b.st-hatena.com/image/square/c2a761611a3b4212d3e6201f6596ab5e568c4550/height=288;version=1;width=512/https%3A%2F%2Fmiro.medium.com%2Fv2%2Fresize%3Afit%3A750%2F1%2AAW5DWZnO47QD-rjQrLkgDw.png)