今回の目的 前回は、青空文庫のWebサイトから梶井基次郎の小説データを取得して、そこから本文のデータを抽出する方法を見ました。今回は、自然言語処理で扱いやすいように分かち書きをするための準備をします。 ところで、自然言語処理とはもちろん私たちが日常的に使っている言葉(ここでは日本語としましょう)をコンピューターに処理させることです。その結果、コンピューターに入力された言葉からは、何らかの情報が取り出されます。何らかの情報とは例えば地名や製品名、ランチの注文かもしれませんし、ユーザーがしたい何かのアクションかもしれません。あるいは、入力された言葉が、全体として肯定的なものなのか、否定的なものなのかを判断するといったことも考えられます。 いずれにせよ、こうした処理を行うには、入力された言葉をさまざまな段階を踏んで解析する必要があるでしょう。 例えば、「くるまでまつ」という文について考えてみます
![[文章生成]MeCabをインストールして分かち書きを試してみよう](https://cdn-ak-scissors.b.st-hatena.com/image/square/a38ba3a636359678c79d918fa3f627038c991db5/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fait%2Farticles%2F2102%2F05%2Fcover_news027.png)