今回は、日本語の文章を解析して、よく使われている単語をピックアップするプログラムをつくってみよう。その例として、夏目漱石の代表作「こころ」を題材にして、頻出語句を調べる。漱石が作中で最も使った単語は何だろうか。プログラミングで数えてみよう。 日本語を単語ごとを区切るのは簡単ではない そもそも、スペースで区切られている英語と違って、日本語は単語の区切れが分かりづらい。英文であれば、文章をスペースで区切って、前方から出現単語をカウントすれば良いので容易にカウントできる。 これに対して、日本語の文章では、語句が連続しているため、単純に単語の区切りを得ることが難しい。もちろん句読点を入れることはあるが、それは意味の区切りであって単語の区切りではない。 それで、日本語の文章を単語ごとに分けるためには、どうしても、単語辞書などを利用して、文章を前方から少しずつ区切っていくという作業が必要になる。しかも