日本語文章から、単語の出現数を数えるためには、文章から単語を抽出しなくてはいけません。すなわち分かち書き(単語の間に空白などを入れる)しないといけません。 本来ならば、分かち書きは大変な作業ですが、MeCab (和布蕪)やChasen(茶筌)などといった形態素解析ソフトがありますので、これの出力を使うと簡単です。形態素解析(ソフト)は、入力文を単語単位に分割し、かつその品詞を与えてくれます。 PerlやRubyなどのスクリプト言語のモジュールとして、提供されていることもあります。ですが、たいていの場合そのようなモジュールを使わなくても、簡潔さを損なうことなく記述することができます。(*1) (*1) 本格的に解析している人は除きます。多くの人が「分かち書き+品詞を知りたいくらい」だろうと想定しています。 まず分かち書き まず、日本語文章を分かち書き形式に変換しないといけません。分かち書きす