急にコメントが来たので 前回、C77のサークル名で文字頻度の解析をたわむれにやってみたところ、コメントやらTwitterやらでわずかながらもいくつか反応をいただけました。ありがたい限りです。その際、 英数字やカナの場合N-gramといってN文字単位で切り出したものをカウントすると言う手法もあります。 というアドバイスをいただいたので、ははあなるほど世の中にはそんなものもあるのか、では試験勉強の現実逃避にひとつそのN-gramというものもやってみるか、と思い立った次第です。勉強しろ。 前回と同じく、C77のCD-ROM版カタログから抽出した全40324サークル(抽選漏れ含む)の名前リストを、ExcelとVBAを使って適当に処理しています。 N-gramってなにさ ご存じの方は飛ばしてくださってかまいません。ご存じでない方も、N-gramで検索をかけた方が分かりやすい気がします。 N-gram
![C77のサークル名をN-gram解析してみた - びびび新書](https://cdn-ak-scissors.b.st-hatena.com/image/square/c69e793fdc30e5411c89dd302c1931dba50cca03/height=288;version=1;width=512/http%3A%2F%2Fecx.images-amazon.com%2Fimages%2FI%2F51RqHmvbhxL.jpg)