急にコメントが来たので 前回、C77のサークル名で文字頻度の解析をたわむれにやってみたところ、コメントやらTwitterやらでわずかながらもいくつか反応をいただけました。ありがたい限りです。その際、 英数字やカナの場合N-gramといってN文字単位で切り出したものをカウントすると言う手法もあります。 というアドバイスをいただいたので、ははあなるほど世の中にはそんなものもあるのか、では試験勉強の現実逃避にひとつそのN-gramというものもやってみるか、と思い立った次第です。勉強しろ。 前回と同じく、C77のCD-ROM版カタログから抽出した全40324サークル(抽選漏れ含む)の名前リストを、ExcelとVBAを使って適当に処理しています。 N-gramってなにさ ご存じの方は飛ばしてくださってかまいません。ご存じでない方も、N-gramで検索をかけた方が分かりやすい気がします。 N-gram