2007.06.29 mixi日記キーワードランキングの種明かし (59) カテゴリ:開発(全般) 先月の中旬くらいからmixiのトップページの3列目に「日記キーワードランキング」というコーナーができてましたが、私はこのコーナーをどう実現しているのか不思議でたまりませんでした。まさか人間がすべての日記を読んでキーワードの集計をとっているわけでもないのに、機械に自然言語(人が使う言葉のこと)を処理させるということが想像できませんでした。これを機にいろいろ調べてみましたが、なかなかおもしろい調査になったのでシェアを。 【ランキングを生成する際の基本的な考え方】 注)一般語⇒「今日」「笑」「気持ち」等 1.日記の本文を自然言語処理(形態素解析)して名詞のみを抽出する。 2.特定の名詞が頻繁に連続する場合、それを複合名詞として合体させる。 3.頻度が高い語を選ぶ。 4.そうすると一般語ばかり選ばれ