以前縁あって小町さんと一緒に仕事をさせてもらい論文に名前を載せてもらったのですが、会社だけでなく自宅でもちょっと使いたいなーということもあり、実装してみることにしました。 参考にしたのは以下の論文です。 ラプラシアンラベル伝播による検索クリックスルーログからの意味カテゴリ獲得 元論文と違うのは、インスタンス-パターン行列の要素を単純な頻度から別の尺度に変えている点です。 元々そのまんま実装してみたところ、非常にレアな場合なのですが、ジェネリックパターン1つのみと共起するようなインスタンスがあった場合に、これが上位に出やすくなるという問題が発生し、どうにかできないかなと模索していたところ、小町さんからアドバイスを頂き、それを基に手を加えています。 とりあえず動作検証のためにMovieLens Data Setsを使って実験してみました。 最初にデータのフォーマットをツールの入力形式へ変更。