「クローリングしてる暇があるなら…論文かいたら? | EDGE Datasets(研究用データセット)」で手に入れたlivedoor clipのデータ(2008年12月版)をどう使用しようかと考えている。ソーシャルブックマークの研究という点では、レコメンデーションやリンク予測が定番かなとも思う。2009年の6月には新しいデータが書き出されるようなので、今回のデータで学習して次回のデータでテストする、なんて使い方ができるわけだ(次回の書き出しを待つまでもなく日時でデータ分割すればいいのだけど)。 本格的にデータをこねまわす前に、簡単にデータの概要みたいなものを調べてみた。以下はクリップ数が多いドメイン100。 やっぱりと言っていいのかは分からないが、はてなダイアリーのクリップ数が多かった。データ全体でのクリップ数が1,570,527なので7.65%ほどをはてなダイアリーが占めていることになる