クリスマスと言えば論文読みですよね。 概要 ソーシャルブックマークのタグ使って ユーザの興味 Webページの特性 を推定しようという研究。2008年の論文だけどすでに170近く引用されてるので 多分この分野においては重要な論文ぽい。 これは意外だったけど、これまでの研究ではタグベースの推定はキーワードベースより劣るって言われてたようで この研究ではキーワードベースと同等の結果を示した。 データ del.icio.usのデータを使う (URL,user,tags)形でデータを扱う。 英語でないデータや、HTMLではないデータ、アクセス出来ないデータは除いた。 取得したタグはstop wordsにかけたあと Porter stemming algorithmでステミングする tagは298,350個、HTMLから抽出したキーワードは4,072,265個あったサービスにおける基本