タグ

2007年10月18日のブックマーク (1件)

  • [applet] 2ちゃんねる 板ぐらふ

    板ぐらふのできるまで 板ぐらふができるまでには地味な計算をたくさんしないといけません。もちろん機械がやります。大きい流れは、各板のスレッドタイトルで使われている言葉を集計→各板の類似度を計算→類似度をもとに位置を計算して描画、という具合です。 2ちゃんねるからスレッドタイトルの情報を取得します。まだ RSS もなかった時代から、「軽くて、加工しやすい」形のデータを積極的に提供していたのが2ちゃんねる。 各板を形態素解析します。拙作の Ruby スクリプト "kfreq.rb" の改造版 "kakasifreq.rb" で形態素を切り分け、集計します。ただし、この状態だと、ありがちな言葉の順位ばかりが高くなってしまいます。「スレ」とか「人」とか。 今度は、キーワードを重みづけして計算するため、tfidf という方法で計算します。 まず、ある言葉(形態素)が使われている板数の、すべての板数の中

    oirano
    oirano 2007/10/18
    あとで