FreeBSD、MacOSX、Webアプリ系、RDBMS(PostgreSQL)などの話題が中心になるかと思います。 ふぁぼったーという、twitterのfavoriteをカウントして集計してくれるサービスがあるのですが、たまに似たようなものというか、ほとんど同じものがふぁぼられてることがあります。 似たようなものを排除できないかなーと思って、いろいろ考えてみました。 というか、実況で同一postで並んでるのをひたすらfavoriteして、TOPが埋まって鬱陶しいんですよ! 方針はこんなかんじ。 1.ふぁぼったーの「人気」から上位・・・だいたい10ページ分を取得 2.HTMLを解析してデータ抽出(スクレイピング) 3.抽出したデータをデータベースに突っ込む 4.突っ込んだデータをもとに、類似性を計算 1〜3は Ruby 、 4は(モジュール等の関係から) Perl を使いました。 1.ne
![類似性を探そう! - てっく☆ゆきろぐ](https://cdn-ak-scissors.b.st-hatena.com/image/square/00ce03d4b1c0ae6b879e0432fd4e351d42f19f1a/height=288;version=1;width=512/http%3A%2F%2Fsayama-yuki.cocolog-nifty.com%2F.shared-pleasy%2Fnifty_managed%2Fimages%2Fweb%2Fogp%2Fdefault.png)