FreeBSD、MacOSX、Webアプリ系、RDBMS(PostgreSQL)などの話題が中心になるかと思います。 ふぁぼったーという、twitterのfavoriteをカウントして集計してくれるサービスがあるのですが、たまに似たようなものというか、ほとんど同じものがふぁぼられてることがあります。 似たようなものを排除できないかなーと思って、いろいろ考えてみました。 というか、実況で同一postで並んでるのをひたすらfavoriteして、TOPが埋まって鬱陶しいんですよ! 方針はこんなかんじ。 1.ふぁぼったーの「人気」から上位・・・だいたい10ページ分を取得 2.HTMLを解析してデータ抽出(スクレイピング) 3.抽出したデータをデータベースに突っ込む 4.突っ込んだデータをもとに、類似性を計算 1〜3は Ruby 、 4は(モジュール等の関係から) Perl を使いました。 1.ne