タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

algorithmとtoolに関するsatojkovicのブックマーク (1)

  • 類似性を探そう! - てっく☆ゆきろぐ

    FreeBSD、MacOSX、Webアプリ系、RDBMS(PostgreSQL)などの話題が中心になるかと思います。 ふぁぼったーという、twitterのfavoriteをカウントして集計してくれるサービスがあるのですが、たまに似たようなものというか、ほとんど同じものがふぁぼられてることがあります。 似たようなものを排除できないかなーと思って、いろいろ考えてみました。 というか、実況で同一postで並んでるのをひたすらfavoriteして、TOPが埋まって陶しいんですよ! 方針はこんなかんじ。 1.ふぁぼったーの「人気」から上位・・・だいたい10ページ分を取得 2.HTMLを解析してデータ抽出(スクレイピング) 3.抽出したデータをデータベースに突っ込む 4.突っ込んだデータをもとに、類似性を計算 1〜3は Ruby 、 4は(モジュール等の関係から) Perl を使いました。 1.ne

    類似性を探そう! - てっく☆ゆきろぐ
    satojkovic
    satojkovic 2009/09/09
    文章の類似性をTrigramで判定
  • 1