ブックマーク / qiita.com/ynakayama (1)

  • 大量のニュースから興味関心のある話題をベイジアン分類で抽出する - Qiita

    前々回はニュースデータを収集するために RSS/Atom フィードを利用する話を書きました。 RSS/Atom フィードには全文配信と要約配信があり、昨今ではページビューを稼ぐため要約配信、特にリンクがリダイレクトになっているものや、文がカラのものが多いという話をしました。 全文配信 … タイトル、リンク、それに記事文全体を含むフィード 要約配信 … タイトル、リンク、記事の一部のみまたは文がカラのフィード フィードデータをためる方法 前回は一部で最近話題の Fastladder のセットアップ方法を紹介し、付属のクローラーを使ってサーバーのデータベースにフィードを溜めるという方法を説明しました。 いずれ別の記事で詳しく述べますが Fastladder はサーバー設置型な上、ソースコードは公開されていますので、クローラー自体を自作することも可能です。 また fluentd は柔軟なロ

    大量のニュースから興味関心のある話題をベイジアン分類で抽出する - Qiita
    masa-wo
    masa-wo 2014/10/16
  • 1