タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

クローラに関するhidebloのブックマーク (2)

  • クローラーも分散型コンピューティング·Grub MOONGIFT

    Open Tech Press | 米Wikia:分散型ウェブ巡回ツールを買収、オープンソース化より。 分散型コンピューティングという手法は面白い。古くはSETI@HOMEやUD Agent等があった。コンピュータが高性能化し、台数が急増している中、利用度はむしろ低くなっている可能性は否めない。 そして、Web巡回を行うクローラーもまた、分散型コンピューティングに名乗りを上げた。 今回紹介するオープンソース・ソフトウェアはGrub、分散型コンピューティングを利用したWebクローラーだ。尚、オープンソース化するとの事だが、現状配布されているバージョンではライセンスはLooksmartのものになっているのでご注意いただきたい。 GrubはWindowsLinux向けに提供されており、インストールするとタスクトレイに常駐する。そして、PCが利用されていない時にクローリングを行うソフトウェアだ。

    クローラーも分散型コンピューティング·Grub MOONGIFT
  • MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介

    これはやばい!凄すぎる。 現在進めようと思っているプロジェクトでは、サイト上の文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。 そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。 今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・文抽出クローラーだ。 WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。 動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた(考えていただけ)方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。 特徴的なのは、特定の言語に左右される

    MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介
  • 1