タグ

crawlerとwebに関するkyuu3908のブックマーク (3)

  • Manageability - Open Source Web Crawlers Written in Java

    You are here: Home » blog » stuff » Open Source Web Crawlers Written in Java I was recently quite pleased to learn that the Internet Archive's new crawler is written in Java. Coincindentally, I had in addition to put together a list of open source projects for full-text search engines, I put together a list of crawlers written in Java to complement that list. Here's the list: Heritrix - Heritr

  • クローラーを作るためのフレームワーク·Anemone MOONGIFT

    RSSフィードやWeb API、Mashupなどの単語が注目を集める中、Webクローラーを通じて外部のWebサイトにあるデータをかき集め、それを解析して別な形にするというのはよく見られるものになってきた。 あるURLを指定し、そこからリンクされているURLを一覧表示できる そうした数々のシステムの中で、クローラーとなる基盤は大きな違いはない。Webサイトのデータを取得し、次のリンクを洗い出して取得していくようなものだ。そうした共通動作部分を切り出したフレームワークがAnemoneだ。 今回紹介するオープンソース・ソフトウェアはAnemone、Webクローラを開発するためのフレームワークだ。 Anemoneは任意のWebサイトにアクセスし、その内容を解析するWebクローラーだ。例えばあるURLに付けられているリンクを一覧で取得するようなことも簡単にできる。外部サイトなのかどうかも区別できるの

    クローラーを作るためのフレームワーク·Anemone MOONGIFT
  • Ajax Webアプリケーション奮闘記 ~関西温泉マップ~ WebCrawlerを自作できないか?

    Ajax Webアプリケーション作成にあたり、技術的メモや奮闘内容、未解決問題等を掲載していきます。 もちろん、関西温泉マップはβ版なので無料でご利用いただけます。 私おすすめのレンタルサーバー | ここが便利!レノボWeb広告限定ストア 膨大な量のWeb情報の中から、欲しい情報を見つける為に、OperaブラウザやFireFoxブラウザを利用しているが、 さすがに、単純な情報収集を手作業で行う事への限界を感じ始めた。 というワケで、 Webクローラで、自動的に情報収集できたらいいなと思い、 自作する方法を調べてみた。 いきなり、Javaで書かれたオープンソースのWebクローラのサイトを発見したのだが、英語サイトの為、ややハードルが高い。でも、一番の近道はこのサイトであろう。 1.Manageability - Open Source Web Crawlers Written in Java

  • 1