[B! crawler] elecstaのブックマーク

elecsta id:elecsta

crawlerに関するelecstaのブックマーク (4)

http://blog.yappo.jp/yappo/archives/cat_perl.html
elecsta 2011/06/24
crawler
リンク
Perlメモ/Gungho/簡単なRSSクローラ - Walrus, Digit.
Gunghoでもっともカスタムメイドの機会が多い部品は、プロバイダとハンドラです。「何を取得したいか」「取得してどうするのか」という用途に密接にかかわる部品だからです。ここではサンプルとして、データベースをストレージとした、RSS（フィード）クローラを作ってみることにします。 Gunghoの概要や情報源についてはPerlメモ/Gunghoを参照してください。このフィードクローラは、次のような動作をします。データベースに、フィード情報を保持するfeedテーブルとエントリ情報、コンテンツを保持するentryテーブルがあります。フィードの取得フィードテーブルから、未取得、または最終取得から1時間経過したフィードのURLを読み出します。読み出したフィードを取得します。取得したフィードから、エントリ情報を抽出します。新しいエントリURLがあれば、entryテーブルに追加します。エントリ
elecsta 2011/06/24
crawler
リンク
JavaScriptで本文抽出·ExtractContentJS MOONGIFT
ExtractContentJSはJavaScript製のオープンソース・ソフトウェア。ブログやWebサイトのデータを集積して、そこから情報を吸い出して何らかのサイトを構築するというサービスは多い。その時重要になるのが特定URLからの本文抽出だ。サイドバーやヘッダーなど余計な情報を省くことでより意味のあるコンテンツが得られるようになる。画面下の文字列が本文抽出した結果 Rubyであれば以前紹介したExtractcontentというライブラリがある。そしてそれをベースのはてなにてJavaScript実装したのがExtractContentJSだ。JavaScriptベースの実装とあって、クライアントベースで抽出を行いたいという時に使えそうなライブラリだ。使い方は簡単で、ExtractContentJSのオブジェクトを作ったら現在表示されているページのオブジェクト（document）を渡す
elecsta 2009/10/15
js

javascript

http

web

crawler
リンク
クローラーを作るためのフレームワーク·Anemone MOONGIFT
RSSフィードやWeb API、Mashupなどの単語が注目を集める中、Webクローラーを通じて外部のWebサイトにあるデータをかき集め、それを解析して別な形にするというのはよく見られるものになってきた。あるURLを指定し、そこからリンクされているURLを一覧表示できるそうした数々のシステムの中で、クローラーとなる基盤は大きな違いはない。Webサイトのデータを取得し、次のリンクを洗い出して取得していくようなものだ。そうした共通動作部分を切り出したフレームワークがAnemoneだ。今回紹介するオープンソース・ソフトウェアはAnemone、Webクローラを開発するためのフレームワークだ。 Anemoneは任意のWebサイトにアクセスし、その内容を解析するWebクローラーだ。例えばあるURLに付けられているリンクを一覧で取得するようなことも簡単にできる。外部サイトなのかどうかも区別できるの
elecsta 2009/07/08
crawler

ruby
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx