[B! crawler][scraper] katotakuのブックマーク

katotaku id:katotaku

crawlerとscraperに関するkatotakuのブックマーク (2)

rubyでスクレイピングまとめ
札幌のフリーランサーまいむぞうのブログ。Android関連、コンピュータビジョン、IoT、ロボティクスあたりをやっています。スクレイピングって、あれね。 HTMLなどから特定条件で文字を取得するやつね。昔はなんらかの言語のHTTPライブラリと正規表現を使ってガリガリ書くのが多かったんだけど、最近はスクレイピング用のアプリケーションとか、専用ライブラリも出てきたんで、ちょっとまとめてみました。条件はプログラムを書く必要があるならRubyにするプログラミングが必要ないなら、それが一番(データを取り出して終わり) 特定ワードで検索して、検索結果からデータ取り出しってのを繰り返すもちろん日本語を扱うで、候補に挙がったのは以下の4つでした。 ■web-harvest Javaアプリ。プログラミングの必要が無い。その代わりにXMLで条件を指定する。本家 MOONGIFTでの紹介記事
katotaku 2014/02/09
crawler

ruby

scraper
リンク
Webを進化させるスクレイピングのセオリー
WebAPIだけに頼る必要はない。HTML構造を解析し、さらに情報集約や付加情報を加えたまとめサイトを作る。この特集は、Webをさらに使いやすくするためのガイドだ。第1回目では、マッシュアップできないならば、スクレイピングすればよいと説明した。それでは、具体的に、どのようにスクレイピングすればよいのか。今回は、スクレイピングの考え方と技法を説明していこう。 CSSの普及で、容易になったスクレイピング実際に、ほかのサイトにあるHTMLをスクレイピングする場合、次の処理の流れとなる。 1）サーバからHTMLデータを取得するこれは単純に、HTTP通信してHTMLデータを取得する操作である。例えばPerlであれば、LWP（libwww-perl）を利用すればよいだろう。もっと簡単に、UNIXに付属のwgetコマンドやfetchコマンドを使ってもよいはずだ。 2）HTMLから取り出したいデータ
katotaku 2014/02/09
crawler

scraper
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx