タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

crawlerとscraperに関するkatotakuのブックマーク (2)

  • rubyでスクレイピングまとめ

    札幌のフリーランサーまいむぞうのブログ。Android関連、コンピュータビジョン、IoT、ロボティクスあたりをやっています。 スクレイピングって、あれね。 HTMLなどから特定条件で文字を取得するやつね。 昔はなんらかの言語のHTTPライブラリと正規表現を使ってガリガリ書くのが多かったんだけど、最近はスクレイピング用のアプリケーションとか、専用ライブラリも出てきたんで、ちょっとまとめてみました。 条件は プログラムを書く必要があるならRubyにする プログラミングが必要ないなら、それが一番(データを取り出して終わり) 特定ワードで検索して、検索結果からデータ取り出しってのを繰り返す もちろん日語を扱う で、候補に挙がったのは以下の4つでした。 ■web-harvest Javaアプリ。 プログラミングの必要が無い。その代わりにXMLで条件を指定する。 家 MOONGIFTでの紹介記事

  • Webを進化させるスクレイピングのセオリー

    WebAPIだけに頼る必要はない。HTML構造を解析し、さらに情報集約や付加情報を加えたまとめサイトを作る。この特集は、Webをさらに使いやすくするためのガイドだ。 第1回目では、マッシュアップできないならば、スクレイピングすればよいと説明した。それでは、具体的に、どのようにスクレイピングすればよいのか。今回は、スクレイピングの考え方と技法を説明していこう。 CSSの普及で、容易になったスクレイピング 実際に、ほかのサイトにあるHTMLスクレイピングする場合、次の処理の流れとなる。 1)サーバからHTMLデータを取得する これは単純に、HTTP通信してHTMLデータを取得する操作である。例えばPerlであれば、LWP(libwww-perl)を利用すればよいだろう。もっと簡単に、UNIXに付属のwgetコマンドやfetchコマンドを使ってもよいはずだ。 2)HTMLから取り出したいデータ

    Webを進化させるスクレイピングのセオリー
  • 1