以前の記事「オススメスクレイピング「kimono」と「import.io」」でご紹介した、import.ioというフリーソフトについてのちょっとした使い方の解説をしたいと思います。 ただし、私自身このソフトを使いこなせている訳では無く、簡単なデータ取得にしか使用していませんので、本当にちょっとした使い方のコツというか、「私はこうやってますよ、みなさんはどうですか?」という様な紹介になります。 まずはimport.ioの導入部分の解説をサラッと簡単にご紹介しておきます。 import.ioのサイトに行って、右上のSign upをクリックしてアカウント登録をします。入力項目はメアドとパスワードのみなので新規にアカウントを取得するので良いかと思います。 後はimport.ioのダウンロードを促されるので、指示に従ってダウンロードして下さい、英語ですが何となく理解する感じで大丈夫です。 impor
Octoparseとは Octoparseは、どんなWEBサイト上のデータも手軽に抽出することができる無料スクレイピングツールです。 無料版だと、一部機能に制限がありますが、ヘビーユーズでもしない限りは、十分すぎるくらいの機能があります。無料版と有料版の違いについては、Pricingを参照してみてください。有料版だと、タスクの登録数や自動実行数が多くなり、クラウド上で動作させることもできます。 実際に使ってみた感じでは、視覚的に分かりやすくデータ抽出箇所を設定することができ、実行することができるツールになっています。 例えば以下のようなデータ抽出なら簡単にできてしまいます。 単一ページ上のデータを抽出する ページネーションを移動しながらリストデータを取得する リストのリンク先もたどって取得する URLを複数指定して全てのページから指定したデータを取得する Octoparseは、上記のように
Twitter Facebook B! Bookmark LINE Pocket Feedly HTMLをスクレイピング(scraping)してあれこれとするとき、僕はずっと正規表現に頼っていたのですが、 ページの構造が変化するとすぐに使えなくなってしまうし、時間がかかる割りに退屈な作業なので何とかならないかなと思っていました。 PHPで探していたのですが、XML(とかRSS)をパースする関数やライブラリは、良く目にするものの、HTMLを処理できるものはなかなか見つかりませんでした。 以下は、PHP(とかRuby、Perl)でHTMLをスクレイピングしたりパースするための方法。 PHPでスクレイピング&パース HTMLを整形式のXML文書に修正するPHPクラス HTMLを、整形式のXMLに変換してくれるライブラリ。PEARのXML_HTMLSax3が同梱されているので、これだけでちゃんと動
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く