こんにちは!最近気になるニュースはスピノサウルスの尻尾の化石が発見されたこと1な、SRE部エンジニアの塩崎です。ZOZOテクノロジーズの前身となった会社の1つであるVASILYでは数多くのクローラーの開発・運用の担当をしてきました。 今回はその知見を生かして、クローラーを楽に運用するためのクラウドサービスを紹介します。 概要 データ解析を円滑に進めるためには、CSVやWeb APIなどの構造化されたデータが必要です。しかし全てのWebサイトにあるデータが構造化データを提供しているとは限りません。むしろ提供していないケースの方がはるかに多いです。そのため、Webクローラーを作成して構造化されていないWebページを解析し、構造化データを生成する必要があります。 しかし、Webクローラーの運用には数多くの「つらみ」があります。特に大量のWebページを1日1回などの頻度で定期的にクロールする際には
突然ですが、「Webスクレイピング」という言葉をご存知でしょうか。 例えば、現存するWebサイトの一部分の要素を取り出して、そこをスマホ向けに改修するとします。その際、Webサイトの該当部分の情報・データを集めてきて、集計し、使える形に整形し直すことが可能なのがWebスクレイピングです。そして、Webスクレイピング専用のツールのことを「Webスクレイピングツール」といいます。 仮に、スクレイピングツールがなかったら、自らインターネット上に膨大な情報の中から、目的のデータを探し出し、抽出して、手作業で集計・整形しないといけません。 ただ、その際、Webスクレイピングツールであれば、Web コンテンツを自動で取得できるので、アッという間に解決することが可能です。このツールは、業務上、大幅な工数削減に役立つなど重宝します。 そこで本記事では、このように便利なWEBスクレイピングツールについて、概
Octoparseとは Octoparseは、どんなWEBサイト上のデータも手軽に抽出することができる無料スクレイピングツールです。 無料版だと、一部機能に制限がありますが、ヘビーユーズでもしない限りは、十分すぎるくらいの機能があります。無料版と有料版の違いについては、Pricingを参照してみてください。有料版だと、タスクの登録数や自動実行数が多くなり、クラウド上で動作させることもできます。 実際に使ってみた感じでは、視覚的に分かりやすくデータ抽出箇所を設定することができ、実行することができるツールになっています。 例えば以下のようなデータ抽出なら簡単にできてしまいます。 単一ページ上のデータを抽出するページネーションを移動しながらリストデータを取得するリストのリンク先もたどって取得するURLを複数指定して全てのページから指定したデータを取得するOctoparseは、上記のように様々なス
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く