タグ

スクレイピングに関するonyx-pigのブックマーク (2)

  • Chrome拡張「Scraper」でWEBページ情報を手軽にスクレイピングしてデータ化する方法

    Scraperとは Scraperは、WEBページ上の規則性のあるデータを手軽に取得することができるChrome拡張です。 例えば、テーブルデータや、Aリンクデータ、のような特定のHTML要素に入っている情報を、片っ端から取得してテーブルデータ化することができます。 また、その取得したデータをワンクリックでGoogleスプレッドシートに保存することができます。 テーブルデータのスクレイピングは以下の動画を見た方が分かりやすいかも。 以下では、その使い道などをいくつか考えてみました。 テーブルデータの取得 最もオーソドックスな使い方と言えば、動画にも出てきたテーブルデータの取得です。 例えば、信長の野望の以下のような武将データテーブルがあったとします。 これを、以下のように選択して、Chromeの右クリックメニューから「Scrape similar(似たものをスクレイプ)」を選択します。 す

    Chrome拡張「Scraper」でWEBページ情報を手軽にスクレイピングしてデータ化する方法
  • Portia - DOMで指定できるスクレイピングエンジン

    MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しました Web APIがどれだけ広まろうともスクレイピングの需要はなかなかなくなりません。特にWebサイトがシステム化されるのに合わせて、画面構成が一定のテンプレートに沿って出力されるようになったので、より定型で情報が取得できるようになっています。 今回紹介するPortiaはスクレイピングの基である取得場所の設定をビジュアル的に行えるソフトウェアです。 Portiaの使い方 PortiaはScrapingHubというWebサービスの中で一機能として提供されています。 こちらがメイン画面です。蜘蛛がモチーフです。 任意のWebサイトを表示します。 そして欲しい情報があるDOMを選択します。 重なって取得もできます。例えばタイトルとリンクといった具合です。 右側に設定が一覧表示されます。 テ

    Portia - DOMで指定できるスクレイピングエンジン
  • 1