ヘッドレスブラウザsplashが便利だったので知見を共有します モチベーション jsで構成されたサイトをスクレイピングしたいなと思い立った時、seleniumがデファクトの選択肢として挙げられると思います。 しかしseleniumの含めヘッドレスブラウザはブラウジングが入ってくるので処理がそれなりに遅くなってしまいます。大量のページをスクレイピングする用途では不向きです。 そこで、サイトをしっかりブラウジングしながらもパフォーマンスを両立するヘッドレスブラウザという要件でseleniumの代わりをさがしていたところ、splashに白羽の矢が立ちました。 splashとは scrapyの開発元であるscrapinghub社が開発しているスクレイピングに特化したヘッドレスブラウザです。 splashは他のヘッドレスブラウザとは毛色が違い、Dockerで配布されるHTTP APIです。 ドキュメ
1.はじめに 前回に引き続き、店舗の緯度経度情報を取得します。 今回はMapion電話帳からチェーン展開している企業の店舗情報を取得します。 汎用性を持たせるため、scrapy実行時に引数で以下項目を渡せるようにしています。 ・genre:ジャンルID ・category:カテゴリID ・chain_store:チェーン展開企業ID 例えば、餃子の王将の場合、以下のようになります。 genre=M01(グルメ)、category=002(ラーメン・餃子)、chain_store=CA01(餃子の王将) 2.実行環境・環境構築 実行環境・環境構築は前回と同じ。 3.scrapy item.py、setting.pyの設定も名称/取得項目以外、前回同様なので割愛。 チェーン店舗のトップページ(例)に店舗一覧が載っています。 ただし、このページからは緯度経度情報を取得できないため、各店舗のlin
FAQにも記されていますが、 non-working localStorage in Private Mode. This is a common issue e.g. for websites based on AngularJS. If rendering doesn’t work, try disabling Private mode (see How do I disable Private mode?). Splashはデフォルトでプライベートモードで立ち上がるらしく、プライベートモードだとlocalStrorageが正常に動作しない場合があるよと、、 私は後述するサイトのレンダリングが当初一向にされなかった(=JavaScriptのコードが未解釈だった)ので--disable-private-modeオプション付でdocker runを行ったところ、キチンとレンダリングされる様
2025-09-07 プログラミング初心者必見!おすすめのテキストエディタ8選を紹介 プログラミングをするうえで欠かすことができないツールの一つに、テキストエディタがあります。システム開発の現場では、専用のソフトやツールがあったりもしますが、まずはテキストエディタでコードを書く技術者が多いです。 そして、どのエンジニアも、大体お気に入りのテキストエディタを持っています。 今回は、そんなエンジニアに人気の、テキストディタをいくつか紹介していこうと思います。 テキストエディタとは テキ […] 2025-09-07 【エンジニアが語る】現場でのトラブル体験談 プログラマーになって10年ほどになりますが、これまでにいくつかの現場を経験しました。 社内で請負で仕事をすることも多いですが、現場でも社内でも、仕事をする上で経験することに変わりはありません。 今回は、そんな現場での体験談の中から、現場で
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く