cloud9上で動的サイトのスクレイピングを行おうと調査。 静的サイトは以下のサイトを参考にScrapy+scrapinghub(サイト)で処理したので、 Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る - Gunosyデータ分析ブログ scrapinghubの提供するSplashというライブラリを利用しようとした。 JavaScriptレンダリングサーバーSplashでスクレイピング - orangain flavor しかし、Splashはdockerを利用し仮想サーバ上で動的サイトの内容を取得する仕組みらしいのだが、cloud9のワークスペース自体がdockerで運用されているためなのか、Permission deniedになってしまう。 次善策としてPython + webdriver + phantomjsでやってみる。 $ pi