今までに作ったスクレイピングシステムで得られたノウハウを書く。たまにしかやらないし、目的を達成したらもういじらないし、すぐ忘れるので備忘録として。 使うツール Ruby 楽だし慣れてるから。 しかし、Selenium bindingsの対応具合からするとPythonの方がいいような気がする。 Selenium Webブラウザをプログラムから操作するためのアイツ。 本来はテスト用のツールのような気がするが、細かいことは気にしない。 MechanizeとかPhantomJSとかの、プログラム制御専用の実装もあるが、人様の作ったWebサイトを読み込む場合は、普通のブラウザでないとまともに動かないことが懸念される。特にログインが必要で、かつ限られた人向けのサイトは。 3.0がリリースされてたけど、なんか動かなかったので2.x系を使った。 Firefox ESR版を使った。 https://www.