目的 Mechanize を使ってウェブアクセスを自動化する際に障壁となるのが JavaScript です。 Mechanize は JavaScript を認識してくれません。 例えば以下の処理が入っただけで Mechanize は期待通りの動きをしてくれません。 onClick イベントを使った操作 jQuery などの JavaScript ライブラリが発達し、ページを動的に生成するということが自然と行われるようになった昨今、 Mechanize は無力なのでしょうか? そんなことはありません。ほんの一工夫で目的を達成する方法をまとめていきます。 前提 本ページが想定するのは「特定ページに対する操作の自動化」です。 不特定多数のページにアクセスする自動巡回情報収集などの自動化は含みません。 不特定ページを扱おうとした場合、JavaScript 部分に関して足掛かりとなる前提が全くなく
Mechanizeはスクレイピングを補助するRubyライブラリだ。 MechanizeはCookieのやり取りをはじめ、Webサイトとのインタラクションを自動化してくれる。 Net::HTTPやopen-uriでは面倒なWebサイトへのアクセスを、Mechanizeを使えば簡単にRubyで記述することができる。 以下では拙作のhttp://bestgems.org/を対象として、Mechanize 2.7.0の基本的な使い方を説明する。 初期化とWebページの取得MechanizeでWebページを取得するのは簡単だ。 Mechanizeクラスをnew()し、get()を呼びだせばWebページを取得できる。 WebページはMechanize::Pageオブジェクトになっている。 require 'mechanize' agent = Mechanize.new page = agent.ge
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く