どうもてぃです。 とある巨大ECサイト(通称熱帯雨林)をスクレイピングして遊んでいます。 今回は nokogiri で問題が発生したので記事にしました。 nokogiriのスクレイピング精度はあんまり良くないのを実体験で痛感しましたね。 environment Ubuntu 16.04.5 LTS(elementary OS 0.4.1 Loki) Ruby 2.5.0 Rails 5.2.1 issue ページネーション要素の取得です。 Nokogiriだと4〜6割の確率でページネーションを取得できない場合があります。 問題なのが、Seleniumだとページを読み込み終わるまで待つSelenium::WebDriver::Waitがあるのに対して、Nokogiriにはwaitが存在しません。 あと、NokogiriではJS等で動的に表示しているページは上手く取得できないことがあるとのこと