⚠この記事は個人による適当な調査結果をまとめたものです。間違いなどありましたらご指摘いただきますと幸いです。⚠ みなさん、スクレイピングしていますか?スクレイピング時のパーサーライブラリは、何を使っていますか? 私はRubyが好きなので、大体Nokogiriを使っています。 しかし先日、あるスクレイピングの作業中に、NokogiriのHTMLパーサーは少し遅いのでは…?と感じました。約10万件のデータをパースするのに、約10分ほど待たなければいけないのです。何度も回して試行錯誤しなければならなかったので、時間がかかって仕方ありませんでした。 そもそもRubyが遅いので、言語問わず他のパーサーを使えばもっと快適に作業できのでは?という考えから、今回は、いくつかの言語のHTMLパーサーのパフォーマンスを比較してみました。 比較結果やコードは GitHub(snakazawa/html-pars