以前の記事でハンドメイド作品をメルカリで売るための分析を行いましたが、分析の元となる40,000件近い商品データはpythonを使って機械的に収集しました。 メルカリはスクレイピング対策が豊富で慣れている僕でも結構面倒だったので、苦労しているお仲間も多い事かと思いデータ収集システムの完成に必要な知見を書き残しておきます。 約1,200件の商品データを収集するのに5分くらいかかる感じ。早くはないけどTorを経由している事、メルカリのレスポンスを確認⇔待機のループ処理が入っている事を考えれば及第点かなーと思います。 メルカリのスクレイピングは難易度高め メルカリはスクレイピングに敏感で機械的なデータ収集を妨げるための施策が随所に施されています。 例えば、 商品情報はhtmlの読み込み後、javascriptで動的に表示している ページに表示されるアイテム件数は約120件だがアクセス毎にランダム