スクレイプ対象 英語の学習にも役立てたいのでスクレイプ対象は購読しているThe Economist。 The EconomistのPuppeteerによるスクレイピングなので、作ったライブラリの名前はPuppenomist。良いもじりだと思っている。 学び ログイン処理 ログイン処理を行なっているPuppeteerの例は少ないので実例として参考になるのでは。 マナーを守ったスクレイピング The Economistのrobots.txtに「5秒ごとのアクセス」とあるので、割りに時間がかかる。1冊分で5,6分、一年分だと数時間になる。数時間だと1回では無理なので、ログを残して途中から再開できるようにした。 RECAPTCHA サイト側ではgoogleのRECAPTCHAが設置されている。 詳しくは書かないけど、RECAPTCHAに引っかかりやすいページや挙動というものがある。 挙動に関しては

