タグ

Cheerioに関するnorandoのブックマーク (2)

  • くだらないAPIなんていらないよ – 2016年のウェブスクレイピング事情 | POSTD

    ソーシャルメディアのAPIとそのレート制限は、あまり気分のよいものではありません。特にInstagram。あんな制限つきAPIを欲しがる人がいったいどこにいるんでしょうね? 最近のサイトは、スクレイピングやデータマイニングの試みを阻止するのがうまくなってきました。AngelListはPhantomJSすら検出してしまいます(今のところ、他のサイトでそこまでの例は見ていません)。でも、ブラウザ経由での正確なアクションを自動化できたとしたら、サイト側はそれをブロックできるでしょうか? 並行性を考えたり、さんざん苦労して用意した結果として得られるものを考えたりすると、Seleniumなんて最悪です。あれは、私たちが「スクレイピング」と聞いて思い浮かべるようなことをするためには作られていません。しかし、賢く作り込まれた今どきのサイトを相手にして、インターネットからデータを掘り当てるための信頼できる

    くだらないAPIなんていらないよ – 2016年のウェブスクレイピング事情 | POSTD
  • Node.jsでウェブスクレイピングする色々な方法 - Qiita

    ウェブサイトの更新チェックをするのに、ブラウザを開くのが面倒でスクリプト化したいことがあります。 Node.jsを使って、スクリプト化します。 お題 国立大学法人 電気通信大学から最新の新着情報の日付を取得します。 ブラウザ上での動作 最初にブラウザでの情報取得方法を確認します。 開発コンソールで次のJavaScriptを実行します。 document.querySelector('.newsList').children[0].firstChild.textContent.trim() "2017年10月 5日"最新の新着情報の日付が取得できます。 解法 色々な実装方法があります。 環境 Nodo.js v8.6.0 MacBook Pro (Retina, 13-inch, Late 2013) 比較表 最初に簡単な比較を載せます。 ソースコードは後半にあります。 ヘッドレスブラウザ

    Node.jsでウェブスクレイピングする色々な方法 - Qiita
  • 1