タグ

postdとasyncioに関するishideoのブックマーク (1)

  • asyncioを用いたpythonの高速なスクレイピング | POSTD

    ウェブスクレイピングについては、pythonのディスカッションボードなどでもよく話題になっていますよね。いろいろなやり方があるのですが、これが最善という方法がないように思います。格的な scrapy のようなフレームワークもあるし、 mechanize のように軽いライブラリもあります。自作もポピュラーですね。 requests や beautifulsoup 、また pyquery などを使えばうまくできるでしょう。 どうしてこんなに様々な方法があるかというと、そもそも「スクレイピング」が複数の問題解決をカバーしている総合技術だからなのです。数百ものページからデータを抽出するという行為と、ウェブのワークフローの自動化(フォームに入力してデータを引き出すといったもの)に、同じツールを使う必要はないわけですから。私は自作派で、それは融通が利くからですが、大量のデータを抽出する時に自作はふさ

    asyncioを用いたpythonの高速なスクレイピング | POSTD
  • 1