Pythonを使ったデータクローリング・スクレイピングは、エンジニア・非エンジニアを問わず非常に人気や需要のある分野です。しかし、いざデータクローリングしようとすると、複数ライブラリのAPIや、ライブラリそれぞれの関連性に混乱してしまうことがよくあります。 昨年公開された「Requests-HTML」はそういった問題を解決する「オールインワンでデータクローリングが行える」ライブラリです。ユーザーは「Requests-HTML」のAPIのみを学習するだけで、サイトへのリクエスト、HTMLのパース、要素の取得を行うことができます。またHeadless Chromeを使うこともできます。 このブログでは「Requests-HTML」が生まれた背景と使い方、そして興味深いポイントについて書きます。 なぜ「Requests-HTML」が必要だったか データクローリング・スクレイピングの人気の高まり
はじめに こんにちは、Python界の炭酸x2倍のジョルトコーラです。なんか適当に書いたコードが予想外にはてブ付いたので「みんな好きモノなんだなー」と思いました。同期なコードだとURL増えたときに詰まっちゃうので、非同期なやつもちょろっと紹介しますよ。 あ、くれぐれも闇雲なスクレイピングはしないでくださいよ。DoS攻撃と変わらないですから。捕まっても僕は責任とりませんよ。 リンク 5分でWebスクレイピングをする - YAMAGUCHI::weblog 前回のエントリ。これは直列なコードなのでURLが増えれば増えるほど線形に遅くなる。 やってみよう おさらい 前回は指定した複数のURLのページにあるHTMLからaタグを全部抜き出す、というようなことをしたのでした。で、今回はそれを非同期化しましょうという話。 非同期にしたいところ 前のコードでforとかになってるところは基本的に同期じゃなく
はじめに あけましておめでとうございます。今年もPython界の江古田ちゃんとして頑張っていく所存です。さて id:nishiohirokazu が5分でPythonは便利だと思える記事を元旦から書いていました。 「ほえー、さすが西尾さんや」って思ってたら、西尾さんが「おい山口、5分でPython便利だなーって思える記事書けや」っていう無言の圧力をかけてきたので*1 *2なんとなく書きました。 「5分で」っていうのが読者が読む時間なのか、筆者が書く時間なのかがわからなかったので前者ということにしました。5分で記事とコード両方書くとか無理や。 こんなことないですか 「Webでスクレイピングしたいよー、てへへ。だけど文字コードとかがページごとにバラバラでマジしんどいっす。しかもタグ抜き出すのとかめちゃめんどいっす><」ってことはあったりしませんか? リンクのタイトルとかも綺麗に抜き出したいなー
« MySQL の order by 〜 limit を高速化する方法 | メイン | MySQL Conference & Expo 2009 で Q4M の話をします » 2008年12月16日 Text::MicroTemplate - テンプレートエンジンのセキュリティと利便性 先月開催された Shibuya.pm #10 でプレゼンテーションがあった MENTA や NanoA では、Mojo 由来のテンプレートエンジンを拡張して使用してきたのですが、Perl モジュールとして独立させるべきだよね、ということになり、このたび Text::MicroTemplate として CPAN にアップロードしました。 そのことを告知するとともに、作業の過程で興味深く感じた、テンプレートエンジンのセキュリティと利便性に関する話題をブログに書いておこうと思います。 テンプレートエンジンのエスケ
Verified details These details have been verified by PyPI Maintainers gawel olauzanne Unverified details These details have not been verified by PyPI GitHub Statistics pyquery: a jquery-like library for python pyquery allows you to make jquery queries on xml documents. The API is as much as possible similar to jquery. pyquery uses lxml for fast xml and html manipulation. This is not (or at least n
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く