[B! scraping] thorikawaのブックマーク

thorikawa id:thorikawa

scrapingに関するthorikawaのブックマーク (3)

[Python] lxmlでスクレイピングのメモ – taichino.com
以前、BeautifulSoupでのスクレイピングのまとめを書きましたが、ベンチマークを取ってみるとlxmlの方が圧倒的に速いので、lxmlが使えるならlxmlを使った方が良いです。それで久々にlxmlを使おうとしたら、例によって全く覚えていなくて悲しいのでメモ書きです。基本的にはXPathを使いまくるだけです。BeautifulSoupとかに比べると、正規表現の指定方法が複雑ですね。ハマりポイントは以前も少し書きましたが、positionを指定する際に、//(descendant-or-self)とdescendantは違うという事です。直感的ではないのですぐ忘れてしまいます。注意しましょう。 #!/usr/bin/env python # -*- coding: utf-8 -*- import lxml.html html = ''' <html> <body> <div id="
thorikawa 2015/03/31
scraping
リンク
Webスクレイピングの注意事項一覧 - Qiita
[2020/09/09追記] 本記事の内容は著作権法改正より前に記載されたものです。最新の情報をご確認下さい。 * 著作権法の一部を改正する法律（平成30年法律第30号）について | 文化庁 * 令和2年通常国会著作権法改正について | 文化庁上記に関連して、次の記事を記載致しました。 * 【2020年度版】個人用クローラーの開発手順とその注意点 - Qiita はじめに Webスクレイピングで誰も嫌な思いをしなくて済むように、注意事項一覧を作りました。ただ、法律の専門家による解釈ではないので責任は取れません。この記事は、クリエイティブ・コモンズのCC-BYで公開致しますので、ご自由にご改修下さい。データをダウンロードする時目的は下記のものに限る。 * 個人や家族間で使用する * Web検索サービスを提供する * 情報解析をする ※参考：著作権法第30条・著作権法第47条(6
thorikawa 2014/08/23
scraping
リンク
PhantomJS でログインが必要なページでも自由自在にスクレイピング - 凹みTips
はじめに PhantomJS - Scripta ble Headless Browser PhantomJS はヘッドレスな（ブラウザ画面のない）QtWebKit ベースのブラウザで、JavaScript の API を通じて、そのブラウザを自由自在にあやつることが出来ます。使用シーンとしては、Jenkins などの CI ツールとの組み合わせによる Web ページの GUI の自動テストや、Web ページのスクリーンキャプチャ、スクレイピングなどが挙げられます。今回は、ログインが必要なページの情報をパースして自分専用に RSS 化したいなと思い、３つ目のスクレイピング用途をベースに調べてみました。その内容を備忘録として残しておきます。出来るようになることログインが必要なページの HTML を取ってくるログインが必要なページのスクリーンキャプチャを撮る PhantomJS の導入
thorikawa 2014/08/21
scraping

phantomjs
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx