タグ

2012年7月19日のブックマーク (7件)

  • XPath and XSLT with lxml

    XPath and XSLT with lxml lxml supports XPath 1.0, XSLT 1.0 and the EXSLT extensions through libxml2 and libxslt in a standards compliant way. lxml.etree supports the simple path syntax of the find, findall and findtext methods on ElementTree and Element, as known from the original ElementTree library (ElementPath). As an lxml specific extension, these classes also provide an xpath() method that su

  • AppStoreのレビューを取得するperlスクリプト - そばプリッツの雑記

    とある理由でAppStore上のユーザレビューを 大量に取得する必要があり、調べてたら、 Scraping AppStore Reviews で詳しい方法とPerlスクリプトが公開されてました。 でも、最近になってiTunes Storeの構造が変わったため、 そのままではうまく行かない。 現状に対応したやり方がなかなか見当たらなかったけど、 ちょっといじったら取得できるようになったのでメモっておきます。 (基的には上記のページを参考に) 問題の原因は、今までレビューは圧縮された状態で提供されていたけど、 最近になってそれが無くなったこと。ただそれだけです。 だから、参考ページのスクリプトで、 gunzipしてる部分を消すだけです。 ついでに、参考ページのスクリプトだとレビュー文の1行目しか取得できないので、HTML::TagParserを使って文全体を取得できるように修正してみまし

    AppStoreのレビューを取得するperlスクリプト - そばプリッツの雑記
  • Pythonでスクレイピングに最適なライブラリはlxmlな気がした。時間的な意味で - When it’s ready.

    ここ数日でHTMLからTagを除去する方法を、色々知った。とても勉強になりました。教えてくれた人ありがとうです。 具体的には、BeautifulSoupとHTMLParserとlxmlという3つのライブラリでそれぞれTag除去が可能な事が分かった。実際どれも満足な挙動で、じゃあどれを使えばいいのさ!と、迷ったので実行速度を適当に測ってみた。 時間を計るところのコードが激しく恥ずかしい。ホントは、3つのファンクションを配列に入れて、forで回したかったけど、配列に入れる時に評価されてしまってNG、map関数で、関数と関数(計測したい関数と、計測する関数)を2つ渡すやり方がわかんなかったので、同じ事を3回書く事にした。マジ恥ずかしいがこれしか思いつかなかった。 計測用のHTMLには、はてダのトップページとした、コメント、Style、Script、htmlがそこそこのボリュームで入っていた為 計

    Pythonでスクレイピングに最適なライブラリはlxmlな気がした。時間的な意味で - When it’s ready.
  • 5分でWebスクレイピングをする - YAMAGUCHI::weblog

    はじめに あけましておめでとうございます。今年もPython界の江古田ちゃんとして頑張っていく所存です。さて id:nishiohirokazu が5分でPythonは便利だと思える記事を元旦から書いていました。 「ほえー、さすが西尾さんや」って思ってたら、西尾さんが「おい山口、5分でPython便利だなーって思える記事書けや」っていう無言の圧力をかけてきたので*1 *2なんとなく書きました。 「5分で」っていうのが読者が読む時間なのか、筆者が書く時間なのかがわからなかったので前者ということにしました。5分で記事とコード両方書くとか無理や。 こんなことないですか 「Webでスクレイピングしたいよー、てへへ。だけど文字コードとかがページごとにバラバラでマジしんどいっす。しかもタグ抜き出すのとかめちゃめんどいっす><」ってことはあったりしませんか? リンクのタイトルとかも綺麗に抜き出したいなー

    5分でWebスクレイピングをする - YAMAGUCHI::weblog
  • Requests: HTTP for Humans — Requests 2.4.3 documentation

    Requests: HTTP for Humans™¶ Release v2.32.3. (Installation) Requests is an elegant and simple HTTP library for Python, built for human beings. Behold, the power of Requests: >>> r = requests.get('https://api.github.com/user', auth=('user', 'pass')) >>> r.status_code 200 >>> r.headers['content-type'] 'application/json; charset=utf8' >>> r.encoding 'utf-8' >>> r.text '{"type":"User"...' >>> r.json()

  • 海老とアボカドの冷製パスタ。 by ういui

    2022/1/13をもって お客様がご利用中のブラウザ (Internet Explorer) のサポートを終了いたしました。 (詳細はこちら) クックパッドが推奨する環境ではないため、正しく表示されないことがあります。 Microsoft Edge や Google Chrome をご利用ください。 (Microsoft Edgeでクックパッドにログインできない場合はこちら)

    海老とアボカドの冷製パスタ。 by ういui
  • 風俗未経験の40代がソープで稼ぐには?

    今回のテーマは風俗未経験の40代です、ソープで稼ぎたいですと言う事についてです。年齢はアラフォーを過ぎた40代、そして業種はソープ、仕事ができそして稼げるのかというところをメインにこれから色々と書いて行きたいと思います。 目的意識と現実 風俗未経験の40代です、ソープで稼ぎたいです、と言うのが今回のテーマになります。40代でソープ未経験、そしてなおかつ稼ぎたい、この状況を客観的に見たとき正直厳しいと言えると思います。もちろん40代と言っても色々な女性がいます、容姿も違えば生きてきた過程も人それぞれ違ってくるでしょうから一概に厳しい、そして絶対に稼げないとまでは言いません。しかし、厳しい現実があるかもしれないと言うことは覚悟しておくことが大切だと思います。何れにしても、40代でソープ未経験、このステータスで雇ってもらえるソープ店があるのか?そして自分を雇ってもらえるお店を探すところから始めな

    風俗未経験の40代がソープで稼ぐには?