タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

PythonとXPathとscrapingに関するgouei2001のブックマーク (2)

  • Python と Xpath で ウェブからデータをあつめる

    2. 問題意識 • 自社製品に対する口コミを収集して分析したい・・・ • ブログ記事を集めて市場の動きを予測できないか? • 私、オープンデータに興味あるんです! • でもまずは女の子の水着画像集めたい※。 • というかもう能の赴くままに集めたい※※。 目的はともあれウェブブラウジングを自動化したいときはある。 ※http://d.hatena.ne.jp/utgym/20121212/1355277764 ※※http://yusukebe.com/archives/20120229/072808.html 4. HTML を取ってくる # coding: utf8     # このコードは utf8 というエンコードで書かれています import urllib2     # ウェブから情報を取るためのライブラリ urllib2 を読み込みます url = 'http://www.li

    Python と Xpath で ウェブからデータをあつめる
  • Gentleちゃれんじ Tips -lxmlでhtmlを処理する-

    lxmlでhtmlを処理する Pythonhtmlを取り扱う際は、「htmllib(標準モジュール)」や 「Beautiful Soup」 といったモジュールがあります。 しかし、高速で柔軟な操作がしたい場合は、 「lxml」がいいということなので、 今回はlxmlでhtmlを操作する方法をメモしたいと思います。 lxmlは、Beautiful Soupより高速で、htmllibより柔軟なhtml(xml)操作を可能にするのですが、 日語資料が少ないと言うのが難点でした。最低限のことならば、ちょっと英語を読めば、 何とかなりますが、ちょっと凝ったことをしようと思うと英語力がネックでつまづいてしまいました…。 そこで、今回は、自分がつまづいた所を中心に紹介したいと思います。 目次 htmlから情報を抽出する htmlソースを改変する まとめと補足 1. htmlから情報を抽出する htm

  • 1