[B! Python][XPath][scraping] gouei2001のブックマーク

gouei2001 id:gouei2001

PythonとXPathとscrapingに関するgouei2001のブックマーク (2)

Python と Xpath でウェブからデータをあつめる
2. 問題意識 • 自社製品に対する口コミを収集して分析したい・・・ • ブログ記事を集めて市場の動きを予測できないか？ • 私、オープンデータに興味あるんです！ • でもまずは女の子の水着画像集めたい※。 • というかもう本能の赴くままに集めたい※※。目的はともあれウェブブラウジングを自動化したいときはある。 ※http://d.hatena.ne.jp/utgym/20121212/1355277764 ※※http://yusukebe.com/archives/20120229/072808.html 4. HTML を取ってくる # coding: utf8 # このコードは utf8 というエンコードで書かれています import urllib2 # ウェブから情報を取るためのライブラリ urllib2 を読み込みます url = 'http://www.li
gouei2001 2017/03/24
python

scraping

scrapy

XPath
リンク
Gentleちゃれんじ Tips -lxmlでhtmlを処理する-
lxmlでhtmlを処理する Pythonでhtmlを取り扱う際は、「htmllib(標準モジュール)」や「Beautiful Soup」といったモジュールがあります。しかし、高速で柔軟な操作がしたい場合は、「lxml」がいいということなので、今回はlxmlでhtmlを操作する方法をメモしたいと思います。 lxmlは、Beautiful Soupより高速で、htmllibより柔軟なhtml(xml)操作を可能にするのですが、日本語資料が少ないと言うのが難点でした。最低限のことならば、ちょっと英語を読めば、何とかなりますが、ちょっと凝ったことをしようと思うと英語力がネックでつまづいてしまいました…。そこで、今回は、自分がつまづいた所を中心に紹介したいと思います。目次 htmlから情報を抽出する htmlソースを改変するまとめと補足 1. htmlから情報を抽出する htm
gouei2001 2017/03/24
()

python

lxml

xpath

HTML

xml

scraping

プログラミング

devel

tips
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx