AccessKey, SecretKey, AssociateTag を適当なものに変更して実行すると xmls ディレクトリに 145個のファイルが保存されます。1つのファイルには10冊までの情報が含まれ、合計1442冊の情報になります。 Python で実行 parse_amazon_xml.py # -*- coding:utf-8 -*- import time from lxml import objectify class ImageInfo: def __init__(self): self.url = '' self.width = '' self.height = '' class BookInfo: def __init__(self): self.asin = '' self.title = '' self.binding = '' self.author = ''
ので置いておく(scrapy.tar.gz)。こんな感じで使える: from scrapy import scraper, process twitter = scraper( process('.vcard > .fn', name='TEXT'), process('.entry-content', {'entries[]': 'TEXT'}), result=('name', 'entries') ) username = 'uasi' r = twitter.scrape(url='http://twitter.com/%s' % username) print "%s's tweets" % r['name'] print for entry in r['entries']: print entry.strip() scrapy/__init__.py # -*- coding:
Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。 そうではないみなさんには少々の説明が必要かと思いますので少々書きます。 ScraperWiki はスクレーパ(Web ページをスクレイピングするスクリプト)とスクレイピングで得られたデータを共有しようぜっという Web サービスです。Wiki と名が付いていますが Wiki っぽいページ構成になってるわけではなく、スクレーパやデータを誰でも編集できるようにして成果を共有するという理念が Wiki と共通しているのが由来みたいです。 ScraperWiki を使うとスクレーパを作るのがラクになります: Web ベースのエディタでスクレーパを書き、その場で実行できる PHP、 Python または Ruby が使える(HTML パーサなどのモジュ
ScraperWiki has two new names! One for the product and one for the company: QuickCode is the new name for the original ScraperWiki product. We renamed it, as it isn’t a wiki or just for scraping any more. It’s a Python and R data analysis environment, ideal for economists, statisticians and data managers who are new to coding.
June 07, 201010:49 カテゴリwork 簡単!たった8行のコードで HTML取得&解析をするPythonスクリプト 簡単!たった13行のコードで HTML取得&解析をするPerlスクリプト を見てPythonならもっと簡単だなーと思ったので書いてみる。 import urllib2 from lxml import etree url = 'http://www.yahoo.co.jp' opener = urllib2.build_opener() opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)')] tree = etree.parse(opener.open(url),parser=etree.HTMLParser()
タワレコ大好き、bonlifeです。とか言いつつ、タワレコのインストアイベント情報をチェックし忘れて、「行っときゃ良かった…orz」ってなることが多い今日この頃。(最近では、FREENOTEのインストアイベントに行き損ねたのが大ダメージ!ホントに大ダメージ!!) ということで、id:claddvdさんの真似をしてGoogleカレンダーに登録するPythonのスクリプトを書いてみました。参考にしたのは、このあたりです。 mixi マイミクの誕生日を取得する(ついでに Google Calendar にポストする) 4 TopCoder: lxmlでHTMLスクレーピング 今回は BeautifulSoup じゃなくて lxml を使ってみました。ほら、やっぱり XPath とか便利じゃない!(って言ってることが前回とは大違い?) 注意していただきたいのは、Windows環境では、lxml は
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く