[B! lxml] ishideoのブックマーク

ishideo id:ishideo

lxmlに関するishideoのブックマーク (7)

GitHub - blue1616/CodeScraper
ishideo 2019/09/27
codescraper

python

pymongo

pyquery

feedparser

crontab

lxml

slackbot

github

pastebin
リンク
PythonとGoでxmlのパース速度を比較してみる - Qiita
AccessKey, SecretKey, AssociateTag を適当なものに変更して実行すると xmls ディレクトリに 145個のファイルが保存されます。1つのファイルには10冊までの情報が含まれ、合計1442冊の情報になります。 Python で実行 parse_amazon_xml.py # -*- coding:utf-8 -*- import time from lxml import objectify class ImageInfo: def __init__(self): self.url = '' self.width = '' self.height = '' class BookInfo: def __init__(self): self.asin = '' self.title = '' self.binding = '' self.author = ''
ishideo 2017/07/16
python

lxml

go

golang

xml

goquery

qiita
リンク
PythonでWeb::Scraperっぽいモジュール書いた - ヤルキデナイズドだった
ので置いておく(scrapy.tar.gz)。こんな感じで使える： from scrapy import scraper, process twitter = scraper( process('.vcard > .fn', name='TEXT'), process('.entry-content', {'entries[]': 'TEXT'}), result=('name', 'entries') ) username = 'uasi' r = twitter.scrape(url='http://twitter.com/%s' % username) print "%s's tweets" % r['name'] print for entry in r['entries']: print entry.strip() scrapy/__init__.py # -*- coding:
ishideo 2011/06/06
python

lxml

Web-Scraper

scraper

scrape
リンク
スクレイピングするなら ScraperWiki 使うといいよ - ヤルキデナイズドだった
Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。そうではないみなさんには少々の説明が必要かと思いますので少々書きます。 ScraperWiki はスクレーパ（Web ページをスクレイピングするスクリプト）とスクレイピングで得られたデータを共有しようぜっという Web サービスです。Wiki と名が付いていますが Wiki っぽいページ構成になってるわけではなく、スクレーパやデータを誰でも編集できるようにして成果を共有するという理念が Wiki と共通しているのが由来みたいです。 ScraperWiki を使うとスクレーパを作るのがラクになります： Web ベースのエディタでスクレーパを書き、その場で実行できる PHP、 Python または Ruby が使える（HTML パーサなどのモジュ
ishideo 2011/06/06
webservice

scraping

scraper

scraperwiki

python

ruby

wiki

lxml

BeautifulSoup

Nokogiri
リンク
ScraperWiki
ScraperWiki has two new names! One for the product and one for the company: QuickCode is the new name for the original ScraperWiki product. We renamed it, as it isn’t a wiki or just for scraping any more. It’s a Python and R data analysis environment, ideal for economists, statisticians and data managers who are new to coding.
ishideo 2011/06/06
webservice

scraping

scraper

scraperwiki

python

ruby

wiki

lxml

BeautifulSoup

Nokogiri
リンク
Nothing is impossible : 簡単！たった８行のコードで HTML取得＆解析をするPythonスクリプト
June 07, 201010:49 カテゴリwork 簡単！たった８行のコードで HTML取得＆解析をするPythonスクリプト簡単！たった１３行のコードで HTML取得＆解析をするPerlスクリプトを見てPythonならもっと簡単だなーと思ったので書いてみる。 import urllib2 from lxml import etree url = 'http://www.yahoo.co.jp' opener = urllib2.build_opener() opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)')] tree = etree.parse(opener.open(url),parser=etree.HTMLParser()
ishideo 2010/07/26
python

urllib2

lxml

xpath

scraping

html
リンク
lxmlでスクレイピングしてGoogleカレンダーに登録 - bonlife
タワレコ大好き、bonlifeです。とか言いつつ、タワレコのインストアイベント情報をチェックし忘れて、「行っときゃ良かった…orz」ってなることが多い今日この頃。(最近では、FREENOTEのインストアイベントに行き損ねたのが大ダメージ！ホントに大ダメージ！！) ということで、id:claddvdさんの真似をしてGoogleカレンダーに登録するPythonのスクリプトを書いてみました。参考にしたのは、このあたりです。 mixi マイミクの誕生日を取得する（ついでに Google Calendar にポストする） 4 TopCoder: lxmlでHTMLスクレーピング今回は BeautifulSoup じゃなくて lxml を使ってみました。ほら、やっぱり XPath とか便利じゃない！(って言ってることが前回とは大違い？) 注意していただきたいのは、Windows環境では、lxml は
ishideo 2008/06/12
lxml

python

scraping

google-calendar
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx