Web解析Hacks ―オンラインビジネスで最大の効果をあげるテクニック & ツール 作者: Eric T. Peterson,株式会社デジタルフォレスト,木下哲也,有限会社福龍興業出版社/メーカー: オライリー・ジャパン発売日: 2006/11/08メディア: 単行本(ソフトカバー)購入: 3人 クリック: 78回この商品を含むブログ (21件) を見る 企業名辞書 業種と企業名の辞書データが欲しかったんでYahoo!FinanceのデータをCrawlして作りました。帝国データバンクや四季報のデータが使えると良かったんですが、Crawlできそうに無かったので諦めました。残念ながら2600社ほどのデータしか集まっておらず、個人的にはもっといろんなデータが欲しいです。他に良い方法をご存知の方いらっしゃいましたらご連絡いただけると幸いです。 Yahoo!ファイナンス - 株価やニュース、企業情
ので置いておく(scrapy.tar.gz)。こんな感じで使える: from scrapy import scraper, process twitter = scraper( process('.vcard > .fn', name='TEXT'), process('.entry-content', {'entries[]': 'TEXT'}), result=('name', 'entries') ) username = 'uasi' r = twitter.scrape(url='http://twitter.com/%s' % username) print "%s's tweets" % r['name'] print for entry in r['entries']: print entry.strip() scrapy/__init__.py # -*- coding:
ExtractContent は、HTMLから本文を抽出するRubyモジュールです。 RubyForge: ExtractContent: Project Info Webページの本文抽出 (nakatani @ cybozu labs) Perl用の同名モジュールもありますが、今回はRubyモジュールを基にしてPythonへ移植してみました。 # -*- coding:utf-8 -*- import re import unicodedata class ExtractContent(object): # convert character to entity references CHARREF = { "nbsp" :" ", "lt" :"<", "gt" :">", "amp" :"&", "laquo":u"\xc2\xab", "raquo":u"\xc2\xbb", }
July 6, 2003 | Fredrik Lundh The TidyHTMLTreeBuilder parser can read (almost) arbitrary HTML files, and turn them into well-formed element trees. This parser uses a library version of Dave Raggett’s HTML Tidy utility to fix any problems with the HTML before converting it to XHTML (the XML version of HTML). Note: If you don’t want to (or cannot) install binary Python extensions, you can use the Tid
September 8, 2004 Uche Ogbuji Lately I've seen HTML parsing problems everywhere. One project needed a web crawler with specialized features provided through Python code that processed arbitrary HTML. There have also been several threads on mailing lists I frequent (including XML-SIG) featuring discussions of mechanisms for dealing with broken HTML by converting it to decent XHTML. This article foc
家計管理のためにマスターマネー(Master Money 5)を使っている。投資管理機能がついていて、株や投資信託などの金融資産の管理もできる。 投資商品の銘柄ごとに相場価格データを入力すれば、資産の評価額の推移が見られるが、入力ファイルの成形を手動でやるのが面倒だったので、自動で相場価格ファイルを生成するPythonスクリプトを作った。ニーズが少なそうだけど一応公開(マスターマネーユーザかつPythonユーザって、いったいどれくらいいるんだろう…)。(ちなみにMicrosoft Money 2007には、株価や投資信託の価格をインターネットから取得して自動更新する機能がついている。) 株価用:get_stock_price.py 投信用:get_toushin_price.py 引数に指定した銘柄コードについて、Yahoo!ファイナンスから直近30日の株価/投資信託基準価額を取り込み、タ
You didn't write that awful page. You're just trying to get some data out of it. Beautiful Soup is here to help. Since 2004, it's been saving programmers hours or days of work on quick-turnaround screen scraping projects. Beautiful Soup is a Python library designed for quick turnaround projects like screen-scraping. Three features make it powerful: Beautiful Soup provides a few simple methods and
2006.10.22 Python で HTML ファイルから情報を取り出すには カテゴリ:Python 楽天ブログのアクセスログのページを ElementTree で処理しようと思ったのだが、 ExpatError: mismatched tag: line 244, column 2 のようなエラーが出て XML として解析することできない。ということで、あっさり別のやりかたを探すことにした。ちなみに Python の ElementTree は ruby の rexml より速いらしい。proto.xml の AbstractLightInfantry なユニットを調べる、というより ElementTree (Python) vs. REXML (Ruby)。REXML と ElementTree のパース時間。 プリミティブにやるならば、標準ライブラリに含まれている SGMLPar
HTML::Selector::XPath をリリース: blog.bulknews.net 川o・-・)<2nd life - ruby のスクレイピングツールキット scrAPI を見て、pythonでもElementTreeを使ったらできるんじゃないかなと思ったけども、 ちゃんとしたXMLじゃないとparse時にエラーになってしまう。じゃあ、ElementTreeに 渡す前にHTMLをXHTMLに変換したらいいのかと思って標準ライブラリを探すも、どうや ら標準でそういうことをするライブラリはないらしい。googleさんにお尋ねしてみた所 下記のエントリを発見。 Python で HTML ファイルから情報を取り出すには - 傀儡師の館 - 楽天ブログ(Blog) まさに同じような悩みで色々探していらっしゃって、ここでBeautifulSoupを知りまし た。結構昔からあったモジュール
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く