[B! python][scrape] ishideoのブックマーク

ishideo id:ishideo

pythonとscrapeに関するishideoのブックマーク (12)

GitHub - dmitriiweb/extract-emails: Extract emails and links to linkedin accounts from URLs
ishideo 2021/01/09
extract

email

python

github

parser

scrape
リンク
業種別企業名辞書データを公開しました - Y's note
Web解析Hacks ―オンラインビジネスで最大の効果をあげるテクニック & ツール作者: Eric T. Peterson,株式会社デジタルフォレスト,木下哲也,有限会社福龍興業出版社/メーカー: オライリー・ジャパン発売日: 2006/11/08メディア: 単行本（ソフトカバー）購入: 3人クリック: 78回この商品を含むブログ (21件) を見る企業名辞書業種と企業名の辞書データが欲しかったんでYahoo!FinanceのデータをCrawlして作りました。帝国データバンクや四季報のデータが使えると良かったんですが、Crawlできそうに無かったので諦めました。残念ながら2600社ほどのデータしか集まっておらず、個人的にはもっといろんなデータが欲しいです。他に良い方法をご存知の方いらっしゃいましたらご連絡いただけると幸いです。 Yahoo!ファイナンス - 株価やニュース、企業情
ishideo 2013/02/12
python

scrape

urllib

urllib2
リンク
Loading...
ishideo 2011/12/15
python

xpath

pyquery

scrape

eventlet
リンク
PythonでWeb::Scraperっぽいモジュール書いた - ヤルキデナイズドだった
ので置いておく(scrapy.tar.gz)。こんな感じで使える： from scrapy import scraper, process twitter = scraper( process('.vcard > .fn', name='TEXT'), process('.entry-content', {'entries[]': 'TEXT'}), result=('name', 'entries') ) username = 'uasi' r = twitter.scrape(url='http://twitter.com/%s' % username) print "%s's tweets" % r['name'] print for entry in r['entries']: print entry.strip() scrapy/__init__.py # -*- coding:
ishideo 2011/06/06
python

lxml

Web-Scraper

scraper

scrape
リンク
Under Construnction
ishideo 2010/04/06
feedparser

rss

python

scrape

html

email

encoding

gmail
リンク
NAL研卒業研究ノート:: Rubyモジュール ExtractContent をPythonに移植してみた
ExtractContent は、HTMLから本文を抽出するRubyモジュールです。 RubyForge: ExtractContent: Project Info Webページの本文抽出 (nakatani @ cybozu labs) Perl用の同名モジュールもありますが、今回はRubyモジュールを基にしてPythonへ移植してみました。 # -*- coding:utf-8 -*- import re import unicodedata class ExtractContent(object): # convert character to entity references CHARREF = { "nbsp" :" ", "lt" :"<", "gt" :">", "amp" :"&", "laquo":u"\xc2\xab", "raquo":u"\xc2\xbb", }
ishideo 2010/02/11
python

ExtractContent

ruby

scraper

scrape

html
リンク
ElementTree Tidy HTML Tree Builder
July 6, 2003 | Fredrik Lundh The TidyHTMLTreeBuilder parser can read (almost) arbitrary HTML files, and turn them into well-formed element trees. This parser uses a library version of Dave Raggett’s HTML Tidy utility to fix any probl ems with the HTML before converting it to XHTML (the XML version of HTML). Note: If you don’t want to (or cannot) install binary Python extensions, you can use the Tid
ishideo 2008/08/18
TidyHTMLTreeBuilder

python

scrape

html

dom

tidy

ElementTree

ElementTidy
リンク
Wrestling HTML
September 8, 2004 Uche Ogbuji Lately I've seen HTML parsing probl ems everywhere. One project needed a web crawler with specialized features provided through Python code that processed arbitrary HTML. There have also been several threads on mailing lists I frequent (including XML-SIG) featuring discussions of mechanisms for dealing with broken HTML by converting it to decent XHTML. This article foc
ishideo 2008/08/18
python

BeautifulSoup

module

easy_install

scrape

html

dom

tidy

ElementTree

ElementTidy
リンク
断続的リーマンblog　[Python]Yahoo株価・投資信託価格取得スクリプト（マスターマネー取込用）
家計管理のためにマスターマネー（Master Money 5）を使っている。投資管理機能がついていて、株や投資信託などの金融資産の管理もできる。投資商品の銘柄ごとに相場価格データを入力すれば、資産の評価額の推移が見られるが、入力ファイルの成形を手動でやるのが面倒だったので、自動で相場価格ファイルを生成するPythonスクリプトを作った。ニーズが少なそうだけど一応公開（マスターマネーユーザかつPythonユーザって、いったいどれくらいいるんだろう…）。（ちなみにMicrosoft Money 2007には、株価や投資信託の価格をインターネットから取得して自動更新する機能がついている。）株価用：get_stock_price.py 投信用：get_toushin_price.py 引数に指定した銘柄コードについて、Yahoo!ファイナンスから直近30日の株価/投資信託基準価額を取り込み、タ
ishideo 2008/08/06
python

yahoo.co.jp

BeautifulSoup

scrape

parse
リンク
Beautiful Soup: We called him Tortoise because he taught us.
You didn't write that awful page. You're just trying to get some data out of it. Beautiful Soup is here to help. Since 2004, it's been saving programmers hours or days of work on quick-turnaround screen scraping projects. Beautiful Soup is a Python library designed for quick turnaround projects like screen-scraping. Three features make it powerful: Beautiful Soup provides a few simple methods and
ishideo 2007/01/24
python

BeautifulSoup

module

easy_install

scrape

html
リンク
Python で HTML ファイルから情報を取り出すには - 傀儡師の館.Python：楽天ブログ
2006.10.22 Python で HTML ファイルから情報を取り出すにはカテゴリ：Python 楽天ブログのアクセスログのページを ElementTree で処理しようと思ったのだが、 ExpatError: mismatched tag: line 244, column 2 のようなエラーが出て XML として解析することできない。ということで、あっさり別のやりかたを探すことにした。ちなみに Python の ElementTree は ruby の rexml より速いらしい。proto.xml の AbstractLightInfantry なユニットを調べる、というより ElementTree (Python) vs. REXML (Ruby)。REXML と ElementTree のパース時間。プリミティブにやるならば、標準ライブラリに含まれている SGMLPar
ishideo 2007/01/24
python

BeautifulSoup

module

easy_install

scrape

html

ElementTidy
リンク
sh1.2 pyblosxom : pythonでスクレイピング
HTML::Selector::XPath をリリース: blog.bulknews.net 川o・-・）＜2nd life - ruby のスクレイピングツールキット scrAPI を見て、pythonでもElementTreeを使ったらできるんじゃないかなと思ったけども、ちゃんとしたXMLじゃないとparse時にエラーになってしまう。じゃあ、ElementTreeに渡す前にHTMLをXHTMLに変換したらいいのかと思って標準ライブラリを探すも、どうやら標準でそういうことをするライブラリはないらしい。googleさんにお尋ねしてみた所下記のエントリを発見。 Python で HTML ファイルから情報を取り出すには - 傀儡師の館 - 楽天ブログ（Blog）まさに同じような悩みで色々探していらっしゃって、ここでBeautifulSoupを知りました。結構昔からあったモジュール
ishideo 2007/01/24
python

BeautifulSoup

module

easy_install

scrape

html
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx