[B! html][python] kozo-niのブックマーク

BlogSlime – Just another WordPress site

コンテンツへスキップ登録は無効化されました。

kozo-ni 2008/10/31

html
python

リンク

BeautifulSoup を諦め HTMLParser使ってみた。 - When it’s ready.

結局、シンプルなHTMLParserを使って作ってみた。id:aodag先生に大変お世話になりました。とりあえづ、昨晩やったこと。HTMLParserで、やってみた。標準のhandle_dataを変更して、scriptタグとstyleタグとコメントを無視するようにしたTagStripクラスを作る。 # condig:utf-8 from HTMLParser import HTMLParser class TagStrip(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.datum = [] self.instyle = False def handle_data(self, data): if data.strip() and not self.instyle: self.datum.append(data

kozo-ni 2008/10/27

python
html

リンク

2006-06-14

kozo-ni 2008/10/27

リンク

BeautifulSoupデビュー - When it’s ready.

今までことごとく避けてきたBuetifulSoupだけど、なんか使いたくなったので使っている。やりたい事は、なんか適当なページの文字だけ抜き出す（タグを除去したい）RSSだけがソースならなんか凄い簡単にとれるんだけど、HTMLがソースだと＜ｐ＞でくくってあったり＜ｄｉｖ＞でくくってあったり色々すぎてめんどくさい。こういうのって正規表現で抜き出した方が早いのか？ from urllib import urlopen from BeautifulSoup import BeautifulSoup def getContent(url): soup = BeautifulSoup(urlopen(url).read()) return soup if __name__ == '__main__': cont = getContent('http://yahoo.co.jp') print ty

kozo-ni 2008/10/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

htmlとpythonに関するkozo-niのブックマーク (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス