コンテンツへスキップ 登録は無効化されました。
コンテンツへスキップ 登録は無効化されました。
結局、シンプルなHTMLParserを使って作ってみた。id:aodag先生に大変お世話になりました。とりあえづ、昨晩やったこと。HTMLParserで、やってみた。 標準のhandle_dataを変更して、scriptタグとstyleタグとコメントを無視するようにしたTagStripクラスを作る。 # condig:utf-8 from HTMLParser import HTMLParser class TagStrip(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.datum = [] self.instyle = False def handle_data(self, data): if data.strip() and not self.instyle: self.datum.append(data
--- 最新の更新 --- 現在多忙のため更新停止状態です。 なお、掲示板はときどきチェックしていますので書き込みはいつでも大歓迎です。 2007/9/9バナー利用規約一部変更 2006/8/26サイト全体の見直し、改装。 2006/4管理人順調に回復中。春から忙しくなるため、4月以降バナー作成は毎月5件までにします。
今までことごとく避けてきたBuetifulSoupだけど、なんか使いたくなったので使っている。やりたい事は、なんか適当なページの文字だけ抜き出す(タグを除去したい)RSSだけがソースならなんか凄い簡単にとれるんだけど、HTMLがソースだと<p>でくくってあったり<div>でくくってあったり色々すぎてめんどくさい。 こういうのって正規表現で抜き出した方が早いのか? from urllib import urlopen from BeautifulSoup import BeautifulSoup def getContent(url): soup = BeautifulSoup(urlopen(url).read()) return soup if __name__ == '__main__': cont = getContent('http://yahoo.co.jp') print ty
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く