コンテンツへスキップ 登録は無効化されました。
コンテンツへスキップ 登録は無効化されました。
結局、シンプルなHTMLParserを使って作ってみた。id:aodag先生に大変お世話になりました。とりあえづ、昨晩やったこと。HTMLParserで、やってみた。 標準のhandle_dataを変更して、scriptタグとstyleタグとコメントを無視するようにしたTagStripクラスを作る。 # condig:utf-8 from HTMLParser import HTMLParser class TagStrip(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.datum = [] self.instyle = False def handle_data(self, data): if data.strip() and not self.instyle: self.datum.append(data
今までことごとく避けてきたBuetifulSoupだけど、なんか使いたくなったので使っている。やりたい事は、なんか適当なページの文字だけ抜き出す(タグを除去したい)RSSだけがソースならなんか凄い簡単にとれるんだけど、HTMLがソースだと<p>でくくってあったり<div>でくくってあったり色々すぎてめんどくさい。 こういうのって正規表現で抜き出した方が早いのか? from urllib import urlopen from BeautifulSoup import BeautifulSoup def getContent(url): soup = BeautifulSoup(urlopen(url).read()) return soup if __name__ == '__main__': cont = getContent('http://yahoo.co.jp') print ty
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く