結局、シンプルなHTMLParserを使って作ってみた。id:aodag先生に大変お世話になりました。とりあえづ、昨晩やったこと。HTMLParserで、やってみた。 標準のhandle_dataを変更して、scriptタグとstyleタグとコメントを無視するようにしたTagStripクラスを作る。 # condig:utf-8 from HTMLParser import HTMLParser class TagStrip(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.datum = [] self.instyle = False def handle_data(self, data): if data.strip() and not self.instyle: self.datum.append(data