タグ

ブックマーク / www.codereading.com (1)

  • Python で HTML タグを取り除く方法

    Python を使って HTML 文書から HTML タグを取り除くには sgmllib モジュールを使います。 sgmllib は SGML 形式のテキストファイルを解析する SGMLParser クラスが定義されています。 SGML は HTML や XML のスーパーセットにあたるマークアップ言語なので ``SGMLParser`` は SGML の派生言語である HTML や XML 文書を解析できる のです。 sgmllib を用いるメリットは Python の標準モジュールであるということです。 独自の正規表現を用いて解析するよりも安心です。 安全性を確かめたければ PYTHONPATH にある sgmllib.py を読めば良いのです。 import sgmllib class Stripper(sgmllib.SGMLParser): def __init__(self):

  • 1