タグ

Pythonとhtml5に関するnektixeのブックマーク (1)

  • html5libで特定のHTML要素・属性を除去する - スコトプリゴニエフスク通信

    出力値をHTMLエスケープする ただし、aタグの使用は許可する aタグであっても、href属性以外の属性は除去する href属性であってもhttp, https以外のプロトコルは除去するという処理を行う必要があり自前でコードを書いてみたのだが、予想通り大変だった。有効なテストケースが思い浮かばないので不安一杯。やはり定評のあるライブラリを使った方がいいだろうか。BeautifulSoupでもlxmlでも上記の要件を満たす処理は書けるが、この場合、html5libのHTMLSanitilizerを使うとよさげ。 html5lib http://code.google.com/p/html5lib/HTML5をうたっているが、ブログ記事に一部のタグ/CSSを許可するといった用途ならば、特にHTML5ということを気にせずに使えると思う。基的な使い方はドキュメントにある通り。非常に洗練されたAP

  • 1