タグ

ブックマーク / www.nslabs.jp (1)

  • htmlsplit / htmlrepair | Netsphere Laboratories

    処理命令 (PI) HTMLテキストの文字コードがUTF-8のときに、次のように明示的に指定すると、属性値でのコードポイント0x100以上の文字参照を取り込むようになる。UTF-8でないときは、実体参照(&lt;など)および0xff以下の文字参照のみを取り込む。 require "htmlsplit" require "htmlsplit" scanner = HTMLSplit.new("<foo bar='&#x3220;'>", "UTF8") scanner.document.each {|tag| puts tag} 実行結果は次のとおり。 <foo bar="㈠"> 制限について htmlsplitは、簡便なHTMLスキャナなので、動作に一部制限がある。 地の文(要素の内容)の実体参照・文字参照は取り込まない。&lt;や&#41;はそのまま残る。 XML形式の空要素タグの書き方

    phare
    phare 2007/03/01
    つかわせてもらいます
  • 1