タグ

utf-8に関するnoopableのブックマーク (2)

  • DOM拡張モジュールでHTMLをパースする【PHP】 - Programming Magic

    PHPHTMLをパースするには、PECL::Tidyを使う方法やDOM拡張モジュールを使う方法、「HTMLを整形式のXML文書に修正するPHPクラス : Under Construction, Baby」で配布されているようなライブラリなどを使う方法などがある。 この中でDOM拡張モジュールは、PHP5からPHPコアに含まれているため他の方法に比べて利用しやすい。 DOM拡張モジュールでHTMLをパースするにはDOMDocument->loadHTML()を使う。 HTMLを読み込むためのメソッドなので、閉じられていないタグがあっても読み込むことができる。 <?php $html = <<<EOD <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>誰でもわかるプ

    noopable
    noopable 2012/01/30
    数値文字参照関係でまとまってる。
  • UTF-8→SJIS/EUC-JPの重複文字をまとめてみた - hnwの日記

    文字エンコーディングの変換を行うと、異なる2文字が同じ文字に変換されることがあります。このような文字を重複文字と呼ぶことにします。UTF-8→Shift_JISおよびUTF-8→EUC-JPについて、重複文字を自分用の資料としてまとめてみました。 MacOSX上のPHP5.2.9での実験結果ですが、プログラミング言語や環境によらず気をつけるべき文字一覧ということになると思います。 色のついている部分が重複している部分です。「-」となっているのは変換できなかった文字です。また、ヘッダのカッコ数字ごとに文字エンコーディング変換に利用した関数が異なります。詳細は下記の通りです。 (1) mb_convert_encoding($char, "Shift_JIS", "UTF-8") (2) mb_convert_encoding($char, "SJIS-win", "UTF-8") (3) i

    UTF-8→SJIS/EUC-JPの重複文字をまとめてみた - hnwの日記
  • 1