タグ

ブックマーク / qiita.com/sounisi5011 (1)

  • 文字エンコーディングを変換するとき、対応していない文字を数値実体参照に変換する - Qiita

    参考: 神名地名難読漢字・ユニコード対照表 この投稿では、この処理を実現する方法について紹介します。 前提知識:対応していない文字とは? 世界には様々な文字が存在し、それをコンピュータで扱う場合は対応する数値に変換する必要があります。 この、数値に変換するときのルールがいわゆる文字コードで、この投稿でいうところの「文字エンコーディング」です。 このルールには様々な方式があります。例えばUTF-8やShift_JIS、EUC-JP、JIS(ISO-2022-JP)など。 これ以外にも、Big5、GBK、US-ASCIIなど、様々です。 このルールは、Unicode(後述)が登場するまでは国ごとにバラバラで、自国の文字を表示するために新しいルールを作ったり、既存のルールを拡張したりしていました。 そしてこのルールを作る時、データ量を減らすため、また文字の処理を容易にするために対応する文字の数を

    文字エンコーディングを変換するとき、対応していない文字を数値実体参照に変換する - Qiita
  • 1