タグ

ブックマーク / nowsmart.s93.coreserver.jp (1)

  • UTF-JP

    UTF-JPの特徴 UTF-JPは、UTF-8と同様に、1バイト単位で可変長の多バイト文字を構成し、理論上、全てのUNICODE文字を表せますが、日語テキストを扱うのに特に優れています。 UTF-JP符号では、ASCII文字(0x00-0x7f)は、1バイト、日語のうち、JIS第一、第二水準の文字は、2バイト、その他のUNICODE文字は、3バイト以上で表されますので、UTF-8と比べて、日語を短い符号で表せます。 また、UTF-8同様、テキストを逆戻り可能であり、検索する際も、多バイト文字の途中でヒットすることを簡単に防ぐことが可能です。 日語の部分は、JIS符号と対応関係のある符号が割り当てられますので、UNICODEへは、変換テーブルを介する必要がありますが、日語以外の部分は、UNICODEへ直接対応付けることが出来ます。 UCS-2までは、最大3バイトで、UCS-

  • 1