タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

文字コードに関するk-utuのブックマーク (4)

  • UTF-8 - Wikipedia

    UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1–4バイトの可変長)の文字符号化形式および文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPlan

  • Unicode対応 JIS X 0208 文字コード表

    Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。 文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区~08区 JIS非漢字(各種記号、英数字、かな) 13区~13区 NEC特殊文字(機種依存) 16区~47区 JIS第1水準漢字 48区~84区 JIS第2水準漢字 文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字 文字コード表 区 点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

  • PHPにおけるUnicode文字列の正規化

    Unicodeでは、意味的に同じ文字を複数の方法で表現することができます。しかし、表現がバラバラなままだと、検索などで問題が発生することは容易に想像できます。そのため、表記を統一する仕組みとして「正規化」が用意されています。稿ではPEARのI18N_UnicodeNormalizerを用いて、PHPでUnicodeの正規化を行う方法を紹介します。 はじめに 与えられた文字列を含む文書を返す検索機能を実装しているところを想像してください。 検索語として「ページ」が与えられれば、「ページ」という文字列を含む文書を返します。これは特に難しいことではありません。 半角の「ページ」が与えられたらどうでしょう。「ページ」と「ページ」を区別する必要がないような、一般的な文書検索においては、「ページ」という文字列を含む文書を返すのが望ましいはずです(もちろん、この2つは常に同一視できるわけではあ

    PHPにおけるUnicode文字列の正規化
  • シフトJIS漢字コード

    シフト JIS 漢字コードは、 パソコン内部で使用されている文字コードで、 JIS 漢字コード (JIS X0208) を移動 (シフト) させたものです。 シフト JIS 漢字コードとは何か、 また、 JIS 漢字コード (JIS X0208) があるにもかかわらず、 パソコンの内部ではなぜ 「シフト JIS 漢字コード」 が使われているのか、 といったことについて考えてみます。 下図の大きい正方形は、第1バイトを縦軸に、第2バイトを横軸にとって、 それぞれ 256×256 =65,536 種類の文字を表わすことができる、文字コード表です。 JIS 漢字コードは、 このうち 第 1、 第 2 バイトとも 16 進数表記で 21~7E の範囲内の、 下図左上の小さい正方形の中に納められています (94×94 = 8,836 文字を表すことができます)。 シフト JIS 漢字コードは、これを

  • 1