[B! 文字コード] k-utuのブックマーク

UTF-8 - Wikipedia

UTF-8（ユーティーエフはち、ユーティーエフエイト）はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位（1–4バイトの可変長）の文字符号化形式および文字符号化スキーム。正式名称は、ISO/IEC 10646では “UCS Transf ormation Format 8”、Unicodeでは “Unicode Transf ormation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。当初は、ベル研究所においてPlan

k-utu 2009/02/01

文字コード

リンク

Unicode対応 JIS X 0208 文字コード表

Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区～08区　JIS非漢字（各種記号、英数字、かな） 13区～13区　NEC特殊文字（機種依存） 16区～47区　JIS第1水準漢字 48区～84区　JIS第2水準漢字文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字文字コード表区点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

k-utu 2009/02/01

文字コード

リンク

PHPにおけるUnicode文字列の正規化

Unicodeでは、意味的に同じ文字を複数の方法で表現することができます。しかし、表現がバラバラなままだと、検索などで問題が発生することは容易に想像できます。そのため、表記を統一する仕組みとして「正規化」が用意されています。本稿ではPEARのI18N_UnicodeNormalizerを用いて、PHPでUnicodeの正規化を行う方法を紹介します。はじめに与えられた文字列を含む文書を返す検索機能を実装しているところを想像してください。検索語として「ページ」が与えられれば、「ページ」という文字列を含む文書を返します。これは特に難しいことではありません。半角の「ﾍﾟｰｼﾞ」が与えられたらどうでしょう。「ページ」と「ﾍﾟｰｼﾞ」を区別する必要がないような、一般的な文書検索においては、「ページ」という文字列を含む文書を返すのが望ましいはずです（もちろん、この2つは常に同一視できるわけではあ

k-utu 2008/10/22

リンク

シフトJIS漢字コード

シフト JIS 漢字コードは、パソコン内部で使用されている文字コードで、 JIS 漢字コード（JIS X0208）を移動（シフト）させたものです。シフト JIS 漢字コードとは何か、また、 JIS 漢字コード（JIS X0208）があるにもかかわらず、パソコンの内部ではなぜ「シフト JIS 漢字コード」が使われているのか、といったことについて考えてみます。下図の大きい正方形は、第１バイトを縦軸に、第２バイトを横軸にとって、それぞれ 256×256 ＝65,536 種類の文字を表わすことができる、文字コード表です。 JIS 漢字コードは、このうち第 1、第 2 バイトとも 16 進数表記で 21～7E の範囲内の、下図左上の小さい正方形の中に納められています（94×94 ＝ 8,836 文字を表すことができます）。シフト JIS 漢字コードは、これを

k-utu 2008/09/08

文字コード

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

文字コードに関するk-utuのブックマーク (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス