タグ

UCS-2とUnicodeに関するTsuSUZUKIのブックマーク (4)

  • 第3回 戸籍統一文字

    1994年12月の戸籍法改正により、コンピュータで戸籍を扱えるようになった。それまで各市区町村は、紙の形でしか戸籍を扱えなかったが、この法改正によって戸籍電算化への道が開かれたのである。 しかし戸籍電算化は各市区町村でバラバラに実施されたため、それぞれのシステムごとに異なる文字コードが使われる結果となった。これに対して法務省は、2004年4月に戸籍統一文字を通達した。戸籍データ交換の際には、この戸籍統一文字を用いることで、システムごとに異なる文字コードを使っていても、文字化けなくデータ交換が行える環境を整備したのである。 現在、戸籍統一文字は漢字5万5271字、非漢字773字、合わせて56044字が収録されている。各文字には10進6桁のコードが割り振られているが、一の位は常に0であり、漢字は000010~552710に、非漢字は900010~907730に収録されている。 戸籍統一文字の漢

    第3回 戸籍統一文字
    TsuSUZUKI
    TsuSUZUKI 2014/07/02
    " 籍統一文字215060と543430はどう見てもどちらも「黒」""『大漢和辞典』において火部と黑部にダブって掲載されており""「麦」" "夂部と麥部に、065250と540040" "「昼」は尸部と日部" "087550と156080に"
  • 第1回 漢字コードの基礎、JISコード

    官庁や自治体における、いわゆる行政情報システムでは、一風変わった漢字コードが用いられている。人名や地名に必要な漢字を、それぞれの省庁が思い思いの形で、情報システムに搭載してきたためだ。特集では、これら行政情報処理用漢字コードのうち、現在かなり大きなシェアを持つ3つの漢字コードの現状をお伝えしようと思う。 その3つとは、総務省系の「住民基台帳ネットワーク統一文字」、法務省系の「戸籍統一文字」および「入国管理局正字」だ。さらに、これら3つの漢字コードを一体に統合すべく構築されつつある、経済産業省系の「文字情報基盤(IPAmj)」を最終回で扱う。 ただ、これら4つの漢字コードを理解するためには、JISで制定された漢字コードの理解が不可欠なことから、第1回の今回は、「JIS X 0213」と「JIS X 0212」について、行政情報処理の視点、特に異体字処理の視点から述べることにする。 マイナ

    第1回 漢字コードの基礎、JISコード
    TsuSUZUKI
    TsuSUZUKI 2014/07/01
    "<U+6FF9 U+E0101><U+6FF9 U+E0102>で「さんずいに墨」" "<U+6FF9 U+E0100><U+6FF9 U+E0103>で「さんずいに墨」" "U+FA5B「者」に対しては、<U+8005 U+E0101>と<U+8005 U+E0103>が提案されている"
  • 文字コードの発展経緯から役割と仕組みを学ぶ

    コンピュータを使っていると,画面上でさまざまな文字を目にすると思うが,これはすべて文字コードという考え方に基づいて表示している。ただ,コンピュータの内部と通信用で違う種類の文字コードを使い分けるケースも多く,なにかと複雑。これが原因で文字化けもしょっちゅう起こる。そこで,文字コードの世界を探ってみることにしよう。なお,この記事は日経NETWORK 2002年2月号に掲載したものです。それ以降の情報が盛り込まれていませんので,現在とは異なる場合があります。文字コード規格の基礎を手早く理解したい場合などにお役立てください。 インターネット上でやりとりされるデータは,すべて0か1のビットの列で表す。画像だろうと音楽だろうと,ビット列であることに変わりはない。文字だって同じである。 このため,ある文字をどのようなビット列に置き換えるのかということを,あらかじめ決めておく必要がある(図1)。具体的に

    文字コードの発展経緯から役割と仕組みを学ぶ
  • 図4●新しい常用漢字表と文字コードの関係新しい常用漢字表は、シフトJISに収まらないだけでなく、UCS-2にも収まらない。口へんに七の「しかる」は、UCS-2に収まらない4バイト文字である。

    日経クロステック登録会員になると… ・新着が分かるメールマガジンが届く ・キーワード登録、連載フォローが便利 さらに、有料会員に申し込むとすべての記事が読み放題に! 【キャンペーン実施中】年額プランもお得 >>詳しくは

    図4●新しい常用漢字表と文字コードの関係新しい常用漢字表は、シフトJISに収まらないだけでなく、UCS-2にも収まらない。口へんに七の「しかる」は、UCS-2に収まらない4バイト文字である。
  • 1