タグ

文字コードに関するhiyoudのブックマーク (5)

  • UCS-2とUTF-8

    最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき,文字コードの方式が2種類,あるいはそれ以上あることに気が付かれるかもしれません。例えば,一つはUnicodeとあるのに対し,もう一つはUnicode (UTF-8)と表記されているかもしれません。この2つは,また,その違いは何でしょうか(前者はUTF-16の一形態なのですが…)。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット,ISO-10846-1は,16ビット(16桁の二進数)でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets,「2つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット(8桁の二進数)のことです。 ユニコードの特定の文字は,例

  • [ThinkIT] 第2回:Microsoft SQL Server 2005で必要な対処(前編) (1/3)

    SQL Serverは早くからUnicodeに対応してきたデータベースの1つであり、SQL Server 2000ではUnicode 2.0に対応しているのでサロゲートペアを格納することができる。ただし前回も紹介したように「格納できる」のと「正しく扱える」のとでは意味合いが異なる。正しく扱えるのはUnicode 3.2をサポートしたSQL Server 2005からで、もちろんJIS X 0213:2004にも対応できる。 ところが対応できるというだけで、何もしなくて良いというのではない。これから何をしなければならないかを明らかにしていこう。 以前からSQL Serverを使ってきた方ならば承知していると思うが、SQL Serverには文字列を格納するためのデータ型が大きく2種類用意されている。1つはchar/varchar/textなど、先頭に「n」が付かないデータ型。もう1つはncha

  • サロゲートペア入門:CodeZine

    はじめに Windows VistaのJIS2004対応により、WindowsのUnicode環境で使用できる日語漢字の数が増えました。従来、12238字(Windows XP)だったのが13145字(Windows Vista)になり、907字追加されることになりました。これによって、JIS第3水準、JIS第4水準の漢字がすべてサポートされることになったのです(Windows XPまでは一部サポート)。 またWindows XPでも、パッチさえ当てれば、Windows Vistaと同じように追加907字を加えた13145字の漢字が使用できるようになりました。 ところが、この追加された907字の中には「サロゲートペア」という特殊な文字が304字あり、これらは今までのUnicodeの文字とは扱いが少し違います。この点について解説していきたいと思います。 対象読者 Unicode

  • 文字コードについて

    文字コード、標準化について 文字コードについての実用的な説明です。 文字コード表 JIS X 0201、JIS X 0208、JIS X 0213のJIS、EUC-JP、Shift_JIS、Unicodeの文字コード表と、JIS X 0221のUnicodeの文字コード表です。 JIS X 0211 の制御コード表(JIS制御コード) JIS X 0201 の文字コード表(JISローマ字:ASCII、JISカナ) JIS X 0201 の文字コード一覧(Unicode対応) JIS X 0208 の文字コード表(JIS漢字:第1・第2水準) JIS X 0208 の文字コード一覧(Unicode対応) JIS X 0213 の文字コード表(JIS漢字:第1・第2・第3・第4水準) [UTF-8テキスト版] Unicode、常用漢字、人名漢字対応 JIS X 0213 の文字コード一覧 [U

  • Hey! Java Programming! //Japanese//

    このページでは日語の漢字コードについてのものです。Java では UNICODE が使用されていますが、ここでは Shift-JIS・JIS・EUC 焦点を当て、それぞれの特徴と変換方法などを解説しようと思います。 日語の種類 元々コンピュータというのは英語を使用する欧米用に設計されたものです。もちろん初期のコンピュータでは日語なんて扱うことができませんでした。欧米で使用される言葉は英語でもフランス語でも少ない文字 (アルファベットなど) を組み合わせて単語を構成します。したがってコンピュータ用に設計された文字規格も、とても少ない種類しか扱うことができません。 日語や中国語のような表意文字はとてもたくさんの種類があります。高々 1バイト (0~255) までではすべての漢字を表すことができません。日語や中国語のような表意文字を使う言語圏では、一つの文字を表すのに 2バイト使用しま

  • 1