タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

文字コードに関するtokuryooのブックマーク (3)

  • Javaにおける文字コードまわりの話(2) - あしのあしあと

    Javaにおける文字コードまわりの話 - あしのあしあと」は、もう少しブラッシュアップしたい。その前に、検証用のプログラムを少しだけ整理しておきたい。 ここでは、次のような用語を用いることにする。 文字と文字の識別子の集合を「文字集合」と呼び、文字の識別子を「コードポイント」と呼ぶ。 コードポイントからバイト列(バイト配列)へ変換する処理を「エンコード」と呼び、その逆を「デコード」と呼ぶ。 エンコード、デコードの方法を「エンコード方式」や「文字エンコーディング」と呼ぶ。 Javaでは、文字集合と文字エンコーディングを組み合わせた「エンコーディングセット」という概念が用いられる。「エンコーディングセット」って用語、正直、あまり使わない*1。。 http://java.sun.com/javase/ja/6/docs/ja/technotes/guides/intl/encoding.doc

    Javaにおける文字コードまわりの話(2) - あしのあしあと
  • UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity

    UnicodeとUTF-8の違いは? - Humanityはあんなに反響があるとは思わなかった。 ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。 と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。 調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。 参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact

    UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity
  • 文字コード・国際化 | Netsphere Laboratories

    文字コードに関して適当に考えるメモ。 文書 主要な文字コードとMIME名 シフトJIS / EUC-JPとUnicodeとの妥当な変換表 異なる文字コードのテキストを混在させるには ICU: International Components for Unicode ICUを使う ICUを使った文字コードの変換なども、こちら。 文字コードの変換 [C++] レガシーな文字コード (シフトJIS, EUC-JP) から Unicode への変換や、あるいはレガシーな文字コード同士の変換。 Unicode正規化 (icu::Normalizer2) [C++] Unicodeでの文字列照合・ソート [C++] Linux での描画 伝統的なXのテキスト描画 (Xft) Pango でテキスト描画 タイ語を表示する m17n library でテキスト描画 タイ語とクメール語を表示する 覚え書き

  • 1