タグ

Unicodeに関するtegetegetegeのブックマーク (9)

  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

    tegetegetege
    tegetegetege 2011/10/19
    Unicode正規化とは
  • Google Sites: Sign-in

    tegetegetege
    tegetegetege 2011/10/19
    文字コードとは?というところから、CJK統合漢字、CJK互換漢字、結合文字、「合成済みの文字」と「合成によって表現される文字」の正規化、異体字セレクタなど発展的な話題まで分かりやすく説明してある
  • Unicode正規化 – ものかの

    コンテンツへスキップ 以前書いたものです。旧サイトへのリンクを貼っておきます。 Unicode正規化 その1 Unicode正規化 その2 Unicode正規化 その3 Unicode正規化 その4 Unicode正規化 その5

    Unicode正規化 – ものかの
    tegetegetege
    tegetegetege 2011/10/18
    Unicode正規化。濁音や半濁音がなぜバラバラになってしまうのか。
  • UniView

    How to Convert Text to Unicode Code Points How to Convert Text to Unicode Code Points The process for working with character encodings in Python, or converting text to Unicode code points at any point in time, can be incredibly confusing, complex, and convoluted – especially if you aren’t particularly familiar with the Unicode language to begin with. Thankfully though, there are a lot of tools (an

  • Character encodings: Essential concepts

    This article introduces a number of basic concepts needed to understand other articles that deal with characters and character encodings. Unicode Unicode is a universal character set, ie. a standard that defines, in one place, all the characters needed for writing the majority of living languages in use on computers. It aims to be, and to a large extent already is, a superset of all other characte

  • Unicode のアラビア文字の入力について - 取引費用ゼロの歴史 〜 アーカイヴズと歴史研究のトリセツ

    あまり明確に書いてあるところがないので、アラビア文字の入力について、混乱しそうな点について書いておきます。特にウルドゥー語やペルシャ語などの入力に関係します。 結論を先に書くと、新規にアラビア文字でテキストを入力するには、Unicode では 0600-06FF 番の文字を使います。Presentation Forms A & B として定義されている、FB50-FDFF と FE70-FEFF は、後方互換性確保のためのもので、新規作成のための使用は非推奨です。 Unicode では、0600-06FF 番のコードポイントにアラビア文字が割り当てられていますが、その他にも 0750-077F (Arabic Supplement) FB50-FDFF (Arabic Presentation Forms-A) FE70-FEFF (Arabic Presentation Forms-B)

    Unicode のアラビア文字の入力について - 取引費用ゼロの歴史 〜 アーカイヴズと歴史研究のトリセツ
  • The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)

    I’m Joel Spolsky, a software developer in New York City. More about me. Read the archives in dead-tree format! Many of these articles have been collected into four books, available at your favorite bookstore. It’s an excellent way to read the site in the bath, or throw it at your boss. Ready to level up? Stack Overflow Jobs is the job site that puts the needs of developers first. Whether you want

    The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
    tegetegetege
    tegetegetege 2010/03/23
    Joel on Softwareの文字コードに関する記事
  • Unicode と UTF

    Unicode ってなに? 「よーするに Unicode ってなんなのさ!」ということでいろいろ調べてみたものをまとめてみました。で、頑張って調べてはみたのですが調べれば調べるほどイモヅル式に新しい情報が出てきてまとめきりませんでした。なので少々不完全です。いちおう「Unicode ってどんなものなのかな~」ってことが分かってもらえればと思います。 このコーナーでは、「45」のように二桁で区切られた文字を16進で表された1バイトの表現として扱います。このコーナーではこのような表現もビット列と呼ぶことにします。例えば「F0」という16進のバイト表現があれば「11110000」のようなビット列を思い浮かべてください。 コンピュータと文字 コンピュータが扱えるデータはそもそも「0」と「1」の2進数です。2進数は頑張れば10進数とか16進数とかになるので数値は使えます。ですが来、文字は扱え

    tegetegetege
    tegetegetege 2008/02/13
    平易で分かりやすい
  • Unicode対応 JIS X 0208 文字コード表

    Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。 文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区~08区 JIS非漢字(各種記号、英数字、かな) 13区~13区 NEC特殊文字(機種依存) 16区~47区 JIS第1水準漢字 48区~84区 JIS第2水準漢字 文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字 文字コード表 区 点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

    tegetegetege
    tegetegetege 2008/02/12
    Unicode対応のJIS第一水準漢字の文字コード表
  • 1