タグ

unicodeに関するkosakiのブックマーク (11)

  • ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか?

    小形克宏 @ogwata 日の携帯絵文字を収録する国際会議に出席した話のつづき。この件は書こうか迷ったけど、書いておこう。ISO/IEC 10646(≒Unicode)で構造的に「ゴミ」文字が増えていく件。おかしな点があればぜひご指摘ください。 2010-04-25 23:46:39 小形克宏 @ogwata 一昨日のツィートで、WG 2会議は「対立を前提とした共同作業」だと書いた。自分が通したい主張を相手に呑ませるため、可能な限り妥協する。「ISO/IEC 10646のより良い改訂」という目的から、妥協は美徳とされる。互いに妥協しながら落し所を探る。これがWG 2会議の流儀だった。 2010-04-25 23:52:40

    ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか?
  • Twitterで使える日本人には無い発想で作られた顔文字、絵文字 - 涙目で仕事しないSE

  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
    kosaki
    kosaki 2010/01/29
    IVSって結構前から議論してなかった?
  • ンコ文字とは (ンコモジとは) [単語記事] - ニコニコ大百科

    ンコ文字単語 ンコモジ 6 0pt ほめる 掲示板へ 記事編集 概要数字関連項目外部リンク掲示板ンコ文字 (N'Ko) とは、西アフリカのマンデ語派に属する言語を表記するための音素文字。 概要 UnicodeのU+07C0-07FAの位置に収録されている。 1949年にギニアの作家ソロマナ・カンテが、母国語を表記するためのアフリカ独自の文字として考案した物である。名称の「N'Ko」はマンディンカ語で「私は言う」という意味があり、またンコ文字で表記された文章語の事でもある。ギニア、コートジボアール、マリ等の国においてマンディンカ語やバンバラ語等を表記するのに用いられるが、これらの言語はラテン文字やアラビア文字による表記も行われている。 母音文字と子音文字からなるアルファベットの文字体系であるが、アラビア文字のように右から左の方向へ続け書きで表記する。また区別記号を文字の上下に付加して外国語の

    ンコ文字とは (ンコモジとは) [単語記事] - ニコニコ大百科
    kosaki
    kosaki 2009/12/20
    ンコモジ
  • Web Encodings - WHATWG Wiki

    Goals Document existing practices by describing for each browser The list of supported encodings. The list of supported labels for those encodings. The matching algorithm for labels. Converge the various used algorithms by Defining a list of encodings everyone has to support. Browsers must not support more encodings than on that list. Defining a list of supported labels for those encodings. Browse

  • 『新常用漢字表(仮称)』の議論の正常化を要望したい

    絵文字の議論は、これでいいのだろうか。 Unicodeに携帯電話で用いられる絵文字が提案されてから、絵文字の議論が盛んだ。最近も、小形克宏氏のブログ「もじのなまえ」が、ISO/IEC 10646のAmendment 8の審議状況について報告している。いつもながら詳細な議論をしていて感心するのだが、疑問な点もいくつか見受けられる。 小形氏を含む何人かの人が共同で修正提案をしたN3711が審議されて、グリフの形やコードのマッピングに関する提案が受け入れられた経緯を説明している箇所があり、そこで「われわれは、なぜ勝ったのか」という問いかけをしている。審議をした結果、修正提案が受け入れられたことが「勝った」ことに、なぜなるのだろうか。もし「勝った」人がいるなら「負けた」人がいるはずなのだが、一体誰が負けたというのか。それが、不明なのだ。 この「勝った」という認識は、誰かからの攻撃に対抗して修正提案

  • UTF-JP

    UTF-JPの特徴 UTF-JPは、UTF-8と同様に、1バイト単位で可変長の多バイト文字を構成し、理論上、全てのUNICODE文字を表せますが、日語テキストを扱うのに特に優れています。 UTF-JP符号では、ASCII文字(0x00-0x7f)は、1バイト、日語のうち、JIS第一、第二水準の文字は、2バイト、その他のUNICODE文字は、3バイト以上で表されますので、UTF-8と比べて、日語を短い符号で表せます。 また、UTF-8同様、テキストを逆戻り可能であり、検索する際も、多バイト文字の途中でヒットすることを簡単に防ぐことが可能です。 日語の部分は、JIS符号と対応関係のある符号が割り当てられますので、UNICODEへは、変換テーブルを介する必要がありますが、日語以外の部分は、UNICODEへ直接対応付けることが出来ます。 UCS-2までは、最大3バイトで、UCS-

    kosaki
    kosaki 2009/11/07
    文字コードはこういうトンデモ提案が定期的に出てくるな
  • http://people.debian.org/~kubota/unicode-symbols.html

  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

  • yasuokaの日記: WAVE DASH問題縁起

    Encode - 規格のバグまでは直せませんにコメントしながら思ったのだが、JIS X 0208の1区33点「波ダッシュ」をUnicodeに変換する際、U+FF5EのFULLWIDTH TILDEに変換するのは明らかに間違いだ。この件に関して、私が知る限りのことを、ここに記しておこうと思う。 平成5年度のUCS調査研究委員会WG1において問題となったものの一つが、既存のJISの文字コードとISO/IEC 10646との対応をどうするかだった。JIS X 0208-1990の1区33点「波ダッシュ」に対しては、U+223C、U+223D、U+223E、U+223F、U+301Cが候補となったが、結局U+301Cと対応させることとなった。U+301Cの名前がWAVE DASHだったからである。ただし、ISO/IEC 10646-1:1993のU+301Cの例示字形は、JIS X 0208の「波

  • 革命の日々! それは典型的な波ダッシュ問題ではあるまいか

    ま、波打ってる線には違いないから文句をいわれる筋合いはありませんな。 wikipediaの波ダッシュの項を見ると規格で逆向きが正しいんだ~みたいな事が書いてあるので調べてみると Unicode 3.0(ごめん最新版は持ってないの)の例示字体は確かに逆。 でもJIS X 221:1995(UnicodeのISO規格がISO10646でJIS X 221はその翻訳)ではチルダと同じ向きになっている。 JIS X 221はこの件に限らずUnicode Specificatonと細かなところが色々違うので油断できない。 はっはっは(笑い事じゃないんだけど) で、話を戻すと、WindowsフォントはUnicode式に逆向き表示。 なぜ、この逆向きっぷりが普段だれにも気づかれないかというと、Windows APIを使う限りにおいて、なぜか JIS X 208 WAVE DASH ←→ Unicode

    kosaki
    kosaki 2006/05/11
    ひさびさにXML Guyっぽげな記事を書いた気がする
  • 1