タグ

unicodeに関するbellbindのブックマーク (5)

  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
    bellbind
    bellbind 2010/01/29
    Unicode2文字で漢字1つということでしょう。グリフとしてサンスクリット系の合字や濁点のような仕組みかな。
  • MonaTweeta II

    MonaTweeta II Preliminary result of a little competition between me and Ralph Hauwert (who had the initial idea) with the goal to write an image encoder/decoder that allows to send an image in a tweet. The image on the left is what I currently manage to send in 140 characters via twitter. This is the tweet for the image: 圑嘌婂搒孵怤實恄幖戰怴搝愩娻屗奊唀唭嚟帧啜徠山峔巰喜圂嗊埯廇嗕患嚵幇墥彫壛嶂壋悟声喿墰廚埽崙嫖嘵奰恛嬂啷婕媸姴嚥娐嗪嫤圣峈嬻尤囮愰啴屽嶍屽嶰寂喿嶐唥帑尸庠

    MonaTweeta II
  • 講習会「文字集合と文字エンコーディング」について - はてなるせだいあり

    なかなか豪快な記事(講習会「文字集合と文字エンコーディング」を開催しました — ディノオープンラボラトリ)を見つけたので、ツッコミを書いてみることにしました。ツッコミどころはかなり多いんですが、まぁ世の中の文字コードがらみの記事なんて大半がこんなものです。 「文字コード」という語は「正しい」か スライドの5ページ目は、「文字コード」という言い方は間違いという趣旨に見えますが、そうでもありません。 というのも、文字コードの世界は難しい世界です。複数のレイヤー、複数の国、複数のベンダーにまたがっているものが簡単になるはずがありません。しかし必須要素であるために、十分な知識を持たないまま、または必要性に駆られて十分な知見が集まる前に実装を行ってしまうこともしばしばあります。このことがさらに「歴史的経緯」としてさらに文字コードを難しくしています。例えばHTTPのcharsetパラメータは、char

    講習会「文字集合と文字エンコーディング」について - はてなるせだいあり
    bellbind
    bellbind 2009/05/09
    UCSのスキーム上に文字を定義したものだし、UCS-2をエンコードといっていいのかな。//いいたいことはわかりました。頭に一言嫌味を入れるのがいやらしい感じがします(こんな感じに)
  • Unicode Character Classes in ECMAScript Regular Expressions - Updated June 04, 2023

    005D The interpretation of ECMAScript regular expression character classes is according to code units, not characters. Despite the fact that "[𝌆-𝍖]" contains 5 characters, since "[𝌆-𝍖]".length === 7, the meaning when used as a character class is surprising. "[𝌆-𝍖]" is equivalent to [\uD834\uDF06-\uD834\uDF56] and means "match either D834, or something in DF06‒D834, or DF56," just as if we ha

    bellbind
    bellbind 2009/04/28
    JSの正規表現はUTF16ベース。BMP外の場合、サロゲートペアコードを直書きする必要がでる。著者は、Unicodeベースでの範囲正規表現を作るライフラリcset_source.jsを作った
  • Unicode Snowman for You

    bellbind
    bellbind 2008/10/08
    ☃ ☃ ☃ ☃ ☃ (U+2603)
  • 1