タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

unicodeに関するganawareのブックマーク (5)

  • アジアのペンギン: MacOS X ファイル名と convmv

    こんにちは moriyama です。 convmv というファイル名文字コード変換ツールがあります。 この convmv は、Perl で記述されていて MacOS X の Decomposed UTF-8 (Modified NFD) を変換できるように、--nfc と --nfd オプションが指定できるようになっています。それぞれ、Perl の Unicode::Normalize モジュールの NFC および NFD の正規化処理を呼び出しています。 Unicode::Normalize モジュールは、Unicode 規格の正規化処理をそのまま実装したものですのですので、前回の記事 MacOS X とのファイル共有 で書いたように、U+2000~U+2FFF、U+F900~U+FAFF、U+2F800~U+2FAFF の扱いが MacOS X のファイル名と正規化の方法が異なり注意す

  • Text Encodings in VFS

    Q: Mac OS X 用にファイルシステム(VFS)プラグインを書いています。テキストコードを正しく処理するにはどうすればよいでしょうか? A: Mac OS X では、VFS API のファイル名は、定義上、正規分解による Unicode 文字で、UTF-8 を使ってエンコードされています。このことが、いくつかの興味深い問題を引き起こしています。 合成済み文字と分解された文字 この Q&A は、「合成済み Unicode 文字」および「分解された Unicode 文字」という用語を熟知していることを前提としています。これらの用語をよく知らない場合は、DTS Q&A 1235 Converting to Precomposed Unicode(合成済み Unicode への変換)に簡単な説明が掲載されています。 重要: この Q&A で使われている「分解された」および「合成済み

  • Qt 4.6: ISO 2022-JP (JIS) Text Codec

  • 円記号問題とウェブブラウザ - はてなるせだいあり

    起源 円記号問題の始まりは1960年代にまで遡ります。1967 年に文字コード最初の国際規格である ISO R 646 が制定されましたが、その規格では 0x5C をはじめとして一部の文字が置き換え可能になっていました。アメリカの制定した ASCII では 0x5C に対して REVERSE SOLIDUS を割り当てました。一方、日版である JIS X 0201 では YEN SIGN を割り当てました。 問題の拡大 7bit では扱いきれない文字を扱うため、世界で ISO 646 系のコードを拡張した文字コードが生まれました。日ではシフトJIS、日語 EUC、いわゆる JIS コードの三種類の文字コードが現れ、それぞれに多くの亜種が生まれました。では、それぞれの文字コードの 7bit 領域は ASCII と JIS X 0201 のどちらだったのでしょうか。 日語 EUC 日

    円記号問題とウェブブラウザ - はてなるせだいあり
  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
  • 1