タグ

*あとで読むとunicodeに関するzichaoのブックマーク (5)

  • HFS+のファイル名を比較する厳密な方法 - Note

    Macユーザーなら、HFS+の勝手なファイル名の「正規化」には悩まされてますよね! まず浅い理解として、HFS+はファイル名をNFDに正規化する。次に、HFS+は互換漢字を統合漢字にはぜず、それ以外をNFDに正規化する。まあそれで合ってるんですけれど、実際にはそんな簡単な話ではありません。 この記事では、カーネルが行なっているファイル名の変換の再現に挑戦します。 ソースコード こういうものは一次ソースを見るのが一番です。外から挙動を推測したって見落としは出ます。Darwinのカーネルはオープンソースになってますので以下で見ることができます。 ファイルアクセスは、Darwinカーネルの中のDarwinのカーネルであるXNUというモジュールが担当してます。 http://www.opensource.apple.com/source/xnu/ うろうろ まず、ファイルアクセスAPIからやって来

    HFS+のファイル名を比較する厳密な方法 - Note
  • 日本の文字とUnicode 第6回 | 大修館書店 WEB国語教室

    現代において、文字を書くということは、コンピュータやケータイのキーを打つことと、ほぼ同義になってきています。そして、現代のコンピュータにおいて文字を扱うためには、文字コード、それもUnicodeの助けを借りるしかなくなってきています。でも、Unicodeは日語に特化して作られたわけではないので、日の文字を扱おうとした場合、色々とヤヤコシイ点があったりします。それらのヤヤコシイ点を、できるだけ平易に説明するこのシリーズ、第4回・第5回に引き続き、第6回も、漢字とUnicodeの関係です。 まずは「晴」(U+6674)のIVSを見てみましょう。 何だか妙な感じですね。同じ「晴」が<U+6674 U+E0100>と<U+6674 U+E0103>に、同じ「晴」が<U+6674 U+E0101>と<U+6674 U+E0102>に、それぞれダブって収録されているように見えます。実際そうなのです

  • 絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット

    前回までを振り返る--Unicodeコンソーシアムの影響力 前回はどこまでお話ししましたっけ。世界中の文字の収録を目的とした文字コード規格、Unicodeは、米国のIT企業を中心に結成されたUnicodeコンソーシアムが制定するデファクト規格に過ぎないこと。しかし公的な国際機関が定めるデジュール規格ISO/IEC 10646と同期することで、WTO/TBT協定にもとづき世界中の国々に普及させられるメリットを得たこと。 また、Unicodeコンソーシアム自体はオープンな組織だけれど、意志決定を行うUTC(Unicode Technical Committee/Unicode技術委員会)で一票を投じる権利を持つのは一握りの団体に限られること。そしてUTCはISO/IEC 10646のアメリカ・ナショナルボディであるL2委員会と合同でしか開催されておらず、同時にL2委員会とUnicodeコンソー

    絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット
  • 安岡孝一の日記: YEN SIGN問題縁起

    tarosukeの日記にもコメントしたのだが、YEN SIGN問題の歴史的経緯は、あまり知られていないように思える。そもそも、情報処理学会コード標準化委員会が1965年1月28日に完成した文字コード案では、「¥」は0x24に収録する予定だった。ところが、1966年4月のISO/TC97/SC2 + CCITT/GM ALPパリ会議において、ISO 7ビットコード最終案の0x24は「$」に固定されてしまい、1967年12月22日にISO R 646として制定された。やむをえず日側は0x5Cに「¥」を移し、JIS C 6220として1969年6月1日に制定した。一方アメリカは、1970年10月のISO/TC97/SC2ロンドン会議において、ISO R 646の0x5Cを「\」にするよう要求してきたが、日はこれに反対、ISO 646の1973年7月1日改正においても、0x5Cを国内使用箇所と

  • 絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係

    絵文字の収録をめぐって、国際規格で大論争--「Google提案」を振り返る 皆さんこんにちは、面白くてタメになる(?)文字コード漫談の時間がやってまいりました。2月からとびとびで書いてきた絵文字の報告も、いよいよ今回が最終回。どうかよろしくお付き合いください。 さて、前回はどこまでお話ししたのでしたっけ。日絵文字をUnicodeに収録しようとするGoogleAppleによる提案(以下、主導者の名をとりGoogle提案と略)ですが、去年の12月にパブリックレビューが開始されると、Unicode-MLで時ならぬ非難の嵐が吹き荒れたこと。そこでの反発を一言で言い表すなら、日文化に強く依存する絵文字を単純に国際規格に収録しようとした点にあったこと。 なぜなら国際規格の審議は参加各国の総意で成り立っており、特定の国しか便利に使えない文字を収録することは、当然強い反対をうけるからです。さらに

    絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係
  • 1