タグ

Unicodeに関するeagletmtのブックマーク (14)

  • Unicode 16.0 Character Code Charts

    European Scripts Armenian Armenian Ligatures Carian Caucasian Albanian Cypriot Syllabary Cypro-Minoan Cyrillic Cyrillic Supplement Cyrillic Extended-A Cyrillic Extended-B Cyrillic Extended-C Cyrillic Extended-D Elbasan Georgian Georgian Extended Georgian Supplement Glagolitic Glagolitic Supplement Gothic Greek Greek Extended Ancient Greek Numbers Latin Basic Latin (ASCII) Latin-1 Supplement Latin

  • PHP6開発 UTF-16化を断念、5.3へロールバック | エンタープライズ | マイコミジャーナル

    PHP: Hypertext Preprocessor PHPの次期メジャーバージョンはPHP6になるとみられてきたが、問題を打破するために開発ブランチを5.3ベースへ巻き戻すという対処が実施された。Rasmus Lerdorf氏がphp.internals: PHP 6においてPHP6 Unicodeの実装が失敗したことを伝えている。PHP6ではエンジン内部の処理がUTF-16に統一される計画になっていたものの、関係者からはこの方針は間違っているのではないかという指摘もあった。今回実装が行き詰まったことで、PHPはUnicodeに対して新しいアプローチをとることになる。 このあたりの事情がFuture of PHP 6 - Johannes Schluterにまとまっている。紹介されている内容をまとめると次のとおり。 これまでの取り組み PHP6で取り組む基的な内容として、PHPエンジ

    eagletmt
    eagletmt 2010/03/18
    PHP も CSI 方式を…!
  • https://www.hi-matic.org/diary/index.cgi?20100203

  • 新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)

    普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。     (日経コンピュータ) 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。 新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ

    新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)
  • 「叱・填・剥・頬」は新常用漢字表で許容されているのか? | yasuokaの日記 | スラド

    『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』(日経コンピュータ, No.745 (2009年12月9日), pp.89-93)に関して、小形克弘さんからコメントがあった。「改定常用漢字表」に関する試案のPDFで28ページ目、以下の「付」に関する話題だ。 付 情報機器に搭載されている印刷文字字体の関係で、表の掲出字体と異なる字体(掲出字体の「頰・賭・剝」に対する「頬・賭・剥」など)しか用いることができない場合については,当該の字体の使用を妨げるものではない。(※「賭」はそれぞれ「貝へんに者」と「貝へんに者」) 私(安岡孝一)個人の意見を言わせてもらえば、「…しか用いることができない場合については」という条件は、正直かなり厳しい。この条件にしたがえば、「𠮟・塡・剝・頰」が使える場合は「𠮟・塡・剝・頰」の方を使え、ということになる。たとえばWindows 200

  • 絵文字原稿の第5回が公開中 - もじのなまえ

    今朝から公開されています。 絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日マンガの親密な関係 夕方5時の時点でソーシャル・ブックマークが93ですか。このお盆休みで、世の中はエントロピーを下げる一方であることを考えれば、まあ健闘している方ではないでしょうか。しかし当にみんなに読んでもらえるのかな。 ところで編集部には送ったのですが、まだ反映されていない様子なのでここで告知します。 - ◎お詫びと訂正(8月12日) 5ページの図10のうち、アイルランド・ドイツ提案1F619の絵文字が間違ったものを掲載していました。これを修正するとともに、5ページの文を以下のように変更します。お詫びして訂正します。 ・訂正前 1F619は目と口の形が違う ・訂正後 1F619は目の色が違う

    絵文字原稿の第5回が公開中 - もじのなまえ
  • 絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係

    絵文字の収録をめぐって、国際規格で大論争--「Google提案」を振り返る 皆さんこんにちは、面白くてタメになる(?)文字コード漫談の時間がやってまいりました。2月からとびとびで書いてきた絵文字の報告も、いよいよ今回が最終回。どうかよろしくお付き合いください。 さて、前回はどこまでお話ししたのでしたっけ。日絵文字をUnicodeに収録しようとするGoogleAppleによる提案(以下、主導者の名をとりGoogle提案と略)ですが、去年の12月にパブリックレビューが開始されると、Unicode-MLで時ならぬ非難の嵐が吹き荒れたこと。そこでの反発を一言で言い表すなら、日文化に強く依存する絵文字を単純に国際規格に収録しようとした点にあったこと。 なぜなら国際規格の審議は参加各国の総意で成り立っており、特定の国しか便利に使えない文字を収録することは、当然強い反対をうけるからです。さらに

    絵文字が開いてしまった「パンドラの箱」第5回--絵文字と日本マンガの親密な関係
  • 第7回 Unicodeからの多対一の変換[前編] | gihyo.jp

    文字コードが引き起こすセキュリティ上の問題として、もっとも興味深いもののひとつである、Unicodeから他の文字コードへの「多対一の変換」で引き起こされる問題点について、今回と次回で説明します。 ご存じのとおり、Unicodeには非常に多数の文字が収録されていますが(現在最新版のUnicode 5.1.0では100,713文字が収録されているそうです⁠)⁠、Unicodeから他の文字コードへの変換においては、互換性や可読性の維持のためか、複数のUnicodeの文字が他の文字コードでは単一の文字に変換されることがあります。 この「多対一」の変換が、開発者も想定していなかったような問題を引き起こす原因となることが多々あります。 具体的な例として、Windows上でのUnicodeからの変換について説明します。 Windows上でのUnicodeからShift_JISへの変換 Windows上で

    第7回 Unicodeからの多対一の変換[前編] | gihyo.jp
  • 2009/08/03 UNICODE と CJK と文字幅 (HiNa) - fetus Diary - fetus

    この辺にもちょっと関連するものがあるけど、UNICODE の「文字」ってのは「幅」が文脈依存というかフォント依存というかとにかく不定なのです。実用的には、CJK な環境では記号類やギリシャ文字、キリル文字等一部の文字が全角幅(Fullwidth)で取り扱われ、そうでない環境では半角幅(Halfwidth)で取り扱われる。(理想論でいうと、1.5em とかで表示される文字があっても文字は文字なので問題はないと思う。UNICODE 的には) にもかかわらず、半角幅で取り扱って悲しい目にあうソフトが多い。私がよく困るシチュエーションでは、記号類「☆」や「…」が半角として取り扱われて、端末エミュレータ上の vi で違う文字を編集してしまうとか、PHP の mb_strwidth が「曖昧」な文字の時 1 を返してしまうとか。 「UNICODE の文字の幅は一意に定まる」(この話とは関係ないけど)「

  • MiAU勉強会の反省 - もじのなまえ

    前回のエントリでご案内した第4回 MIAU勉強会ですが、ぶじに終了。その画面資料ですが下記にて公開します。 RFCから見た新常用漢字表の矛盾と整合 以前にも書きましたが、自分の仕事については誉めてくれるより批判的な意見の方がより参考になります。参加者のご意見で最後に発言してくださった方が、文字コードの話の部分と新常用漢字表(仮)の部分とで違和感があるという趣旨の指摘をしてくださいましたが、あらためて画面を見直すと、たしかにそうだなあと。 会場では別の部分でお答えしたのですが、振り返ってみればもっと違う言いようがあった。わざわざ来てくださった直井さんも、後半が飛躍しすぎといっていたけど、おそらく同趣旨のことではないか。 この発表を考えていた際、ずっと思っていたことは、「一部のRFCやXMLで規定されている互換漢字の置き換え処理/使用禁止と、常用漢字表の考え方の間には共通点があるように思えるが

    MiAU勉強会の反省 - もじのなまえ
  • 二つの顔を持つ神 - もじのなまえ

    幸いなことに先週末に掲載した絵文字が開いてしまった「パンドラの箱」第4回は好評をもって迎えられた様子。ブックマークしてくださった方々が、さきほど確認したら360人。これは第1回の693人には及ばないものの、第2回、第3回を上回る数字であり、素直に喜んでいる。 また、ネット上でも拙文に触れてくださる方々が大勢いらっしゃり、折りにふれて楽しく拝見している。こういう場合、書いた人を触発するという意味では、肯定するよりむしろ批判する文章の方に軍配が上がる(もちろん誉めてくれるのは無条件にうれしいのだけれど)。 「そうか、こういう考え方があったのか」「そういう受け取られ方をしたか」ということです。こうした直言は親しい人や編集者はなかなか言ってくれないことだから、なるべく素直に受け止めたいと思っている。誤解や曲解も含め、あらゆる反応は筆者にとって良い糧になりうる。鰯や秋刀魚のように骨まできれいに

    二つの顔を持つ神 - もじのなまえ
  • 絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”

    普通では考えられない優遇策--「Google提案」を振り返る 皆さんこんにちは、毎度おなじみ(?)文字コード漫談の時間がやってまいりました。前回が3月の掲載ですから3カ月ぶりですか。今まで3回にわたって絵文字をUnicode及びISO/IEC 10646(国際符号化文字集合)に収録しようという提案の動きについてご説明してきましたが、今回から2回に分けて完結編をお届けします。どうぞよろしくお付き合いください。 ひさしぶりですから、ここまでのポイントを整理しておきましょう。前述した「提案」とは、もともとはUnicodeに収録するためにGoogleAppleと共同で作成したものです。以下、主唱者の名前をとり「Google提案」と呼ぶことにします。これはこの2月に開かれた最高議決機関、UTC会議で承認されてUnicodeコンソーシアムの総意となりました。ついでGoogle提案はISO/IEC 1

    絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”
  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

  • そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記

    文字コードの標準化について日記を書いたのだが、内容がいまいちだったのでボツにして気を取り直してUnicodeについて一言いっておくことにする。先日、といっても昨年(2008年)の10月なんだけど、その中でちょと文字コードの標準化について話をしている。*1 もう1つ自分の経験としてあるのが、漢字の文字コードがあるんですけど、番号で言うとJIS X 0208とか0212とか規格の番号で皆言うわけなんですけど、実は1988年にその日語の文字コードの改正の委員会にいたんですね。 その当時、私は 30歳ぐらいなんですけど、「富士通」とか「日立」とか「NEC」の部長さんぐらいの偉い人たちが来てて、私なんか外資系で且つ30前後のぺーぺーだから、全然格下なんですよ。 そういうところで議論の主軸を担ってるのは、「富士通」「日立」「NEC」「日IBM」「東芝」「沖」、外資でいえば「ユニシス」とかの錚々たる

    そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記
    eagletmt
    eagletmt 2009/04/20
    今の携帯の絵文字に関しても同じことが言えそう
  • 1