[B! unicode] takanori_isのブックマーク

常用漢字表のUnicode補助文字問題 - Cafe Babe

京大の安岡先生が常用漢字表でUnicode補助文字(Unicode Supplementary Character)の領域に割り当てられている文字がレガシーなシステムでうまく扱えないことを問題にしている．どうして常用漢字表を改定するハメになったのか（yasuokaの日記）まあ，Shift-JISや日本語EUCを使って実装しているシステムで扱えないのは当然だが，Unicodeを使っているシステムでも正しく扱えるとは限らない．というのは，Unicode補助文字というのは，U+10000〜U+10FFFFの領域に符号化されており，UTF-16ではサロゲートペアを使って表現され，UTF-8では4バイトに符号化されるからだ．文字がU+0000〜U+FFFFだけにあることを前提に実装された古いシステムでは，何が起こるかわからない．この辺は，我々がJava言語に対しておこなった話が参考になるとおもう

takanori_is 2009/12/16

unicode

リンク

Unicode-processing issues in Perl and how to cope with it (ahinea.com)

Home About Projects Services Articles Unicode-processing issues in Perl and how to cope with it Perl 5.8+ has comprehensive support for Unicode and a wide range of different text encodings. But still many people experience probl ems when processing multi-language text. Here I explain the most common probl ems and offer solutions. 21 Nov 2013. Some inaccuracies in the text of the article and in the

takanori_is 2009/12/04

perl
unicode

リンク

404 Blog Not Found:perl - utf8::is_utf8("\x{ff}") == 0

2008年02月18日10:00 カテゴリLightweight Languages perl - utf8::is_utf8("\x{ff}") == 0 ちょうどいい機会なので、Perl 5.8以降におけるutf8フラグの立ち方を。 unknownplace.org - 2008/02/17 - utf8::is_utf8 ということで、"\x{6751}\x{702c}\x{5927}\x{8f14}" などというData::Dumper表記でかならずしも utf-8フラグがたつわけじゃない。ということがいいたかったんだと思うのだけれど、 \x{UUUUUU}とutf8 flag まずはクイズです。以下がどう出力されるかを答えなさい。 sub pfrag{ print utf8::is_utf8($_[0]) ? 1 : 0, "\n" } pfrag "Hell\xC3, worl

$404 Blog Not Found:perl - utf8::is_utf8("\x{ff}") == 0$

takanori_is 2009/09/28

リンク

Repeat after me: Unicode is not UTF-\d{1,2}

takanori_is 2009/06/23

unicode

リンク

絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”

普通では考えられない優遇策--「Google提案」を振り返る皆さんこんにちは、毎度おなじみ（？）文字コード漫談の時間がやってまいりました。前回が3月の掲載ですから3カ月ぶりですか。今まで3回にわたって絵文字をUnicode及びISO/IEC 10646（国際符号化文字集合）に収録しようという提案の動きについてご説明してきましたが、今回から2回に分けて完結編をお届けします。どうぞよろしくお付き合いください。ひさしぶりですから、ここまでのポイントを整理しておきましょう。前述した「提案」とは、もともとはUnicodeに収録するためにGoogleがAppleと共同で作成したものです。以下、主唱者の名前をとり「Google提案」と呼ぶことにします。これはこの2月に開かれた最高議決機関、UTC会議で承認されてUnicodeコンソーシアムの総意となりました。ついでGoogle提案はISO/IEC 1

takanori_is 2009/06/06

リンク

perlunicode - Unicode support in Perl - Perldoc Browser

CONTENTS NAME DESCRIPTION Important Caveats Byte and Character Semantics ASCII Rules versus Unicode Rules Extended Grapheme Clusters (Logical characters) Unicode Character Properties General_Category Bidirectional Character Types Scripts Use of the "Is" Prefix Blocks Other Properties Comparison of \N{...} and \p{name=...} Wildcards in Property Values User-Defined Character Properties User-Defined

takanori_is 2009/03/24

perl
unicode

リンク

絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味

じつはコメントを送っていたNTTドコモ最初に前回のおさらいをしておきましょう。スタート当初の携帯電話の絵文字には、キャリア間でメールのやり取りの中で文字化けしてしまう欠点があったこと、それを解決する仕組みをキャリア各社が作ったものの、その場しのぎの欠点の多いものであったこと、そして絵文字のUnicode符号化というのはそうした欠点を一挙に解決するはずであること。ついでにGoogleが絵文字のUnicode符号化を進めることで、キャリア各社は今まで自分たちが育ててきた絵文字の主導権を奪われてしまうということも。それから前回の最後では、キャリア各社に対してGoogleの提案についてどう思うか、パブリックレビューに参加する意向があるかを聞いてみました。そこでの回答は、各社そろって消極的と受け取れるものでした。ところが前回の掲載後に、NTTドコモがGoogleの絵文字メーリングリストに投稿し

takanori_is 2009/03/10

リンク

絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道

Unicodeが携帯電話の絵文字を収録へ絵文字ってなに？そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな！　8割の女性は「恋人以外にも使う」』（RBB NAVI）なんていうニュースもありました。携帯電話の個人普及率が9割を上回る（平成20年内閣府消費動向調査）この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの

takanori_is 2009/03/02

リンク

perlunitut - Perl Unicode Tutorial - metacpan.org

NAME perlunitut - Perl Unicode Tutorial DESCRIPTION The days of just flinging strings around are over. It's well established that modern programs need to be capable of communicating funny accented letters, and things like euro symbols. This means that programmers need new habits. It's easy to program Unicode capable software, but it does require discipline to do it right. There's a lot to know abo

takanori_is 2009/02/10

perl
unicode

リンク

Unicodeにマルバツのバツはあるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

以前のエントリ（ヒラギノでは全角でデザインされていない文字）で、わたしは以下のように書いた。たとえば「○か×か」というテキストをヒラギノで表示した際、「×」だけが小さく見えて困惑したといった経験を、多くのMac OS Xユーザが持っていると思う。これは、ヒラギノがU+00D7 MULTIPLICATION SIGN（乗算記号）をプロポーショナルでデザインしているためである。では、「マルバツのバツ」を表現したいとき、より適切な方法は用意されているのだろうか。Unicodeには、明示的な「マルバツのバツ」は含まれていない。U+2573 BOX DRAWINGS LIGHT DIAGONAL CROSSはバツと言えなくもないが、「BOX DRAWINGS」は罫線素片であってセマンティクス的にもバツ印とはやや遠いし、形もUnicodeの符号表例示字形を見る限りでは「○」と釣り合うようなものでは