2010年06月02日09:28 Ruby Unicodeエスケープシーケンスと文字参照とエンコーディング 日本語って色んな場面で化けますよね。エンジニアたるものそれをきちんとした表示にしなければ気持ち悪くて夜も眠れませんよね。わかります!わかりますよ!>< ・・というわけで今回はときどき遭遇する "\\u30c6\\u30b9\\u30c8" みたいなデータ(何て書いたら検索する人が探しやすいだろうか。。\u から始まる文字化け?)をいい感じの表示(人間が読める形)に変換してみたいと思います。 色々と調べてみると、これは Unicodeエスケープシーケンス というそうです。 Unicode 文字列リテラル、正規表現、識別子において Unicode エスケープシーケンスを使用することができます。エスケープシーケンスは ASCII 文字 6 文字からなります。それは \u と 4 桁の 16
うにこ~ど(Unicode)とはコンピュータ上で多言語の文字を単一の 文字コードで取り扱うために1980年代に提唱された文字コードです。 本当は「ユニコード」と読みます。(^_^) 記号などの文字を探すのに便利なように作った Unicode一覧表 です。 Javascript が有効になっていないと動きません。あしからず・・・。 バージョン2になって、Unicode逆引き検索 も可能になりました。 HTMLに Unicode で文字を書く時は 16進 で、 と書きます。 例えば、上の表で、0x1234 だったら、 ሴ ですね。(セミコロンをお忘れなく) どこの国の文字かも分からないですけど、おもしろい文字がたくさんありますね (^_^) たとえば、0x0BXX あたりとか、0x0CXX あたりとか。
範囲:FF00~FFEF Unicodeの半角・全角形(The Unicode Standard Halfwidth and Fullwidth Forms)を十六進数の数値文字参照で記述した表です。 Fullwidth ASCII variants(全角ASCII) Unicode 表示 名称 備考 FF01
European Scripts Armenian Armenian Ligatures Caucasian Albanian Cypriot Syllabary Cypro-Minoan Cyrillic Cyrillic Supplement Cyrillic Extended-A Cyrillic Extended-B Cyrillic Extended-C Cyrillic Extended-D Elbasan Georgian Georgian Extended Georgian Supplement Glagolitic Glagolitic Supplement Gothic Greek Greek Extended Ancient Greek Numbers Latin Basic Latin (ASCII) Latin-1 Supplement Latin Extende
といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日本語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離
普通では考えられない優遇策--「Google提案」を振り返る 皆さんこんにちは、毎度おなじみ(?)文字コード漫談の時間がやってまいりました。前回が3月の掲載ですから3カ月ぶりですか。今まで3回にわたって絵文字をUnicode及びISO/IEC 10646(国際符号化文字集合)に収録しようという提案の動きについてご説明してきましたが、今回から2回に分けて完結編をお届けします。どうぞよろしくお付き合いください。 ひさしぶりですから、ここまでのポイントを整理しておきましょう。前述した「提案」とは、もともとはUnicodeに収録するためにGoogleがAppleと共同で作成したものです。以下、主唱者の名前をとり「Google提案」と呼ぶことにします。これはこの2月に開かれた最高議決機関、UTC会議で承認されてUnicodeコンソーシアムの総意となりました。ついでGoogle提案はISO/IEC 1
Background data for Proposal for Encoding Emoji Symbols L2/09-027R Date: 2009-Feb-06 Authors: Markus Scherer, Mark Davis, Kat Momoi, Darick Tong (Google Inc.) Yasuo Kida, Peter Edberg (Apple Inc.) The carrier symbol images in this file point to images on other sites. The images are only for comparison and may change. See the chart legend for an explanation of the data presentation in this chart
perlunicode - Perl ユニコードサポート perlunicode - Unicode support in Perl 名前 NAME perlunicode - Perl ユニコードサポート perlunicode - Unicode support in Perl 説明 DESCRIPTION 重要な警告 Important Caveats ユニコードのサポートは大規模な要求です. Perl がユニコード標準を実装 しなかったりそれに伴うはじめから終わりまでの技術レポートを実装していな い一方で, Perl はユニコードの機能をサポートします. Unicode support is an extensive requirement. While Perl does not implement the Unicode standard or the accompanyin
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く