タグ

Unicodeに関するtraverseのブックマーク (5)

  • Unicodeの似た文字を整理してみた - y-kawazの日記

    XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。 文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。 ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル 表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。 見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。 分かりやすいよう、青は文字化けなし、黄

    Unicodeの似た文字を整理してみた - y-kawazの日記
  • UTF-16の誕生 | yasuokaの日記 | スラド

    たとえば「16ビットのコードを2つ組み合わせることで急場をしのいだ」といった書き方は、いかにも行き当たりばったりでサロゲートペアを作ったように見えますが、実際には最初から計画的にサロゲート用のコードはリザーブしてあったわけですよね。 「最初から計画的にサロゲート用のコードはリザーブしてあった」というのは、どう考えても嘘だ。この際だからUTF-16の誕生に関して、私の知る限りのことを記しておこうと思う。 Joseph Dermansly BeckerがJTC1/SC2/WG2に『Proposal for Extended UCS-2 being also a Proposal for Extended Unicode』を提出したのは、1993年4月のことだ。後にJTC1/SC2/WG2 N883と呼ばれるこの文書において、Beckerは、High Half Zoneとして2C00~2FFFを

  • プログラミング言語における新しいUnicodeの活用法 - Cafe Babe

    東京大学でおこなわれた,Sun Microsystems LaboratoriesのGuy Steeleの"The Fortress Programming Language"という講演を聴いてきた.当日は,著名な先生方が沢山集まっただけでなく,そもそも用意した部屋のキャパの確実に二倍以上集まりすぎて,急遽大教室に変更されるというおまけ付き.ただ,講演内容はアナウンスしたよりも一般的な内容に変更されていた. Fortressは,Guy Steeleが数値計算分野に対して提案する,新しいプログラミング言語である.基的には,C言語に対してJava言語がおこなったと同じような変革を,Fortranに対して行おうとしている.たとえば,小さな言語コア部分に対して,ライブラリを追加して拡張したり,ユーザがパラメタライズドタイプの定義や演算子のオーバーロードを自由におこなえるようにしている.また,グロ

    プログラミング言語における新しいUnicodeの活用法 - Cafe Babe
  • UTF-8の正規表現 - なるせにっき

    弾さんのところにUTF-8 vs. ISO-10646というentryが。PerlではルーズなUTF-8のことをutf8と読んでましたね。 というわけで、UTF-8 の文字にマッチする正規表現という話。蛇足になりますけれど、もっと厳密にしますと、最短でないUTF-8表現を除外できるので、 $RE_UTF8CHAR_STRICT_AND_SECURE = qr/(?: [\x00-\x7F] | # U+0000 - U+007F [\xC2-\xDF][\x80-\xBF] | # U+0080 - U+07FF \xE0[\xA0-\xBF][\x80-\xBF] | # U+0800 - U+0FFF [\xE1-\xEC][\x80-\xBF]{2} | # U+1000 - U+CFFF \xED[\x80-\x9F][\x80-\xBF] | # U+D000 - U+D7FF

    UTF-8の正規表現 - なるせにっき
  • http://macchiato.com/slides/gotchas.html

  • 1