タグ

unicodeに関するfn7のブックマーク (5)

  • perlunitut 和訳 - Perl Unicode Tutorial

    CPAN にあった Perl の Unicode Tutorial を和訳したものです。 ところどころ意訳であったり原文にない表現があったりします。 わかりづらい部分がありましたら原文を参照してください。 DESCRIPTION 「文字」 というものを無視していた状況は過去のものとなりました。 これまで 「日語」 や 「アクセントつきの文字」、「ユーロ記号のようなもの」 はバイトの組み合わせで表現されていましたが、これからは 「バイト列」 ではなく 「文字列」 として扱う必要がある、という事実が認められました。 つまり、プログラマは新たな習慣を身に着けなければなりません。 Unicode を扱えるソフトウェアをプログラミングするのは簡単ですが、正しくプログラムを書くためには鍛錬が必要です。 文字集合 (character sets) と文字符号化 (text encodings) につい

    fn7
    fn7 2008/05/31
    基本のところ
  • Unicode::Normalize で遊ぶ - daily dayflower

    Unicode の規格では,文字の合字(リガチャ等)等を統一的に扱えるように,「正規化」という処理が仕様として定まっています。この正規化処理のうち「互換性分解」という処理を行うと副作用として半角カナを全角カナに変換できます(逆に全角カナ→半角カナはできません)。 #!/usr/bin/perl use strict; use utf8; use Encode; use Unicode::Normalize; my $src = 'ポンジュース'; my $dst = Unicode::Normalize::NFKC($src); print Encode::encode('utf8', "${src} => ${dst}\n"); # OUTPUT is: ポンジュース => ポンジュースUnicode の正規化についてはperl5.8のUnicodeサポート および http:/

    Unicode::Normalize で遊ぶ - daily dayflower
  • 電波…とどいた? [200402 上旬]

    ▽雑記 なんかこの数日、IRC がみょーに静かです(苦笑)。nick が ほげFate なやつ多数…… 昨日。某社某案件全体会議。いろいろ忙しくなりそうです。 買い物。今後書籍については読んだ後に書くようにします。たぶん。 HERO 英雄 (DVD) モンティ・パイソン 人生狂騒曲 (THE MEANING OF LIFE) (DVD) モンティ・パイソンは、以前さわりだけみせてもらって大爆笑したのを、ふと見掛けたのでげっと。たぶんみんなでみたほうがおもしろいので、そのうちだれか観賞会しませう ▽うぇーぶだっしゅ や、 そのあたり、今、なにがどうなってるんだったかは、私も把握してないので、毎回しらべてるんですが……(苦笑) 歴史的経緯的は、たぶんこんなかんじ。 Unicode の規格票の WAVE DASH のグリフデザインが、一般的なデザインと上下逆 (推定) それをみながら変換テーブル

  • テキストの文字種分割の補足 - daily dayflower

    Perl で日語テキストを簡単に字種かたまりに分割できないかな、 と思い、perlunicode を読みながらサンプルプログラムを書いてみました。 対象テキストは UTF-8Perl で日語テキストを字種分割 たつをさんは,m// でマッチングさせて分割させてますけど,これだと正規表現で網羅されてないトークンが失われてしまうと思います。 #!/usr/bin/perl use strict; use warnings; use utf8; binmode \*STDOUT, ':utf8'; my $src = <<"END_DATA"; zーあyxルーラでう、う9 10AB.DE「"GH'」★で漢字をカ・ナったー!?MJD39\x{2466}。 END_DATA print $src, "\n"; my @cs = ( $src =~ m/ ( \p{M}+ | \p{N}+

    テキストの文字種分割の補足 - daily dayflower
  • Unicode 簡単メモ

    稿は "ファイル名における Unicode" と題してもよい内容になっていて、Unicode の様々な側面のうち、Mac OS X でファイル名を扱う場合に必要となる事柄にのみフォーカスをあてています。そのようにした理由は、あらゆる Mac OS X アプリケーションがサポートすべき領域であるからです。もし Unicode を扱うようなワードプロセッサを作っているような場合には、Unicode に関してここで扱うよりもたくさんの様々な理解が必要になることでしょう。稿記載の情報の大部分は、Richard Gillam 氏の手になる素晴らしい書籍 "Unicode Demystified" に基づいています。しかし、Mac OS X でファイル名を適切に扱いたいというだけなら、800 ページもあるこののボリュームはちょっと多すぎるかも知れません。 訳注:"Unicode Demystif

    fn7
    fn7 2007/11/13
    unicode勉強資料
  • 1