タグ

utf8に関するzichaoのブックマーク (3)

  • ものかの » 正規表現の略記法 \d と \s と \w

    正規表現の文字クラスの略記法 \d と \s と \w がいつのまにかアレレなことになっていたのでメモ。(1 Perl 5.8 以降で正規表現を使うには use utf8 が必須。 use utf8 では \d と \s と \w の文字クラスの内容が Unicode のカテゴリーに基づいている。 InDesign(Boost)も同様。 PCRE や Ruby は変わりなし。 (2 参考資料:perldoc の perlrecharclass 参考資料:Programming Perl の 5.4. Character Classes ちょっと詳しく見ていきます。 *以降、Perl = use utf8 の Perl ほとんど全ての人が [0-9] の10文字として使っていますが、Perl では \p{Nd} です。ただし、Perlのバージョンによって(対応しているUnicodeバージョン

    ものかの » 正規表現の略記法 \d と \s と \w
  • WindowsのUTF-16出力で文字化けが発生する - Perl

    多くの方がWindows上でPerlを使うさいにActivePerlを使用していると思います。私もその一人ですがちょっと前大きな問題に直面しました。 「UTF-16出力すると文字化けが発生する!」 そうなんです。過去の記事で日語の扱いについて紹介しました。じつは、あれらの設定でMac OS X 等で処理しているぶんには問題ないのですがWindows上でActivePerlを使って出力すると特定の文字が化けてしまいます。 特定の文字というのは「上」等の文字コードの中に「0A」なんていうバイナリーデータを含んでいる文字です。 use utf8; binmode STDOUT, ":encoding(cp932)"; binmode STDERR, ":encoding(cp932)"; binmode STDIN, ":encoding(cp932)"; #-書込先ファイルの文字コードを指定

  • Perl5.8 の UNICODE 対応

    perl は 5.8 から Unicode(utf-8) がサポートされました.5.6 でも Unicode に対応はしていましたが,ぜんぜん使い物にならず,ようやく 5.8 でまともに使えるようになったということです.ただせっかく使えるにもかか わらず perldoc などを見てもイマイチ使い方がわからないので,独自にまと めてみたのがこのページです. 誤った書き方や勘違いをしてい ることもあるので,形式的ですがこのページの内容は無保証です. 内容 文字コード変換 perlIO jperlからの移行 UTF-8フラグ 文字コード自動判別 Unicode Standard Unicode 正規化 その他 参考資料 文字コード変換 とりあえず perl5.8 で新しく組み込まれた機能を見るために,euc-jp から shift_jis への変換スクリプトをいくつか載せます. openを利用し

  • 1