タグ

文字コードと開発に関するglcsのブックマーク (2)

  • UTF8 フラグあれこれ - daily dayflower

    UTF8 フラグについてわかってるつもりだったんですが,utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめ スカラー変数の内部表象の状態を示すものとして UTF8 フラグというものがある スカラー変数は(リファレンス等は別として)下記のものを格納できる (A) 文字列(内部表象: UTF-8) (B) 文字列(内部表象: ISO-8859-1) (C) バイナリ列 純粋なバイナリストリーム(画像ファイル等)かもしれないし, UTF-8 octet stream かもしれないし, CP932 octet stream かもしれないし,etc, etc ... Perl は(後方互換性確保などの理由から)ISO-8859-1

    UTF8 フラグあれこれ - daily dayflower
  • utf8オンな文字列のバイト数の取得方法 - Unknown::Programming

    use utf8している時のlengthは文字数を数えてしまうけど、それ以外のときは、バイト数を数えるそうだ。ところで、以下のようにしたらutf8のバイト数が取れるんじゃないかと思うんだけど、あまりutf8文字列のバイト数に需要がないのか、ググっても例が出てこない。 何か見おとしているのかもしれないな。 use utf8; my $bytes = length unpack('a*',$utf8_str); use utf8での文字列のバイト数 これ、僕も昔取得方法わかんなくて困ったことがある。 ってことで啓蒙活動しとく。 bytes::lengthを使います。 use utf8; require bytes; my $bytes = bytes::length $utf8_str; 「require bytes」が大事ね「require bytes」が。もし「use bytes」しちゃっ

    utf8オンな文字列のバイト数の取得方法 - Unknown::Programming
  • 1