タグ

utf8に関するkamawadaのブックマーク (9)

  • perlの波ダッシュの文字コード変換のまとめ - (゚∀゚)o彡 sasata299's blog

    2009年02月22日22:31 Perl perlの波ダッシュの文字コード変換のまとめ perlの文字コード周りはなかなかカオスです。外部エンコードとか、perl内部での文字コードとか、UTF8フラグとか。UTF8フラグ?なにそれ?な人は、こことかここを見てみると良いかも。(・∀・) 基的には外部から入ってきた時点でdecodeして、出力時にencodeしてやれば全て解決するんですが、「〜(波ダッシュ)」と「−(全角マイナス)」だけは特別です。注意が必要なのはこの2パターン。 ① utf8⇔shift_jis ② utf8⇔euc-jp ①については以前、perl utf8→sjisで文字化けという記事で紹介しましたが、encode時に、'sjis'では無くて、'cp932'を指定すればOK。※「〜」とか「−」はsjisには含まれていない文字なのが原因。 今回紹介したいのは②の場合です

  • Config + Unicode - Lazy Programmer :-p

    設定ふぁいる情報のutf8フラグの建て方( fileはConfigLoader::Multiの設定) $YAML::Syck::ImplicitUnicode = 1; __PACKAGE__->config( 'Plugin::ConfigLoader' => { file => __PACKAGE__->path_to( 'conf' ) } , driver_args => { 'YAML::Syck' => { } } , );

    Config + Unicode - Lazy Programmer :-p
  • perlunitut 和訳 - Perl Unicode Tutorial

    CPAN にあった Perl の Unicode Tutorial を和訳したものです。 ところどころ意訳であったり原文にない表現があったりします。 わかりづらい部分がありましたら原文を参照してください。 DESCRIPTION 「文字」 というものを無視していた状況は過去のものとなりました。 これまで 「日語」 や 「アクセントつきの文字」、「ユーロ記号のようなもの」 はバイトの組み合わせで表現されていましたが、これからは 「バイト列」 ではなく 「文字列」 として扱う必要がある、という事実が認められました。 つまり、プログラマは新たな習慣を身に着けなければなりません。 Unicode を扱えるソフトウェアをプログラミングするのは簡単ですが、正しくプログラムを書くためには鍛錬が必要です。 文字集合 (character sets) と文字符号化 (text encodings) につい

  • tokuhirom blog

    Blog Search when-present<#else>when-missing. (These only cover the last step of the expression; to cover the whole expression, use parenthesis: (myOptionalVar.foo)!myDefault, (myOptionalVar.foo)?? ---- ---- FTL stack trace ("~" means nesting-related): - Failed at: ${entry.path} [in template "__entry.ftlh" at line 3, column 25] - Reached through: #include "__entry.ftlh" [in template "entry.ftlh" at

    kamawada
    kamawada 2008/05/31
    「utf8.pm は「このスクリプトは utf8 で書いてあるよー」と宣言する目的以外でつかってはいけません。」<らじゃー!
  • 2006/04/10 - memo - unknownplace.org

    PACKAGE->inflate_column( query => { inflate => sub { my $u = URI->new; $u->query(shift); my $ret = {}; for my $k ( $u->query_param ) { my @v = $u->query_param($k); $ret->{$k} = @v > 1 ? [@v] : $v[0]; } $ret; }, deflate => sub { my $utf8off = sub { my $str = shift; utf8::encode($str) if utf8::is_utf8($str); }; my $hash = shift; for ( keys %$hash ) { if ( ref $hash->{$_} eq 'ARRAY' ) { $utf8off->($_

  • Fuck the internal representation

    I often see people (including myself) write code like this: utf8::encode($data_to_print) if utf8::is_utf8($data_to_print); This results in irritating bugs, because it's incorrect and doesn't even make sense. Perl can store text as either latin-1 or utf8 internally. For a string like ほげ, the internal representation will be utf8, because you definitely can't represent Japanese in latin-1. However (a

  • utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech
  • URI-Find-UTF8-0.05 - Finds URI from arbitrary text containing UTF8 raw characters in its path - metacpan.org

    The Perl Toolchain Summit needs more sponsors. If your company depends on Perl, please support this very important event.

  • UTF-8 フラグと戦う人へ : にぽたん研究所

    ひさびさに Blog を書いてみる。 UTF-8 フラグがどうもウザいという人向けにこんな CPAN モジュールがあるそうな。 Unicode::RecursiveDowngrade hashref とか、arrayref とか複雑な構造になった変数 (たとえば XML や RSS を XML::Simple や XML::RSS 等で parse した構造) を、構造を変えることなく、値全ての UTF-8 フラグを一括で落としたい場合にベンーリ。 こんなんして使える模様。 use strict; use XML::Simple; use Unicode::RecursiveDowngrade; use Data::Dumper; my $ref = XMLin('hoge.xml'); # includes flagged UTF-8 my $rd = Unicode::Recursi

    UTF-8 フラグと戦う人へ : にぽたん研究所
  • 1