perl use strict; use warnings; sub Dump { @_ = map { sprintf "'%s'(%s)", $_, utf8::is_utf8($_) ? 'utf8' : 'bytes' } @_; print {*STDERR} join(q{, }, @_), "\n"; } no utf8; Dump( foo => 'bar' ); #=> 'foo'(bytes), 'bar'(bytes) no utf8; だもんで,... 続きを読む
perl は 5.8 から Unicode(utf-8) がサポートされました.5.6 でも Unicode に対応はしていましたが,ぜんぜん使い物にならず,ようやく 5.8 でまともに使えるようになったということです.ただせっかく使えるにもかか わらず perldoc などを見てもイマイチ使い... 続きを読む
perl, memoUTF8 フラグについてわかってるつもりだったんですが, utf8::is_utf8 considered harmful - Bulknews::Subtech - subtech を読んで混乱したので,自分なりにまとめてみました。間違いがありましたらご指摘よろしく。 まとめスカラー変数の内部表象の... 続きを読む
■ utf8::is_utf8 considered harmful 14:28 unknownplace.org - 2008/02/17 404 Blog Not Found:perl - utf8::is_utf8("¥x{ff}") == 0 弾さんの書いてるのはもちろん間違いではないのだが、ちょっと今回はなしていたのとはポイントが違っていて、 なぜこうな... 続きを読む
最近、PerlのUTF-8関連が話題(宮川さん、Danさん、Yappoさん)だったので。 宮川さんの内容に関しては、UTF-8に限っては、use utf8 で、STDIO、STDOUTは影響しないので、問題ないんじゃないのかなぁとは思いますが。 #!/usr/bin/perl use utf8; print "あいうえ... 続きを読む
うーん、これ、かなり5.8 portersの想定の範囲外の使われ方だったのですね。 Time to ditch encoding.pm: blog.bulknews.netPerl でソースコードにマルチバイトなリテラルを埋め込む場合には encoding プラグマを使うのが定石でしたが、 元々、encodingプラグマ... 続きを読む
Catalyst::Plugin::FillInForm::ForceUTF8 をアップデートしました。そのうちインデックスされると思います。 0.02 Wed May 23 2007 - implemented finalize method そう。どこでソースが入れ替わったのか知りませんが、finalizeを実装してないのをあげちゃった... 続きを読む
Re: perl - use utf8; 404 Blog Not Found:perl - use utf8;ちなみに、utf8 pragmaの配下では、リテラルだけではなくシンボル名にもUnicodeを使うことが出来る。 (コード略) Enjoy! Dan the Just Another PerlUnicode Hacker ぼくだったらこう書きます><#!/us... 続きを読む
添削というより、ちょうどutf8 pragmaを説明するのにいい例題なので。 はこべにっき# - Web::Scraper便利! my $left = decode_utf8('『'); my $right = decode_utf8('』'); スクリプトがUTF-8で書かれている場合は、わざわざdecode_utf8('リテラル');とするより... 続きを読む
■ Fix dodgy utf-8 bytes 01:44 すでに utf-8 なバイト列を latin-1 と解釈して utf-8 に二重エンコードすることで起きる文字化け(を表現する短い言葉ってないのかな)を直すコード。 ちなみにPerl では Unicode 文字列と utf-8 bytes (non UTF-8 flagged) を... 続きを読む
47862 Uploads, 16097 Distributions 61807 Modules, 6925 Uploaders 続きを読む
use utf8なら\sは全角スペースもmatchする Femoで全角スペースでもTagのsplitができるように、と調べているのですが、 use utf8; をしている場合、\sは全角スペースにもmatchするようです。初めて気がついた。 #!/usr/bin/perl use strict; use warnings; use u... 続きを読む
Text::TagsでTagging CPANでTagging関連のモジュールを探すと Text::Folksonomies Text::Tags Data::Taxonomy::Tags あたりが見つかると思う。どれも基本は半角スペースで区切られたfolksonomy文字列をパースするモジュールです。Text::Folksonomiesはシンプル... 続きを読む
15. CGI::Util::utf8_chr now correctly sets the UTF8 flag on 5.006 or higher perls (fix courtesy Slaven Rezic).http://search.cpan.org/src/LDS/CGI.pm-3.11/ChangesCGI.pm の最近のバージョンから、CGI::Util::utf8_chr という関数により、一部の入力パ... 続きを読む
UTF-8 への移行計画 以前からやろうやろうと思っていた、 UTF-8 への移行計画を実施し ました。これまで手元のテキストファイルの類はすべて EUC-JP で 保存していたのですが、これを UTF-8 にしようという計画です。 Emacs の設定 まずは Emacs の設定です。こ... 続きを読む
EmacsでUTF-8を扱う XML文書をUTF-8で XML文書を記述する文字コードは、UTF-8が多く標準となっているようです。私は、XMLサーバにBXSを使い文字コードはShift_JISもしくはEUC-JPを利用していました。 卒論で、XMLを用いた多種端末対応個人データベース の研究を... 続きを読む
use encoding 'utf-8' & encoding::warnings Perl ネタ。 XML まわりなんかを扱うときについて回る UTF-8 フラグ (Unicode フラグ)をどう落とすか的ネタがもりあがっていますねぇ。このネタは拙書の Blog Hacks でも 1 Hack さいて解説してあります。 Blog Hac... 続きを読む
The requested blog was not found on this server -- unless you requested that of Dan Kogai (小飼 弾). Perl 5 Portersのラフコンセンサスとしては、UTF-8 flagの処理のガイドラインは、 文字列としての処理はflagを付けて バイト列としての処理はflagを落... 続きを読む
The requested blog was not found on this server -- unless you requested that of Dan Kogai (小飼 弾). 以下ダメな点を。 Hash Keyに未対応 Blessed Referenceに未対応 ダメダメいうだけではダメなので、以下、代案....を出そうとしたら、StorableのBugを見... 続きを読む
ひさびさに Blog を書いてみる。 UTF-8 フラグがどうもウザいという人向けにこんな CPAN モジュールがあるそうな。 Unicode::RecursiveDowngrade hashref とか、arrayref とか複雑な構造になった変数 (たとえば XML や RSS を XML::Simple や XML::RSS 等で par... 続きを読む