[B! utf8] u1_113のブックマーク

u1_113 id:u1_113

utf8に関するu1_113のブックマーク (10)

【perlメモ】perl5.8系utf8関連の自分用まとめ
とにかく慣れるまでめんどくさい。最初は訳がわからないが判っててくれば便利。jcode.plやjcode.pm時代より面倒でとっつきにくいのはたしか。こういう事を気にしないでコードを書ける日が来るといいな。基本的には下の記事を抑えておけば大丈夫なはず。 Perl 5.8.x Unicode関連 404 Blog Not Found:#perl – utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 404 Blog Not Found:perl – use utf8; 最近はよほど古いソースのメンテでもなければutf8で書くと思うので、下の3行はお決まり。
u1_113 2010/11/11
perl

utf8
リンク
Unicode の16進数の実体参照を正規表現などで元に戻す
Unicode の16進数の実体参照を正規表現などで元に戻す 2008-05-10-3 [Programming] 普段は適切に処理をされてて問題にならないんだけど、ときどきひょんな局面で出会ってしまうのが、 "" という形式の文字列、16進数の実体参照です。 Perl でデコードする方法をメモ。 pack と Encode::decode を使うと良いみたい。 #!/usr/bin/perl use strict; use warnings; use Encode; use utf8; binmode STDOUT, ":utf8"; my $a = "情報時代"; $a =~ s/&#x([0-9A-F]{4});/decode('UCS2', pack('H*', $1))/ge; print "$a\n";
u1_113 2010/03/17
Twitter のRSSを読めるようにするために。HTML::Entities 便利。

utf8

数値文字参照

perl
リンク
UnicodeとUTF-8の違いは？ - Humanity
という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/
u1_113 2009/11/30
encoding

utf8
リンク
#perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 : 404 Blog Not Found
2009年09月13日13:00 カテゴリLightweight Languages #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由駄目です。 [を] Perl の utf8 まわりのおまじない最近良く使うおまじない、というかイディオム。 utf8::decode($text) unless utf8::is_utf8($text); こういう場合は、Encode::decode_utf8()でないと。以下をごらんください。 #!/usr/bin/perl use strict; use warnings; use Encode; use Devel::Peek; for my $bytes ( "\x2F", "\xC0\xAF", "\xE0\x80\xAF", "\xF0\x80\x80\xAF" ) { my $u
u1_113 2009/09/14
perl

utf8

エンコード
リンク
文字列を print すると「Wide character in print at」と出力されて困った - BigFatCatのブログ
以下のプログラム（参考：作って学ぶ、今どきのWebサービス: 第2回 RSSフィードの料理はLWPとXML::RSSにおまかせ）を実行したら、「Wide character in print at」というメッセージが print を実行する度に出力されてしまった。 #!/usr/local/bin/perl # http://www.ibm.com/developerworks/jp/webservices/library/itm-ws2-rss/ use strict; use Encode; use LWP::Simple; use XML::RSS; my $url = shift; my $document = LWP::Simple::get($url) or die "cannot get content from $url"; my $rss = XML::RSS->new;
u1_113 2009/07/08
perl

utf8
リンク
Perl 5.8.x Unicode 関連
u1_113 2008/11/25
perl

utf8
リンク
Unicode::RecursiveDowngrade - naoyaのはてなダイアリー
UTF-8 フラグがどうもウザいという人向けにこんな CPAN モジュールがあるそうな。「あるそうな」というか作ったのあなたでしょと軽くツッコミつつ、これはいいものです。Perl 5.8 における悩ましい問題であるところの UTF-8 フラグを、データ構造を再帰的に下って全部 off にしてくれるモジュールです。 http://search.cpan.org/dist/Unicode-RecursiveDowngrade/ なにげにフラグを落とす処理を pack('C0A*', shift)と pack な魔法でやってるところも素敵。Encode や unicode を必要としないので Perl 5.6 とかでも使えます。pack な方法はおそらく竹迫さんのパワポから得たヒントかな。これまで、TT で utf8off なんてフィルタを書いて [% it em.title | utf8of
u1_113 2008/11/25
module

perl

utf8
リンク
UTF-8 フラグと戦う人へ : にぽたん研究所
ひさびさに Blog を書いてみる。 UTF-8 フラグがどうもウザいという人向けにこんな CPAN モジュールがあるそうな。 Unicode::RecursiveDowngrade hashref とか、arrayref とか複雑な構造になった変数 (たとえば XML や RSS を XML::Simple や XML::RSS 等で parse した構造) を、構造を変えることなく、値全ての UTF-8 フラグを一括で落としたい場合にﾍﾞﾝｰﾘ。こんなんして使える模様。 use strict; use XML::Simple; use Unicode::RecursiveDowngrade; use Data::Dumper; my $ref = XMLin('hoge.xml'); # includes flagged UTF-8 my $rd = Unicode::Recursi
u1_113 2008/11/25
module

perl

utf8
リンク
perl 5.8における日本語コード変換のメモ
perl 5.8ではEncode.pmが標準モジュールとなり、多バイト文字を標準で簡単に扱えるようになりました。が、jcode.plやJcode.pmを用いたコード変換の経験があると、逆にこれが仇となって文字化けの嵐に遭います。（私の場合そうだったというだけで、普通はそんなこと無いのかもしれないのですが。）漸く最近になって基本的な考え方が飲み込めるようになって来たので、この辺をまとめておこうと思います。なお、本メモは新たにperl 5.8.x的なperlスクリプトを書く際に気をつけることをまとめたものであり、基本的には既存のスクリプトにperl 5.8 + Encode.pmを適用するためのものではありません。また、utf8でスクリプトを書くことを前提にしています。が、どちらにせよ、この知識は参考になると思います。（たぶん。）本文冒頭ですが、まず参照先を示しておきます。以下のドキュメント
u1_113 2008/11/25
module

perl

utf8

文字コード
リンク
髭。サイト
髭力髭の心、父心。剃り残すと「お父ちゃん、チクチクしてイヤ！」おしながきめいんめにゅー髭、はえ初めし頃。 (メイン) しょーとかっとタブ譜置き場 Haro is Another 'Riverside Oneroad' site.
u1_113 2008/11/25
Cannot decode string with wide charactersと出るとき

perl

tips

utf8
リンク
1