タグ

utf8に関するu1_113のブックマーク (10)

  • 【perlメモ】perl5.8系utf8関連の自分用まとめ

    とにかく慣れるまでめんどくさい。最初は訳がわからないが判っててくれば便利。jcode.plやjcode.pm時代より面倒でとっつきにくいのはたしか。こういう事を気にしないでコードを書ける日が来るといいな。 基的には下の記事を抑えておけば大丈夫なはず。 Perl 5.8.x Unicode関連 404 Blog Not Found:#perl – utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 404 Blog Not Found:perl – use utf8; 最近はよほど古いソースのメンテでもなければutf8で書くと思うので、下の3行はお決まり。

    【perlメモ】perl5.8系utf8関連の自分用まとめ
  • Unicode の16進数の実体参照を正規表現などで元に戻す

    Unicode の16進数の実体参照を正規表現などで元に戻す 2008-05-10-3 [Programming] 普段は適切に処理をされてて問題にならないんだけど、 ときどきひょんな局面で出会ってしまうのが、 "�" という形式の文字列、16進数の実体参照です。 Perl でデコードする方法をメモ。 pack と Encode::decode を使うと良いみたい。 #!/usr/bin/perl use strict; use warnings; use Encode; use utf8; binmode STDOUT, ":utf8"; my $a = "情報時代"; $a =~ s/&#x([0-9A-F]{4});/decode('UCS2', pack('H*', $1))/ge; print "$a\n";

    Unicode の16進数の実体参照を正規表現などで元に戻す
    u1_113
    u1_113 2010/03/17
    Twitter のRSSを読めるようにするために。HTML::Entities 便利。
  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 : 404 Blog Not Found

    2009年09月13日13:00 カテゴリLightweight Languages #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 駄目です。 [を] Perl の utf8 まわりのおまじない 最近良く使うおまじない、というかイディオム。 utf8::decode($text) unless utf8::is_utf8($text); こういう場合は、Encode::decode_utf8()でないと。 以下をごらんください。 #!/usr/bin/perl use strict; use warnings; use Encode; use Devel::Peek; for my $bytes ( "\x2F", "\xC0\xAF", "\xE0\x80\xAF", "\xF0\x80\x80\xAF" ) { my $u

    #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 : 404 Blog Not Found
  • 文字列を print すると「Wide character in print at」と出力されて困った - BigFatCatのブログ

    以下のプログラム(参考:作って学ぶ、今どきのWebサービス: 第2回 RSSフィードの料理はLWPとXML::RSSにおまかせ)を実行したら、「Wide character in print at」というメッセージが print を実行する度に出力されてしまった。 #!/usr/local/bin/perl # http://www.ibm.com/developerworks/jp/webservices/library/itm-ws2-rss/ use strict; use Encode; use LWP::Simple; use XML::RSS; my $url = shift; my $document = LWP::Simple::get($url) or die "cannot get content from $url"; my $rss = XML::RSS->new;

    文字列を print すると「Wide character in print at」と出力されて困った - BigFatCatのブログ
  • Perl 5.8.x Unicode 関連

  • Unicode::RecursiveDowngrade - naoyaのはてなダイアリー

    UTF-8 フラグがどうもウザいという人向けにこんな CPAN モジュールがあるそうな。 「あるそうな」というか作ったのあなたでしょと軽くツッコミつつ、これはいいものです。Perl 5.8 における悩ましい問題であるところの UTF-8 フラグを、データ構造を再帰的に下って全部 off にしてくれるモジュールです。 http://search.cpan.org/dist/Unicode-RecursiveDowngrade/ なにげにフラグを落とす処理を pack('C0A*', shift)と pack な魔法でやってるところも素敵。Encode や unicode を必要としないので Perl 5.6 とかでも使えます。pack な方法はおそらく竹迫さんのパワポから得たヒントかな。 これまで、TT で utf8off なんてフィルタを書いて [% item.title | utf8of

    Unicode::RecursiveDowngrade - naoyaのはてなダイアリー
  • UTF-8 フラグと戦う人へ : にぽたん研究所

    ひさびさに Blog を書いてみる。 UTF-8 フラグがどうもウザいという人向けにこんな CPAN モジュールがあるそうな。 Unicode::RecursiveDowngrade hashref とか、arrayref とか複雑な構造になった変数 (たとえば XML や RSS を XML::Simple や XML::RSS 等で parse した構造) を、構造を変えることなく、値全ての UTF-8 フラグを一括で落としたい場合にベンーリ。 こんなんして使える模様。 use strict; use XML::Simple; use Unicode::RecursiveDowngrade; use Data::Dumper; my $ref = XMLin('hoge.xml'); # includes flagged UTF-8 my $rd = Unicode::Recursi

    UTF-8 フラグと戦う人へ : にぽたん研究所
  • perl 5.8における日本語コード変換のメモ

    perl 5.8ではEncode.pmが標準モジュールとなり、多バイト文字を標準で簡単に扱えるようになりました。が、jcode.plやJcode.pmを用いたコード変換の経験があると、逆にこれが仇となって文字化けの嵐に遭います。(私の場合そうだったというだけで、普通はそんなこと無いのかもしれないのですが。)漸く最近になって基的な考え方が飲み込めるようになって来たので、この辺をまとめておこうと思います。なお、メモは新たにperl 5.8.x的なperlスクリプトを書く際に気をつけることをまとめたものであり、基的には既存のスクリプトにperl 5.8 + Encode.pmを適用するためのものではありません。また、utf8でスクリプトを書くことを前提にしています。が、どちらにせよ、この知識は参考になると思います。(たぶん。) 文冒頭ですが、まず参照先を示しておきます。以下のドキュメント

  • 髭。サイト

    髭力 髭の心、父心。剃り残すと「お父ちゃん、チクチクしてイヤ!」 おしながき めいんめにゅー 髭、はえ初めし頃。 (メイン) しょーとかっと タブ譜置き場 Haro is Another 'Riverside Oneroad' site.

    u1_113
    u1_113 2008/11/25
    Cannot decode string with wide charactersと出るとき
  • 1