http://www.w3.org/TR/html401/charset.html#h-5.3.1 HTML中では、数値文字参照という形で、文字を表す ために「&#」に続けてUnicodeのコードポイントを 挿入することが許されている。Webページや果てはRSS においてさえ、これが挿入されているケースが存在し ている。身近なところでの良い例はEngadget Japanese があげられるだろう。 巷では、日本語の文字列をこの数値文字参照に変換す るケースは結構存在している。しかし、rss2imap等で は、この逆の処理、つまり数値文字参照を文字に変換 する処理が必要である。 ---- perl -MEncode -p -i -e ' s/\&#(x)?([a-f0-9]{1,5});/ my $tmpstr = ($1) ? pack( "H*", sprintf( "%08s", "