タグ

encodeに関するwkbyshnbtkのブックマーク (22)

  • 日本語 (EUC-JP)の substr …について : にぽたん研究所

    どうも気になったので。。。 shag の日記 - 日語(EUC-JP)の substr 今の Perl(5.8 以降)は文字列が utf8 だったら標準添付の substr() を使って終了なネタなわけだが、わけあって EUC-JP な文字列で日語も 1 文字と数えて substr をするサブルーチンを考えてみた。今さら。 かの有名な Perlメモに日語(EUC-JP)を含む文字列の split というのが(文字単位に分割する)あるんだけど、これを参考に euc_substr() というサブルーチンを書いてみた。一応 offset だけでもイケル。 なんか、euc_substr($str, 0, 5) と、LENGTH を 5 に指定しているのに、6 文字切り出されるのは正しい動きだと思いがたかったのと、 use strict; use Encode; sub euc_substr

    日本語 (EUC-JP)の substr …について : にぽたん研究所
  • UTF-8の「〜」と「〜」 - Ogawa::Memoranda

    Posted by: Hirotaka Ogawa @ May 07, 2003 03:21 AM | Movable TypeのBookmarkletやTrackbackの文字化けを回避するためにShift_JISからUTF-8に文字コードを変換したのだが、また例によって『「~」と「〜」』問題にぶち当たった。 「~」はFULLWIDTH TILDE(U+FF5E, EFBD9E)で、「〜」はWAVE DASH(U+301C, E3809C)なのだが、Shift_JISの「~」をWindows付属のNotepadなどを用いてUTF-8形式で保存した場合には前者になるが、MeadowのMule-UCSなどを用いた場合には後者になる。 さらにPerl 5.8.0などに標準で付属しているEncode.pmを使って、 (1) perl -MEncode -ne 'print encode("utf