タグ

charsetとperlに関するvkgtaroのブックマーク (9)

  • subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    subtech - Bulknews::Subtech - Fix dodgy utf-8 bytes
    vkgtaro
    vkgtaro 2007/02/13
    二重に utf-8 エンコードしちゃった文字化け直し
  • ruby|perl - 文字コードのちょっと高度な判定 : 404 Blog Not Found

    2007年01月11日21:00 カテゴリLightweight Languages ruby|perl - 文字コードのちょっと高度な判定 これははっきり言って悩ましい。ですが、判定が曖昧な場合はその旨をきちんと通知するのがBetter Practiceではないかと思います。 Matzにっき(2007-01-03) 手元のcalkiがUTF-8の「》」相当の文字(U+8BB)を含むエントリが文字化けするので、 nkf-utf8のソースを見てみた。 どうも自動判定の優先順位がEUC-JP,SJIS,JIS,UTF-8で固定されていて、 EUCの範囲内に収まる文字列はすべてEUC-JPとみなすことになっている。 で、UTF-8の「》」はEUC-JPの「損」と同じバイト列なのだ。例えば、以下を行ごとにコード判定すると、以下のような結果になります。 son.utf8 » 損 »損 »Son nk

    ruby|perl - 文字コードのちょっと高度な判定 : 404 Blog Not Found
  • Perl-5.8 MEMO

    Perl-5.8 覚え書き Last Updated at $Date: 2005/12/04 04:00:59 $. このページは,Perl-5.8.2 を使う上で困ったことなどの覚え書きです. 日語を含むスクリプトを書く 日語 EUC でスクリプトを書く UTF-8 でスクリプトを書く 日語を含むファイルを開く 連想配列で日語を使う 日語を含む正規表現 文字コードの自動判定 古い Perl でも実行できるように書く 未解決の問題 日語を含むスクリプトを書く Perl-5.8.x で日語を扱うスクリプトを書く場合,大きく2通りの方法があります. 日語 EUC でスクリプトを書く. UTF-8 でスクリプトを書く. どちらの方法でも, (1)ファイル入出力, (2)データベースアクセス, (3)プロセス間通信の3つに気をつけて, 明示的にバイト列を文字列に変換したり,また逆

  • ちゃんとUTF-8 flagを処理する : 404 Blog Not Found

    2005年09月30日14:33 カテゴリLightweight Languages ちゃんとUTF-8 flagを処理する ちょ、ちょっとまったぁ。 naoyaのはてなダイアリー - XML::Parser を Hack して utf8 フラグ問題から解放される ちゃんとやりたい方は、 Unicode::RecursiveDowngrade Object::Apply あたりを使いましょう。 これ、「ちゃんとした」方法って言われちゃうとなあ。 Perl 5 Portersのラフコンセンサスとしては、UTF-8 flagの処理のガイドラインは、 文字列としての処理はflagを付けて バイト列としての処理はflagを落として というもので、翻訳すると 内部で扱いはflag付き 外部に出す寸前でflag落とし ということになります。よって「いつflagを落とすか」は、「出力時」というのが望まし

    ちゃんとUTF-8 flagを処理する : 404 Blog Not Found
    vkgtaro
    vkgtaro 2005/09/30
    「内部で扱いはflag付き」「外部に出す寸前でflag落とし」
  • UTF-8 Flagを落とそうとして思わぬBugを見つけた話 : 404 Blog Not Found

    2005年09月21日15:48 カテゴリLightweight Languages UTF-8 Flagを落とそうとして思わぬBugを見つけた話 これじゃ、駄目。 UTF-8 フラグと戦う人へ - にぽたん研究所 UTF-8 フラグがどうもウザいという人向けにこんな CPAN モジュールがあるそうな。 Unicode::RecursiveDowngrade 以下ダメな点を。 Hash Keyに未対応 Blessed Referenceに未対応 ダメダメいうだけではダメなので、以下、代案....を出そうとしたら、StorableのBugを見つけてしまったかも。 package Unicode::DeepDowngrade; use strict; use warnings; use Storable qw/dclone/; sub new{ bless {} => shift; } sub

    UTF-8 Flagを落とそうとして思わぬBugを見つけた話 : 404 Blog Not Found
    vkgtaro
    vkgtaro 2005/09/22
    $Storable::drop_utf8 はあるけど、設定しても効かないバグ。読んでみようかと思ったけど、XS 全然わからんちん。
  • 日誌 - 2005/1

    #01 元旦 [固定リンク][類似記事検索] 賀正。遅くまで寝、昼前から爆笑ヒットパレードなど見て過ごす。最近は1日から開いてる店も多いので、でかけようかとも思ったが、特に何かあるわけでもないので何もせず、ひたすら家でゴロゴロ。 #02 ラジオ [固定リンク][類似記事検索] 夜、あおむけに寝っころがって、ノートPCを手に持ちつつRADIO KANNADUKIのバックナンバーを一気に聴く。第9回とそれ以降しかアクセスできないのが残念。この態勢でラジオを聞いていると、夜、大阪のMBS、東京のニッポン放送や文化放送、名古屋の東海ラジオの番組をノイズの奥底から聞いていた、中学・高校のころを思い出して懐しくなる。今やBSQRなどの衛星ラジオや、ネットのおかげで距離に関係なくクリアに聴ける。

    vkgtaro
    vkgtaro 2005/07/24
    「CGI.pm って、%xx をデコードするのに chr(hex()) を使っている。」chr の挙動が変わるのね。
  • [Tokyo.pm] [Encode] use encoding made practical!

    Dan Kogai dankogai @ dan.co.jp 2002年 10月 2日 (水) 02:41:31 CDT 前の記事 [Tokyo.pm] 9月例会の報告 次の記事 [Tokyo.pm] Perl Quiz of the week 記事の並び順: [ 日付 ] [ スレッド ] [ 件名 ] [ 著者 ] 弾です。 現在CGIのを書いているのですが(何匹目のどぜう、という言い方もあるけど)、初心者向けとはいえ、やはり日語の扱いを避けるわけにはいかないの はご存じのとおりです。当然 jcode.pl か Jcode.pm を紹介する、というのが今までのやり方でしたが、今回は堂々と Encode も取り上げます。 なぜかって? s/小飼[ \s]弾/Dan Kogai/ が堂々と使えるからです。 とはいうものの、UTF-8でスクリプトを書け、なんてことは、エディタはとにかく端

    vkgtaro
    vkgtaro 2005/07/24
    multipart/form-data を使うと上手く行く?!うーん、わからん。
  • Perl5.8 の UNICODE 対応

    perl は 5.8 から Unicode(utf-8) がサポートされました.5.6 でも Unicode に対応はしていましたが,ぜんぜん使い物にならず,ようやく 5.8 でまともに使えるようになったということです.ただせっかく使えるにもかか わらず perldoc などを見てもイマイチ使い方がわからないので,独自にまと めてみたのがこのページです. 誤った書き方や勘違いをしてい ることもあるので,形式的ですがこのページの内容は無保証です. 内容 文字コード変換 perlIO jperlからの移行 UTF-8フラグ 文字コード自動判別 Unicode Standard Unicode 正規化 その他 参考資料 文字コード変換 とりあえず perl5.8 で新しく組み込まれた機能を見るために,euc-jp から shift_jis への変換スクリプトをいくつか載せます. openを利用し

    vkgtaro
    vkgtaro 2005/07/12
    use encoding 使ってないんだよねぇ・・。Spidering Hacks とかには使って当たり前って書いてあるんだけども。
  • http://www.lost-season.jp/mt/archives/2005/06/templatetoolkit.html

    vkgtaro
    vkgtaro 2005/06/13
    UNICODE ってオプションがついたのか。
  • 1