タグ

encodeに関するhogemのブックマーク (4)

  • 文字化け - odz buffer

    ref:PHPの文字化けを気で解決する - ぎじゅっやさん via:よくきたはてダ - 惜しいが間違っている 上鍵さんからツッコミが入ってますが、別の点を。 先ほどの例の時にも書いたが、PHPには内部エンコードという概念は存在しない。ではmbstring.internal_encodingとは何なのか。これは mbstring関数のデフォルトエンコード なだけである。 しかし、変換元が固定になるというのは重要なことなので、 これはソースコードと揃えておくのがBetter。 変換元て。mbstring の関数てエンコーディング変換だけじゃないんだけどなぁ。mb_strlen だって mb_ereg 系の関数だってデフォルトのエンコーディングは mbstring.internal_encoding になるわけで、ソースコードと揃えるのは「Better」というより「原則」だろう。全ての mbs

    文字化け - odz buffer
  • 404 Blog Not Found:perl - Encode 入門

    2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門 すでにOSCONでもYAPCでも、あちこちそちこちでこの基方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改め だまってコードを書けよハゲ 入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです!とにかくこの基方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

    404 Blog Not Found:perl - Encode 入門
  • Perl の多言語処理 -- Perl ヒント集 (ja)

    エンコードの処理の基 Perl 5.8 以降,テキストの処理が UTF-8 (Unicode の変換形式のひとつ) を軸におこなわれるようになりました。Shift JIS や EUC-JP での処理が一般的な日語を Perl で扱う場合,エンコードを意識したプログラミングをおこなうことが必要になります。具体的には,Perl でエンコードを意識する必要のあるのは以下の箇所です。 スクリプト自体のエンコード ファイルの入出力 標準入出力 標準エラー出力 データベース,CGIなどプロセス間のインターフェース Perl 5.8 では内部処理が UTF-8 で行われますが,特にエンコードの指定がされない場合,テキストは文字単位ではなく,バイト単位で処理されます。バイト単位で Shift JIS などのテキストを処理することもある程度可能ですが,2バイトの文字が文字として認識されていませんから,正

  • 日本語文字セットがVista最大の問題として急浮上

    「どこでどういった問題が起こるのか分からない。まさかデータベースが壊れるということはないと思うが」――。国内大手ベンダーの幹部は不安そうに話す。この幹部が懸念するのは、Windows Vistaで採用された新文字セットの情報システムへの影響である。別の大手ベンダーのシステム構築部門も、「情報システムのクライアントとしてVistaを見た場合、最大の問題は日語の文字セットだ。現在、共通の基盤技術セクションで影響を調査している」という。 企業向けVistaの出荷開始を目前に控え、Vistaの新文字セット採用が大きな問題として浮上してきた。 Windows Vistaは、新しい文字セットに関するJIS規格「JIS X 0213:2004」に準拠した日フォントを標準で搭載する。これにより、既存の漢字のうち122文字の字形が変更になり、約900文字の漢字、約200文字の非漢字(英語の発音記号や記

    日本語文字セットがVista最大の問題として急浮上
  • 1