タグ

文字コードに関するhizousのブックマーク (4)

  • memo.xight.org - PHPの文字化け - 5つの誤解と5つの対策

    Summary 設定すべき項目は以下. ;; Disable Output Buffering output_buffering = Off ;; Set HTTP header charset ; default_charset = EUC-JP ;; Set default language to Japanese mbstring.language = Japanese ;; HTTP input encoding translation is enabled. mbstring.encoding_translation = off ;; Set HTTP input encoding conversion to auto mbstring.http_input = pass ;; Convert HTTP output to EUC-JP mbstring.http_output

  • Web便利ツール/URLエンコード・デコードフォーム - TAG index Webサイト

    URLエンコードとデコードが行えるフォームです。 URLエンコード、またはデコードのフォームに文字列を入力し、変換用のボタンをクリックしてください。 エンコードする文字を細かく設定したい場合は「URL Encode Tool(試験運用中)」をご利用ください。

    Web便利ツール/URLエンコード・デコードフォーム - TAG index Webサイト
  • UTF-8 - Wikipedia

    UTF-8(ユーティーエフはち、ユーティーエフエイト)はISO/IEC 10646 (UCS) とUnicodeで使える8ビット符号単位(1–4バイトの可変長)の文字符号化形式および文字符号化スキーム。 正式名称は、ISO/IEC 10646では “UCS Transformation Format 8”、Unicodeでは “Unicode Transformation Format-8” という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある[1]。 2バイト目以降に「/」などのASCII文字が現れないように工夫されていることから、UTF-FSS (File System Safe) ともいわれる。旧名称はUTF-2。 UTF-8は、データ交換方式・ファイル形式として一般的に使われる傾向にある。 当初は、ベル研究所においてPlan

    hizous
    hizous 2008/01/10
    「UTF-8のBOMを認識しないプログラムでは、BOMが余分なデータとみなされて問題となる場合もある。逆にBOMがないとUTF-8と認識できないプログラムも存在する。」
  • 国際化/生データを文字列に変換する

    Javaの国際化プログラミングパラダイムでは、シフトJISやEUCなどUnicode以外のコード系のテキストはバイナリデータとして扱われ、Javaプログラム内に取り込む時にUnicodeに変換され、Stringとして扱うことができるようになります。 これが基ですが、まれにシフトJISやEUCのコードがStringにまぎれ込むことがあります。 これはサーブレットやJDBCの一部のドライバなど国際化への対応が行われていない入出力機能を使用した場合に起こります。 このような場合、シフトJISやEUCのコードが無理矢理ASCIIコードとしてUnicodeに変換されています。 サーブレットやJDBCで日語を扱う場合に苦労するのは、まさにこの点です。 質的な解はもちろんサーブレットやJDBCドライバの中で日語コードを正しく扱うことですが、これはベンダに依存することであり、アプリケーションプログ

  • 1