タグ

文字コードに関するdakahiiiiiのブックマーク (2)

  • 文字コード変換ミスによる文字化けパターンと想定される原因 - drk7jp

    とあるシステムでデータベースから引いてきたデータの表示が文字化けするという不具合がありました。 データベース内のデータとしては文字化けしていない状態で格納されていることはわかっていたので、どこかしらの文字変換で化けていることはわかっています。まずはどの誤変換により文字化けするのか原因切り分けのために、decode/encode の組み合わせによる文字化けパターン一覧を作りました。おかげさまでどのパターンに類するものか判別することができ、無事に改修することができました。 その話はまた別にするとして、今も昔も変わらず文字化けに悩む人は意外と多いと思います。誤変換結果一覧は原因解析の参考になると思い、記事としてまとめることにしました。 文字コード変換ミスによる文字化けパターンを可視化するプログラムと一覧表 まずは誤変換を生成する perl スクリプトです。プログラムはとっても簡単で、「文字化けで

  • 文字コードと改行コード | UNIX & Linux コマンド・シェルスクリプト リファレンス

    文字コードと改行コード 文字コード 古くから UNIX の日語環境では EUC-JP が標準の文字コードとして使用されてきたが、近年の多く普及している Linux の日語環境は UTF-8 が一般的になっている。さらに Windows では Shift-JIS が標準であるため、これらの環境を同時に使用している場合は、文字コードへの理解と各種文字コードの相互変換作業が必要となってくる。 使用されている文字コードを調べる →使用されている文字コードを調べるには nkf コマンドの -g オプションを使用する。 ファイルなどに使用されている文字コードを調べるには、後述する文字コードの変換に使用する nkf コマンドの -g オプションを使用する。 実際に文字コードの判別を行ってみる。 $ nkf -g sjis.txt Shift_JIS #↑sjis.txt は Shift-JIS で保

    文字コードと改行コード | UNIX & Linux コマンド・シェルスクリプト リファレンス
  • 1