タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

unicodeとdecodeに関するsuisuina0823のブックマーク (1)

  • 日本語文字コードの判別 - Linux関連 - 博客频道 - CSDN.NET

    1.最初に 昔から言われていることなのですが 日語の文字コード判別は非常に難しいです それの原因のひとつにSJIS・EUCにおける半角カナが互いのコード領域に完全に被っているためです そのためインターネットの掲示板などでは半角カナを使うことはある意味ルール違反だったりします でも実際のところは2ちゃんねるとかは半角カナであふれているわけですが・・・ では半角カナにさせつつ文字コードを判別するにはどうすればいいでしょうか? 今回はISO-2022-JP(JIS) SJIS(SHIFT_JIS) EUC UTF-8 UTF-8Nでの判別について解説します 実際の活用例はこちら(文字コード判別・変換クラス)へ 2.ISO-2022-JPの解説 いわゆるエスケープシーケンス(以下ESC)を利用して使う文字コードを変えていく形式です そのため漢字やひらがなを使うたびにESCが発生します ESCは最

  • 1