[B! mojibake] rikubaのブックマーク

rikuba id:rikuba

mojibakeに関するrikubaのブックマーク (2)

対象文字列が文字化けしているかどうか条件分岐。日本語が含まれているかどうかの判定？
日本語が含まれているかどうか判定すれば良い？この時、「文字化け」している文字が混ざっているかどうか判定する方法はあるでしょうか？結論から言うと、アルゴリズミックに確実に判定するのは不可能でしょう。一番大きな理由としては、下記の推測の過程に挙げましたが「一部の情報が欠落しているから」です。文字化け例 ã»ã¯ã¬ã¸ããã«ã¼ã ちなみに、この文字化けはどういう原因かこれだけから推測可能ですか？経験と勘で推測する(guess)のであれば、・元文字列は「・クレジットカード」・エンコーディングはUTF-8 ・文字化けの原因は、UTF-8のバイト列をISO-8859-1として解釈し、さらに一部の制御コードが欠落したと言うことになります。ざっくりと、推測の過程を示しておきます。「文字化け」の文字列をISO-8859-1(Latin1)エンコーディングでバイト列に変換してみる日本
rikuba 2021/05/03
character encoding

mojibake
リンク
Pythonのchardetモジュールが、"testあ"という文字列（UTF-8）の文字コードを"Windows-1254"だと判定する
"testあ"のUTF-8表現は、74 65 73 74 e3 81 82 (1バイトデータの表記は全部16進、以下同様, python3風に書くとb'\x74\x65\x73\x74\xe3\x81\x82')で、chardetが判定するのは「文字列」ではなく、このバイト列です。ちなみにこのバイト列をUTF-8, Shift_JIS, EUC-JP, ISO-8859-1, Code Page 437, Windows-1254で解釈すると、以下のようになります。 UTF-8 testあ (まぁ、当たり前) Shift_JIS (不正) EUC-JP (不正) ISO-8859-1 testã (81 82 は制御コードにあたるので見えないが不正ではない) CP437 testπüé Win1254 testã‚ (81は未定義なので本来は不正、chardetは未定義にあたるバイトが現
rikuba 2021/05/03
character encoding

mojibake
リンク
1