CNNによる文字コード不明なドキュメントの推定 Advent Calender遅刻いい訳 年末忙しすぎた ネタと期待していたいくつかがまともに結果が出ずに苦しい思いをしていた 元URLの喪失 バイト列から文字コーディングを推定する Twitterで時々バズるネタとして、機械学習がこれほどもてはやされるのに、今だにBrowserは時々文字化けし、ExcelはUTF8を突っ込むと文字化けし、到底、文化的で最低限の人権が保護された状態ではありません。 実際、ルールベースで推定しようとすると、この様にshift jisとeucでは完全に背反な情報を使っているわけでないので、なんらかのヒューリスティックなルールを人間が作成して対応していたのだと思いますが、この様なユースケースの場合、機械学習が強い力を発揮します。 図1. sjisとeucの文字コードのバイト列のマップ(参考:smdn) その度、「そ
![CNNによる文字コード不明なドキュメントの推定 - にほんごのれんしゅう](https://cdn-ak-scissors.b.st-hatena.com/image/square/2817fcc24d339089b88835739518663f5b5e4c3c/height=288;version=1;width=512/https%3A%2F%2Fuser-images.githubusercontent.com%2F4949982%2F34660585-c467dd82-f486-11e7-8ed6-0dfd47c912fe.png)