タグ

ブックマーク / 7io.org (1)

  • 統計学の力を借りて、文字化け退散! 解決&高速化編 | 月と燃素と、ひと匙の砂糖

    前回までのあらすじ。 文字化けをどうにかしたい。 それぞれのエンコードは、バイトとバイトのつながりに特徴がある。(数バイトで一文字表すから) これを、ベクトルに見立てて、それぞれの「角度」を調べて、一番近いので分類してみた。 ある場合†1について、エンコードに含まれるASCII部分が邪魔をして推定成功率がいまいち←イマココ! ■単純に除いてみる だけ! 前回、RFCの全データを使って作ったASCIIのデータがありました。これがASCIIの使われている領域ですから、これを判断に使わなきゃ良いんじゃないの? …というわけで、ASCII部分を除外して作ってみた各エンコードの画像がこちら。(クリックすると拡大します、ぜひクリックしてみてください) ASCIIと使用領域がかぶっているISO-2022-JP(JIS)でもちゃんと要素が残っているので、使えそうです。 かなり安直な方法†2ですが、とりあえ

    teppeis
    teppeis 2011/11/07
    コサイン類似度で文字コード判別する試み。ありそうでなかった?
  • 1