teppeisのブックマーク - はてなブックマーク

teppeis id:teppeis

ブックマーク / 7io.org (1)

統計学の力を借りて、文字化け退散！　解決＆高速化編 | 月と燃素と、ひと匙の砂糖
前回までのあらすじ。文字化けをどうにかしたい。それぞれのエンコードは、バイトとバイトのつながりに特徴がある。（数バイトで一文字表すから）これを、ベクトルに見立てて、それぞれの「角度」を調べて、一番近いので分類してみた。ある場合†1について、エンコードに含まれるASCII部分が邪魔をして推定成功率がいまいち←イマココ！ ■単純に除いてみる　だけ！前回、RFCの全データを使って作ったASCIIのデータがありました。これがASCIIの使われている領域ですから、これを判断に使わなきゃ良いんじゃないの？ …というわけで、ASCII部分を除外して作ってみた各エンコードの画像がこちら。（クリックすると拡大します、ぜひクリックしてみてください） ASCIIと使用領域がかぶっているISO-2022-JP(JIS)でもちゃんと要素が残っているので、使えそうです。かなり安直な方法†2ですが、とりあえ
teppeis 2011/11/07
コサイン類似度で文字コード判別する試み。ありそうでなかった？

encoding

statistics
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx