タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

文字コードとjavaに関するpaselaのブックマーク (2)

  • Unicodeの似た文字を整理してみた - y-kawazの日記

    XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。 文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。 ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル 表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。 見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。 分かりやすいよう、青は文字化けなし、黄

    Unicodeの似た文字を整理してみた - y-kawazの日記
  • 「~」徹底解析

    今回のテーマはずばり、「~」文字についてです。 この文字による文字化けで悩まされたことのある人も多いはずです。 実は2種類 なぜこの文字がそんなにややこしいかというと、 実はこの「~」には2種類の文字があるのです。 Type A : Type B : 若干違いますね。 通常見慣れているのはType Aの方でしょうか。 文字コードによる違い Windows-31J (MS932) Windowsが標準で採用している文字コードです。 後述しますが、これは「Shift_JIS」とは異なるものです。 ほとんど似てはいますが、少しでも異なるという事は 全く違うものだという認識をしておいた方が良いでしょう。 この文字コードでは、Type A は表現できますが Type B は表現できません。 つまり、ほとんどの人がType A の「~」しか知らないわけです。 Shift_JIS JIS X 0208で

  • 1