タグ

文字コードに関するyuya_ryunoのブックマーク (4)

  • 携帯の文字コードと絵文字の基礎知識 Mobile/Encoding - CodeRepos::Share - Trac

    携帯の文字コードと絵文字の基礎知識 説明 これは日の携帯電話の文字コードと絵文字まわりの仕様をまとめた資料です。Encode::JP::Mobile の開発の中で作成されました。 記述に関してはできるだけ公式資料の URL を併記していますので合わせて参照してください。公式資料に言及されていない内容については [unofficial] を併記してあります。 修正・追記歓迎です。 DoCoMo 絵文字リスト: 基 http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/basic/index.html 拡張 http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/extention/index.html DoCoMo Web 表示できる c

  • Servlet/JSP講座-ハイフンなどの文字化けについて

    1.状況 MySQLの旧バージョン(3.52)を利用していた時は、Java(JSP)でDBに漢字を含む項目値を設定する時にはコード変換を設定していました。 4.0にバージョンアップした時に全ての漢字項目が表示できなくなったので、慌ててMySQLの環境設定にデフォルトのコードをShift_JISとして設定することで表示はされました。 ただこの時に今までのコード変換がただ単に漢字を表示させるための手段と勘違いしてしまい、プログラム中の全てのコード変換を削除してしまいました。 たまたま住所の番地は全て半角の数字とハイフンだったので気が付きませんでしたが、今回全角ハイフンを入力してみて"?"になり文字化けに気が付きました。 2.原因と対処 原因はJavaでの内部的な文字表現は Unicode が使われており、それぞれの国やOSのデフォルトのエンコーディングから Unicode への

  • ruby|perl - 文字コードのちょっと高度な判定 : 404 Blog Not Found

    2007年01月11日21:00 カテゴリLightweight Languages ruby|perl - 文字コードのちょっと高度な判定 これははっきり言って悩ましい。ですが、判定が曖昧な場合はその旨をきちんと通知するのがBetter Practiceではないかと思います。 Matzにっき(2007-01-03) 手元のcalkiがUTF-8の「》」相当の文字(U+8BB)を含むエントリが文字化けするので、 nkf-utf8のソースを見てみた。 どうも自動判定の優先順位がEUC-JP,SJIS,JIS,UTF-8で固定されていて、 EUCの範囲内に収まる文字列はすべてEUC-JPとみなすことになっている。 で、UTF-8の「》」はEUC-JPの「損」と同じバイト列なのだ。例えば、以下を行ごとにコード判定すると、以下のような結果になります。 son.utf8 » 損 »損 »Son nk

    ruby|perl - 文字コードのちょっと高度な判定 : 404 Blog Not Found
  • Unicode - 似た文字同士にご用心 : 404 Blog Not Found

    2008年05月02日04:00 カテゴリLightweight Languages Unicode - 似た文字同士にご用心 後者はハイフンでなくてマイナス記号でんがな。 [を] UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ で、元のテキストファイルの全角ハイフンを「od -t x1」 で見てみると「ef bc 8d」と「e2 88 92」の2種類が混じっていました。 前者は「\p{Hyphen}」にマッチするのですが後者はダメ。 まあ原因は分かったので、前処理でバイナリ置換して解決しました。 で、紛らわしそうなのを名前のHYPHENとMINUS SIGNでgrepするとこんな感じになる。 egrep '(HYPHEN|MINUS SIGN)' /usr/local/lib/perl5/5.10.0/unicore/Name.pl -002DHYPHEN-MI

    Unicode - 似た文字同士にご用心 : 404 Blog Not Found
  • 1