タグ

tipsとunicodeに関するyifeのブックマーク (3)

  • 合成用区分符号 - 備忘録のような何か

    <2013.01.21追記> スマホからこのページ見てみると、 意図したとおりに表示されてないことに気がつきました^^; 表示がおかしい箇所については画像にして置き換えています。 ブラウザが対応してないんでしょうかね? 文字コードの問題にはいつも悩まされます。。。 から「Twitterで行をはみ出した顔文字があるんだけど、これはなに?」 と聞かれました。 どれどれと見てみると、 なんだこれは?私も初めて見ました。 調べてる過程で見つけた情報はかなり前のものもあったので こういうもの自体はずっと前から使用されてたんでしょう。 私の目には止まらなかっただけで。 で、調べた結果これは「合成用区分符号」というものが使われている模様。 合成用区分符号の正体は UnicodeでCombining Diacritical Marksと呼ばれる一連のコード (U+0300からU+036Fまで) のことら

  • python2.xでの日本語(マルチバイト文字)問題を一掃する!(その1) — ExSoft

    python2.xを使い始めて、必ずと言って良いほど遭遇するのが日語(マルチバイト)関連の問題です。 ネットで同様のケースを調べて、あまり理解をせずに、対処療法的にその場の問題を回避している人も多いように思いますが、一度腰を据えて理解すれば、それほど難しくないですし、python以外の言語にも応用ができます。 マルチバイト問題については、概念だけではなく、実際に手を動かし、目で確かめる(文字コードそのものを見る)事が重要です。 今回は、python2.xで遭遇する文字コード関連のエラーを実際に発生させ、その理由を理解した上で対処を行ってみましょう。 文字コードの定義 ケース1 [ 再現 ] pythonスクリプトファイルのencodingをcp932にし、以下を記述します。 ustr = u'い' [ 現象 ] SyntaxError: Non-ASCII character '\x8

  • UnicodeとUTF-8の違いは? - Humanity

    という2chのスレがかなり勉強になったのでまとめ。 少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合?)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。 たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記:簡単にまとめました。 1 :デフォルトの名無しさん:2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 :デフォルトの名無しさん:2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 :デフォルトの名無しさん:2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 :デフォルトの名無しさん:2007/04/

    UnicodeとUTF-8の違いは? - Humanity
  • 1