[B! unicode][encoding] clavierのブックマーク

７.２ ASCII の NUL と DEL の本来の意味 - 文字コードに関する覚え書きと実験

文字コードについて調べたことや実験したこと，テストプログラム，データファイルなどを随時掲載する予定です．ただし筆者の理解不足や誤解により誤りがあるかもしれませんので，ご利用は自己責任で．このページの主な更新は Blog でお知らせします．表示確認ブラウザ：FireFox 22.0，IE8．０．目次シフトJIS Shift_JIS と Windows-31J (CP932) の違いシフトJIS ２バイト文字の判定謎の検索ワード集 (シフトJIS編) 「Shift_JIS(SJIS，Windows-31J，CP932) ３バイト文字」「Shift_JIS(SJIS，Windows-31J，CP932) サロゲート(ペア)」「UTF-8 4バイト文字 Shift_JIS(SJIS，Windows-31J，CP932) 変換」「Unicode(UTF-8，UTF-16) か

clavier 2015/03/03

リンク

U+FFFF以上の文字ってなんや　→　サロゲートペアってなんや　→　Spring Web Services が言うことを聞きません！　とかで一日潰れた話 - エンジニア的なネタを毎週書くブログ

表題のような感じなのですが、これまで理解が曖昧だったUnicodeとか何とかが今までよりわかったのでメモ。尚、こちらのサイトを非常に参考にさせていただきました。 Unicodeについてコードポイントとは　文字コードとは今日覚えた単語その一。Unicodeに限らず、文字をコンピュータ上で表現する際、1つの文字に1つの数値を対応させるわけですが、この文字に対応する数値をコードポイントというそう。いままでASCIIコードとか呼んでました。そして、文字と数値の割り当てのルールのことを「文字コード」と言うんだそうです。 Unicodeとは　から　UTF-XXは何が違うんじゃ　という話へ Unicode誕生文字コードが乱立したため、あるコードポイントで表現される文字が、文字コードによって、てんでばらばらという状況に。ややこしいから、ひとつの統一した文字コードをつくろう！　ということで「U

clavier 2014/09/17

リンク

python2.xでの日本語(マルチバイト文字)問題を一掃する！(その１) — ExSoft

python2.xを使い始めて、必ずと言って良いほど遭遇するのが日本語(マルチバイト)関連の問題です。ネットで同様のケースを調べて、あまり理解をせずに、対処療法的にその場の問題を回避している人も多いように思いますが、一度腰を据えて理解すれば、それほど難しくないですし、python以外の言語にも応用ができます。マルチバイト問題については、概念だけではなく、実際に手を動かし、目で確かめる(文字コードそのものを見る)事が重要です。今回は、python2.xで遭遇する文字コード関連のエラーを実際に発生させ、その理由を理解した上で対処を行ってみましょう。文字コードの定義ケース１ [ 再現 ] pythonスクリプトファイルのencodingをcp932にし、以下を記述します。 ustr = u'い' [ 現象 ] SyntaxError: Non-ASCII character '\x8

clavier 2014/03/01

リンク

PythonのUnicodeEncodeErrorを知る - HDEラボ

Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ

clavier 2014/03/01

リンク

Ruby にて文字と Unicode コードポイントの相互変換を行う - vivid memo

Unicode のコードポイントを指定して文字を得たり、逆にある文字のコードポイントを調べたり、ということをする機会は結構多いと思います。が、Ruby でそれをやる方法をぐぐってもあまり上位に情報が出てこないなー、と思ったので簡単にまとめておきます。 Unicode コードポイントとはそもそも Unicode コードポイントとは何か。 Unicode というのは世界中の文字が集められた文字集合であり、Unicode に収録されている文字には順番に番号が振られています。この番号のことをコードポイントといいます。あるコードポイントが指す文字を表現するときに "U+" という文字の後ろに 16 進数表記のコードポイントを書いて表すことがあります。例えば、コードポイント 0x3041 が指す文字 (ひらがなの「あ」) を U+3041 と書いて表します。各文字とコードポイントの関係は

clavier 2014/02/06

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

unicodeとencodingに関するclavierのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (9)

unicodeとencodingに関するclavierのブックマーク (5)

７.２ ASCII の NUL と DEL の本来の意味 - 文字コードに関する覚え書きと実験

U+FFFF以上の文字ってなんや → サロゲートペアってなんや → Spring Web Services が言うことを聞きません！ とかで一日潰れた話 - エンジニア的なネタを毎週書くブログ

python2.xでの日本語(マルチバイト文字)問題を一掃する！(その１) — ExSoft

PythonのUnicodeEncodeErrorを知る - HDEラボ

Ruby にて文字と Unicode コードポイントの相互変換を行う - vivid memo

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

U+FFFF以上の文字ってなんや　→　サロゲートペアってなんや　→　Spring Web Services が言うことを聞きません！　とかで一日潰れた話 - エンジニア的なネタを毎週書くブログ