[B! 文字コード] a_t_o_a_t_oのブックマーク

a_t_o_a_t_o id:a_t_o_a_t_o

文字コードに関するa_t_o_a_t_oのブックマーク (12)

【電子書籍の夜明け】第6回　電子書籍時代の外字問題を探る（1）～文字コード規格とフォントの関係　
a_t_o_a_t_o 2011/07/16
文字

バージョン

コード

文字コード

unicode

国際化
リンク
【電子書籍の夜明け】第7回　電子書籍時代の外字問題を探る（2）～スマートフォンが映し出す「現代の外字」　
a_t_o_a_t_o 2011/07/16
文字

unicode

文字コード
リンク
vimの文字コード関連:set enc、:set fenc - YKMbPP
utf8とutf-8どっちだっけ?とかよく忘れるのでメモ fencはfileencoding、encはencoding 文字コードを変更 (:wしないと変更が保存されない) :set fenc=utf-8 :set fenc=euc-jp :set fenc=iso-2022-jp :set fenc=cp932 ※cp932はshift-jisのこと違う文字コードでファイルを開き直す(文字化けの時に) :e ++enc=utf-8 :e ++enc=euc-jp :e ++enc=iso-2022-jp :e ++enc=cp932 参考 http://www.kawaz.jp/pukiwiki/?vim#s91b6126
a_t_o_a_t_o 2011/05/04
vim

文字コード
リンク
vimエディタで「文字コード、改行コードを変更して保存する。」
vimエディタで、ファイルの文字コード、改行コードを修正、もしくは変更する時の話。ファイルの文字コードや、改行コードを変更する時は、変更したいファイルを開いた状態で、・文字コードの変更 :set fileencoding=文字コード :set fenc=文字コード (上のコマンドの短い形式。こちらでも良い。) :set fileencoding=euc-jp (エンコーディングEUC-JPに変更。) :set fileencoding=shift_jis (エンコーディングSHIFT_JISに変更。) :set fileencoding=utf-8 (エンコーディングUTF-8に変更。) ・ファイルフォーマットの種類の変更 :set fileformat=ファイルフォーマットの種類 :set ff=ファイルフォーマットの種類 (上のコマンドの短い形式。こちらでも良い。) :set f
a_t_o_a_t_o 2011/05/04
vi

vim

文字コード
リンク
日本語文字列コード問題まとめ
【1】文字列コード問題との戦い Pythonに限った話ではないのですが、日本語を取り扱うコードを書いているとやっかいなエンコーディングトラブルに遭う事は少なくないでしょう。エンコーディングトラブルとはコンパイラ・インタプリタがソースコードを解釈できない。画面表示が化ける。意図した入力ができない。エンコード・デコード時にエラーがでる。正しいファイル名のつもりなのにファイルが見つからない。出力させたファイルの中身が読めない。などといった現象を基本としていろんな問題を引き起こします。問題のすべては「コード変換」に発生します。実際の文字列が何のエンコーディングで、渡す先が何のエンコーディングを期待しているか？それらを確認して合致させるように変換をするということが基本です。【2】「Python日本語版が必要」というのは誤解 P
a_t_o_a_t_o 2011/05/04
Python

コード

日本語

文字列

変換

文字コード
リンク
PythonのUnicodeEncodeErrorを知る - HDEラボ
Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ
a_t_o_a_t_o 2011/05/04
unicode

Python

文字コード
リンク
JavascriptのUnicodeをescape/unescape - OVERT MEMO
Unicode エスケープシーケンスをRubyで扱う方法。 module Unicode def escape(str) ary = str.unpack("U*").map!{|i| "\\u#{i.to_s(16)}"} ary.join end UNESCAPE_WORKER_ARRAY = [] def unescape(str) str.gsub(/\\u([0-9a-f]{4})/) { UNESCAPE_WORKER_ARRAY[0] = $1.hex UNESCAPE_WORKER_ARRAY.pack("U") } end module_function :escape, :unescape end require "kconv" utf8_string = "こんにちは".toutf8 escape_string = Unicode.escape(utf8_string
a_t_o_a_t_o 2010/11/09
unicode

文字コード

ruby

escape
リンク
UTF-8のベトナム語から声調記号を落す - elm200 の日記(旧はてなダイアリー)
概要ベトナム語の文字コードは、最近は UTF-8 へ収束しつつあるようだ。ベトナム語の正書法は、アルファベット＋声調記号である。だが、携帯電話やチャットなどの非公式の文章では、声調記号を省略することも多い。このプログラムは、声調記号付きのベトナム語 UTF-8 文字列から、声調記号を落としてプレーンなアルファベットにする。使い方ソースコードを utf8vn_converter.rb　という名前で保存。 require ' utf8vn_converter' UTF8VNConverter.toascii([ベトナム語 UTF-8 文字列]) # => プレーンアルファベットこれだけ。例 UTF8VNConverter.toascii("phát triển") # => phat trien ソースコード class UTF8VNConverter @@map_source =<
a_t_o_a_t_o 2010/09/27
文字コード

ベトナム
リンク
文字コード - kazushi_nakamuraの日記
少なくともWindowsに関しては殆どVistaばかり使っているのにもかかわらず、全然気にしていなかった。知らない間？に、また使える漢字が増えていたのでした。まあ話題になるのはXPと漢字が違って表示される「森鷗外」と「森鴎外」なんかが目立つのですが(Googleで試したら「もしかして？」とやられてしまった）、プログラムの上で気になるのが、「鮭(サケ)」と「𩸽(ホッケ)」。お〜い。君の環境でちゃんと表示されているのだろうか？まあサケのほうは、昔ながらの普通の感じで問題ありません。ホッケの方は、入力時にIMEが環境依存する文字だとちゃんと教えてはくれます。さて、何が問題なのかって？環境依存って何？ホッケはもちろんシフトJISにはありません。そこまでは今までも良くある話でした。ユニコードだから大丈夫とタカをくくっていたわけです。ホッケはユニコードにちゃんと入っています。まあだからV
a_t_o_a_t_o 2010/06/17
文字コード
リンク
波ダッシュ Unicodeに関連する問題 - Wikipedia
波ダッシュ（なみダッシュ、wave dash[注釈 1]）とは、日本語表記における約物のひとつで、波線「」（はせん、なみせん）を指している。ダッシュ記号（—）の波形であることからそう呼ばれる[注釈 2]。日本語における用法の多くはダッシュ記号としての用法と長音符としての用法であり、中国語でも長音符などとして使われることがある。 Windows XP等における日本語環境下では、表示字形が「」ではなく、波形の反転した「」に変わってしまう問題が発生していた[注釈 3]。これに付随して、波ダッシュの代用として音声記号等として用いられる全角チルダが不適切に使われることがあるため、混乱の元となっている[1][注釈 4]。波ダッシュは、範囲を表すために用いられる[注釈 5]。場所に対して: 東京〜大阪時間に対して: 5時〜6時（もしくは5〜6時）数量に対して: 100人〜150人（もしくは10
a_t_o_a_t_o 2010/06/07
資料

文字コード

～
リンク
新フォント環境 - Windows 7 対応アプリケーションの互換性
4. 新機能や機能変更に伴う互換性問題この章では、以下のような新機能や機能変更に伴う、互換性問題について紹介します。 4.1 リソースの管理 4.2 整合性レベル (IL) によるオブジェクトへのアクセス制御 4.3 ユーザーアカウント制御 (UAC: User Account Control) 4.4 ユーザーインターフェイス特権の分離 (UIPI) 4.5 Internet Explorer のセキュリティ機能 4.6 Windows リソース保護 (WRP) 4.7 セッション 0 の分離 4.8 ファイルマッピングオブジェクト 4.9 新フォント環境 4.10 プログラムの互換性アシスタント(PCA) 4.11 Internet Explorer 8 の標準準拠 4.12 DEP/NX の既定値 4.13 Windows メールの削除 4.14 容易な High DPI
a_t_o_a_t_o 2010/06/06
windows

文字コード
リンク
Vista で導入される JIS X 0213:2004(JIS2004) のまとめ（お勉強編）
「日本語文字セットがVista最大の問題として急浮上：ITpro」　が初めのネタになったのですが、なかなか時間もとれず、この記事を書き始めてはや３週間も経ってしまいました・・・orz Windows Vistaは、新しい文字セットに関するJIS規格「JIS X 0213:2004」に準拠した日本語フォントを標準で搭載する。これにより、既存の漢字のうち122文字の字形が変更になり、約900文字の漢字、約200文字の非漢字（英語の発音記号や記号、アイヌ文字など）が新たに表示可能になる。〜中略〜さらに、追加される新しい文字の一部をUnicodeで表現すると、通常の2バイトではなく4バイトで表現されるものがある。をみて、SJIS → UTF-8 → SJIS とかやると文字化けするものとかでるじゃん！大丈夫だっけ？大丈夫じゃなかったら、どんな対策をとったらいいんだっけ？ってのを考察しています
a_t_o_a_t_o 2010/06/06
windows

文字コード

JIS2004
リンク
1