utf8とutf-8どっちだっけ?とかよく忘れるのでメモ fencはfileencoding、encはencoding 文字コードを変更 (:wしないと変更が保存されない) :set fenc=utf-8 :set fenc=euc-jp :set fenc=iso-2022-jp :set fenc=cp932 ※cp932はshift-jisのこと 違う文字コードでファイルを開き直す(文字化けの時に) :e ++enc=utf-8 :e ++enc=euc-jp :e ++enc=iso-2022-jp :e ++enc=cp932 参考 http://www.kawaz.jp/pukiwiki/?vim#s91b6126
vimエディタで、ファイルの文字コード、改行コードを修正、もしくは変更する時の話。 ファイルの文字コードや、改行コードを変更する時は、 変更したいファイルを開いた状態で、 ・文字コードの変更 :set fileencoding=文字コード :set fenc=文字コード (上のコマンドの短い形式。こちらでも良い。) :set fileencoding=euc-jp (エンコーディングEUC-JPに変更。) :set fileencoding=shift_jis (エンコーディングSHIFT_JISに変更。) :set fileencoding=utf-8 (エンコーディングUTF-8に変更。) ・ファイルフォーマットの種類の変更 :set fileformat=ファイルフォーマットの種類 :set ff=ファイルフォーマットの種類 (上のコマンドの短い形式。こちらでも良い。) :set f
【1】 文字列コード問題との戦い Pythonに限った話ではないのですが、 日本語を取り扱うコードを書いていると やっかいなエンコーディングトラブルに遭う事は少なくないでしょう。 エンコーディングトラブルとは コンパイラ・インタプリタがソースコードを解釈できない。 画面表示が化ける。 意図した入力ができない。 エンコード・デコード時にエラーがでる。 正しいファイル名のつもりなのにファイルが見つからない。 出力させたファイルの中身が読めない。 などといった現象を基本としていろんな問題を引き起こします。 問題のすべては「コード変換」に発生します。 実際の文字列が何のエンコーディングで、 渡す先が何のエンコーディングを期待しているか? それらを確認して合致させるように変換をするということが基本です。 【2】 「Python日本語版が必要」というのは誤解 P
Pythonにはじめて触って、いつのまにか1年が過ぎたのですが、一番はまったのは、やっぱりunicodeの扱いだったと思います。 特に、 UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-12: ordinal not in range(128) のようなエラーにはさんざん悩まされました。ここがたとえばrubyなど他の言語と比べてわかりにくいために、Pythonが取っつきにくい言語になっているのではないか、と個人的には思います。 そこで、このエラーに関係するはまりどころとTipsをいくつか列挙してみました。これからPythonに触れられる方の参考になればと思います。 なお、環境はUNIX上のPython 2.4, 2.5を想定しています。 u1はunicode型で、s1はstr型です。s1にどのよ
Unicode エスケープシーケンスをRubyで扱う方法。 module Unicode def escape(str) ary = str.unpack("U*").map!{|i| "\\u#{i.to_s(16)}"} ary.join end UNESCAPE_WORKER_ARRAY = [] def unescape(str) str.gsub(/\\u([0-9a-f]{4})/) { UNESCAPE_WORKER_ARRAY[0] = $1.hex UNESCAPE_WORKER_ARRAY.pack("U") } end module_function :escape, :unescape end require "kconv" utf8_string = "こんにちは".toutf8 escape_string = Unicode.escape(utf8_string
概要 ベトナム語の文字コードは、最近は UTF-8 へ収束しつつあるようだ。ベトナム語の正書法は、アルファベット+声調記号である。だが、携帯電話やチャットなどの非公式の文章では、声調記号を省略することも多い。このプログラムは、声調記号付きのベトナム語 UTF-8 文字列から、声調記号を落としてプレーンなアルファベットにする。 使い方 ソースコードを utf8vn_converter.rb という名前で保存。 require ' utf8vn_converter' UTF8VNConverter.toascii([ベトナム語 UTF-8 文字列]) # => プレーンアルファベット これだけ。 例 UTF8VNConverter.toascii("phát triển") # => phat trien ソースコード class UTF8VNConverter @@map_source =<
少なくともWindowsに関しては殆どVistaばかり使っているのにもかかわらず、全然気にしていなかった。 知らない間?に、また使える漢字が増えていたのでした。 まあ話題になるのはXPと漢字が違って表示される「森鷗外」と「森鴎外」なんかが目立つのですが(Googleで試したら「もしかして?」とやられてしまった)、プログラムの上で気になるのが、「鮭(サケ)」と「𩸽(ホッケ)」。 お〜い。君の環境でちゃんと表示されているのだろうか? まあサケのほうは、昔ながらの普通の感じで問題ありません。ホッケの方は、入力時にIMEが環境依存する文字だとちゃんと教えてはくれます。 さて、何が問題なのかって?環境依存って何? ホッケはもちろんシフトJISにはありません。そこまでは今までも良くある話でした。ユニコードだから大丈夫とタカをくくっていたわけです。ホッケはユニコードにちゃんと入っています。まあだからV
波ダッシュ(なみダッシュ、wave dash[注釈 1])とは、日本語表記における約物のひとつで、波線「」(はせん、なみせん)を指している。ダッシュ記号(—)の波形であることからそう呼ばれる[注釈 2]。 日本語における用法の多くはダッシュ記号としての用法と長音符としての用法であり、中国語でも長音符などとして使われることがある。 Windows XP等における日本語環境下では、表示字形が「」ではなく、波形の反転した「」に変わってしまう問題が発生していた[注釈 3]。これに付随して、波ダッシュの代用として音声記号等として用いられる全角チルダが不適切に使われることがあるため、混乱の元となっている[1][注釈 4]。 波ダッシュは、範囲を表すために用いられる[注釈 5]。 場所に対して: 東京〜大阪 時間に対して: 5時〜6時(もしくは5〜6時) 数量に対して: 100人〜150人(もしくは10
4. 新機能や機能変更に伴う互換性問題 この章では、以下のような新機能や機能変更に伴う、互換性問題について紹介します。 4.1 リソースの管理 4.2 整合性レベル (IL) によるオブジェクトへのアクセス制御 4.3 ユーザー アカウント制御 (UAC: User Account Control) 4.4 ユーザー インターフェイス特権の分離 (UIPI) 4.5 Internet Explorer のセキュリティ機能 4.6 Windows リソース保護 (WRP) 4.7 セッション 0 の分離 4.8 ファイル マッピング オブジェクト 4.9 新フォント環境 4.10 プログラムの互換性アシスタント(PCA) 4.11 Internet Explorer 8 の標準準拠 4.12 DEP/NX の既定値 4.13 Windows メールの削除 4.14 容易な High DPI
「日本語文字セットがVista最大の問題として急浮上:ITpro」 が初めのネタになったのですが、なかなか時間もとれず、この記事を書き始めてはや3週間も経ってしまいました・・・orz Windows Vistaは、新しい文字セットに関するJIS規格「JIS X 0213:2004」に準拠した日本語フォントを標準で搭載する。これにより、既存の漢字のうち122文字の字形が変更になり、約900文字の漢字、約200文字の非漢字(英語の発音記号や記号、アイヌ文字など)が新たに表示可能になる。 〜中略〜 さらに、追加される新しい文字の一部をUnicodeで表現すると、通常の2バイトではなく4バイトで表現されるものがある。 をみて、SJIS → UTF-8 → SJIS とかやると文字化けするものとかでるじゃん!大丈夫だっけ?大丈夫じゃなかったら、どんな対策をとったらいいんだっけ?ってのを考察しています
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く