タグ

UTF-8とutf-8に関するkarukanのブックマーク (4)

  • viで日本語の文字コードを自動判別 - 玉虫色に染まれ!!

    今日は以前の「Ubuntuのvimを快適にする」の続きとして、今日は文字コードの自動判別の設定を紹介します。 最近のディストリビューションでは、デフォルトのロケールが UTF-8 になっているので、CJKフォント(China, Japan, Korea……要はアジア系文字のフォント)さえ入っていれば、いちいちロケールを切り替えなくても、日語でも韓国語でも表示できてしまいます。なので、コマンドの出力などでは、特に意識しなくとも、文字化けすることは殆どありません。 vimも標準で文字コードの自動判別や変換に対応していますので、どのような文字コードで書かれたファイルでもきちんと読み書きできるのですが、自動判別を上手く効かせるためには、多少設定してやる必要があります。 .vimrc の設定 私が使っている自動判別の設定は以下の通りです。~/.vimrc ファイルの末尾に追加してみてください。 :

    viで日本語の文字コードを自動判別 - 玉虫色に染まれ!!
  • UTF-8 - Wikipedia

    * 第1バイトがE0のときに第2バイトが80-9Fの範囲を、または同F0のときに80-8Fの範囲を取るものは冗長な符号化となるため許されない。第1バイトがEDのときに第2バイトがA0以上となるものはサロゲートペアのための符号位置にあたり、また同F4のときに90以上となるものはUnicodeの範囲外となるため、UTF-8ではやはり許されない。 Unicodeの符号位置を2進表記したものを、上のビットパターンのx, yに右詰めに格納する(最少のバイト数で表現するため、yの部分には最低1回は1が出現する)。符号化されたバイト列は、バイト順に関わらず左から順に出力する。 1バイト目の先頭の連続するビット "1"(その後にビット "0" が1つ付く)の個数で、その文字のバイト数がわかるようになっている。また、2バイト目以降はビットパターン "10" で始まり、1バイト目と2バイト目以降では値の範囲が

  • fudist

    このページは主にVimに関するTipsとプラグインについて書かれています

  • Python でUTF-8, shift_jis, euc_jpなど日本語を使う方法

    [Home] [Setting up Mac OS X] [Python]: [ファイルを読む] 日語を使う Pythonで日語を使う Python 2.4以降では、標準で日語を扱うことができます。 PythonのソースコードをUTF-8で書くには 日語を扱うPythonのスクリプトの中では、UTF-8の文字コードを使うのが 楽です。 Mac OS Xのターミナルで日語を扱う場合は、 ここの「4. Terminalの設定を変える」の 指示に従ってください。 以下、ソースコードの簡単な例を示します。 #!/usr/bin/env python # -*- coding: utf-8 -*- import re jtext = u'子が隠れんぼをしています' print 'jtext has', len(jtext), 'Japanese characters.' if re.se

  • 1