タグ

utfに関するyamanetoshiのブックマーク (5)

  • perl - 文字列ばらしはsplit //, $strで : 404 Blog Not Found

    2007年11月27日13:30 カテゴリLightweight Languages perl - 文字列ばらしはsplit //, $strで うーん、ここがあきまへん。 [を] 転置インデックスによる検索システムを作ってみよう! 9 my @char = ($c =~ /([\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]| 10 [\xE0-\xEF][\x80-\xBF]{2}| 11 [\xF0-\xF7][\x80-\xBF]{3})/gsx); 文字列をばらして(utf8の)文字一つ一つの配列にするには、バイト列に正規表現をかますのではなく、utf8文字列にしてからそれにsplit //をかますのが一番です。単にわかりやすいだけではなく、その方がずっと高速です。以下、Benchmark。 #!/usr/local/bin/perl use strict; u

    perl - 文字列ばらしはsplit //, $strで : 404 Blog Not Found
  • Emacs UTF-8 に変更 - Hasta Pronto.org

    .emacs に下記のように記述すると Emacs の文字コードが UTF-8 で使える。 (set-language-environment 'Japanese) (set-terminal-coding-system 'utf-8) (setq file-name-coding-system 'utf-8) (set-clipboard-coding-system 'utf-8) (setq default-buffer-file-coding-system 'utf-8) (setq coding-system-for-read 'mule-utf-8-unix) (prefer-coding-system 'utf-8) (set-default-coding-systems 'utf-8) (set-keyboard-coding-system 'utf-8) (set-buff

  • EmacsでUTF-8

    最近はなにかとEmacsでUTF-8を扱いたいことが多くなってきたのですが、基的にアプリはeucで書いていたのでUTF-8は必要なときになんとかすりゃいいやと思ってました。 でもこないだ、あるアプリを作ろうとやっているときにふと、「あーこのアプリはフルUTF-8で書こうかな」と思い立ち、さてどうしたものかと考えました。 自分のつたない知識で、「emacsでUTF-8を扱うにはMule-UCSというパッケージをインストールしなきゃならない」というのがあって、やっぱこれしかないのかなぁめんどくさいなと思っていつつも他に方法ないのかよということで、調べたり聞いたりしたところ、どうやらemacsのcvs版だとネイティブにUTF-8を対応しているらしいということがわかり、さっそくcvs版のemacsをcheckoutしてきて、makeしてみました。 そして$HOME/.emacsに(utf-tra

  • EmacsでUTF-8を扱う

    EmacsでUTF-8を扱う XML文書をUTF-8で XML文書を記述する文字コードは、UTF-8が多く標準となっているようです。私は、XMLサーバにBXSを使い文字コードはShift_JISもしくはEUC-JPを利用していました。 卒論で、XMLを用いた多種端末対応個人データベース の研究をした際にiモード端末への対応を考えました。このとき、Shift_JISしか扱えないiモード向けコンテンツの仕様に合わせ文字コードの問題に悩まないようShift_JISに統一してXML文書を記述しました。サーバ側で出力時のエンコード指定をすればXML文書の文字コードは気にする必要はないのですが。 BXSにあるサンプルや、書籍等でみかけるXML文書の多くはUTF-8をエンコード指定しています。UTF-8はXML文書の文字コードとして標準となっているようです。そこで、今後、XML文書を記述する際には文字コ

  • いやなブログ: UTF-8 への移行計画

    UTF-8 への移行計画 以前からやろうやろうと思っていた、 UTF-8 への移行計画を実施し ました。これまで手元のテキストファイルの類はすべて EUC-JP で 保存していたのですが、これを UTF-8 にしようという計画です。 Emacs の設定 まずは Emacs の設定です。これまで euc-jp となっていた部分を utf-8 に置き換えました。 (set-language-environment "Japanese") (set-terminal-coding-system 'utf-8) (set-keyboard-coding-system 'utf-8) (set-buffer-file-coding-system 'utf-8) (setq default-buffer-file-coding-system 'utf-8) 新規に作成したファイルの文字コードを UTF

  • 1