タグ

UTF-8に関するftnkのブックマーク (14)

  • PHP、デフォルトエンコーディングをUTF-8へ (default_charset) | エンタープライズ | マイコミジャーナル

    PHP: Hypertext Preprocessor PHP開発チームはPHP6におけるUTF-16化を断念。開発ブランチPHP5.3へロールバックし、これまでに開発した機能をロールバックしたブランチへバックポートするという方針へ変更した。これはPHP6で取り組まれたUTF-16対応実装が予想以上に困難だったためと、UTF-16に移行することで得られる利益よりも不利益が多いことが判明したためだ。PHPにおける文字集合とエンコーディング回りの議論は振り出しに戻った。 しかし、変化は確実に訪れている。Mind the encodings!において「default_charset」がiso-8859-1からUTF-8へ変更されたことが紹介されている。ブラウザはサーバからのデータにエンコーディングの指定がなかった場合、これまではISO-8859-1をデフォルトエンコーディングとしていた。逆にP

  • Webで利用される文字コード、UTF-8がもうすぐ50%を突破 | スラド

    Google Blogによると、WWWで利用されている文字コードのうちUTF-8が占める割合が50%に近づいたそうだ。 UTF-8の利用は2006年あたりから急激に増加しており、一方でUS-ASCIIやW.Eu.(ISO/IEC 8859-1/Windows 1252のことだと思われる)の割合が減少してる。日語(SJIS等)についてはもともと10%以下しか無かったが、こちらもUTF-8への以降が進んでいるようだ。 かつては「文字化け」で(ブラウザの設定を変えないと)見られないサイトもよく見られたが、現在では確かにこのようなサイトは少なくなってきた。/.J読者の皆様の関わっているサイトはUTF-8対応しているだろうか?

  • UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity

    UnicodeとUTF-8の違いは? - Humanityはあんなに反響があるとは思わなかった。 ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。 と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。 調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。 参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact

    UnicodeとUTF-8の違いは? - 自分的まとめ - Humanity
  • screenとUTF-8の相性をなんとかする - ただのにっき(2009-02-07)

    ■ Debian lenny導入メモ(on VMware Player) マジ個人的な作業メモ。なんか、この日記を始めた頃のことを思い出したよ。当時はKondaraだったが。 さすがにインストールでつまづく時代ではないので省略。パッケージのセットは、「Webサーバ」と「ファイルサーバ」を選択。インストール直後、まだVMwareのコンソールからしか入れない段階で最低必要なパッケージを導入: # aptitude install sudo zsh vim subversion ssh screen keychain ruby rubyは最新の1.8.7-p72ですな。1.9.1はあとで野良ビルドする。 sudoの設定。visudoして以下を追加: sho ALL=(ALL) NOPASSWD: ALL sambaをセットアップして、sshの鍵をコピーするための穴のあける。 # smbpassw

  • CentOS5.2 + putty + screen + zsh + emacs21(22)でUTF-8の日本語いろいろメモ

    CentOS5.2 + putty + screen + zsh + emacs21(22)でUTF-8の日語いろいろメモ 微妙に日語が通ってなかったところを何とかしたメモ。 まず環境。CentOSは5.2。Debian 4.0 etchでも同様の構成でうまくいく。 % cat /etc/redhat-release CentOS release 5.2 (Final) puttyはRelease 0.59_Gottani+Mouse_Tr_Bad。半透明化のためのパッチが当たってるバージョンを使用。半透明は後ろのドキュメントを読みながら作業できるので便利。 PuTTY マウス選択挙動変更+背景半透明化 + 文字ふちどりパッチ screenは4.00.03。現状yumで入る最新版となる。 % screen --version Screen version 4.00.03 (FAU) 2

  • Emacs22 UTF-8 における文脈依存な文字幅の問題について

    UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、 矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。 下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。 文字によって幅を変えるプロポーショナルフォントを前提としたテキストであれば あまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは 表示がガタガタになってしまい問題になります。 これらの文字を wide character として判別させるには以下の設定を

  • UTF-8/UTF-16/UTF-32 を処理系の内部エンコーディングに使う場合のそれぞれのメリット - higepon blog

    ごく最近調べて実装したり、人に聞いたメモなので間違っていたらぜひ御指摘を。 UTF-8 ascii が 1byte で ascii に一致する。 これが大きい。 処理系が実装されている C のコードで、絶対に ascii だと分かっている変数にたいして、標準C関数を使いまくれるのがうれしい。 文字列リテラルも可搬性を維持したまま使える。 strcmp("hige-func", hoge) これが UTF-32 だったら、たとえ全てが ascii と分かっていても専用の関数(ブリッジ?)を作らないと行けない。 fopen とか。 あとはasciiばかりの場合には効率が良いとか。 UTF-16 2byteに収まる。 サロゲートペアの部分なんか気にしないぜと男気を見せれば、完全2byteの世界になること。 UTF-32 完全 4byte 固定なので処理がとても楽。*1 L"abあ" は、何文字?

    UTF-8/UTF-16/UTF-32 を処理系の内部エンコーディングに使う場合のそれぞれのメリット - higepon blog
  • ヽ( ・∀・)ノくまくまー(2005-12-26)

    ● UTF8 環境 そうだ、京都(UTF8)に行こう!理由は3点。 Ajax は UTF8 でないと無駄な苦労が多い (半年我慢したけど諦めた) Debian の時期 sid の etch ちゃんはデフォルト locale が UTF8 になる (ので避けられない未来) screen で window 毎に別 encoding 指定できると知った (完全移行はまだ抵抗あるの) 1. システムへ locale の追加 まずは、「なまずの人」の情報を参考に locale を設定。 # dpkg-reconfigure locales [*] ja_JP.EUC-JP EUC-JP [*] ja_JP.UTF-8 UTF-8 (※ UTF-8をチェック) どのロケールをシステム標準の環境変数として設定しますか ? 从 ’w’)つ[なし] ja_JP.EUC-JP ja_JP.UTF-8 (※ デ

  • [を] UTF-8 の文字にマッチする正規表現

    UTF-8 の文字にマッチする正規表現 2006-03-09-1 [Programming] UTF-8の文字にマッチする正規表現の素直版。 レガシーなのに対応するとき用にメモ。 [\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7] [\x80-\xBF]{3}|[\xF8-\xFB][\x80-\xBF]{4}|[\xFC-\xFD][\x80-\xBF]{5} 1 2 3 4 5 60xxxxxxx 110xxxxx10xxxxxx 1110xxxx10xxxxxx10xxxxxx 11110xxx10xxxxxx10xxxxxx10xxxxxx 111110xx10xxxxxx10xxxxxx10xxxxxx10xxxxxx 1111110x10xxxxxx10xxxxxx10xxxxx

  • UTF-8 vs. ISO-10646 : 404 Blog Not Found

    2006年03月11日13:07 カテゴリLightweight Languages一日一行野郎 UTF-8 vs. ISO-10646 これだとLiberalなUTF-8ですね。 [を] UTF-8 の文字にマッチする正規表現 UTF-8の文字にマッチする正規表現の素直版。 新旧、というのか、LiberalなUTF-8とStrictなUTF-8の違いは、RFC2044とRFC2279を見ればはっきりします。要はU+11000より上を認めるかどうかということです。今のところUnicode.orgの定義では、U+0000 - U+10FFFF しか認めていないので、そちらの定義に従うと、むしろこの正規表現はさらに短く $RE_UTF8CHAR_STRICT = qr/(?:[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}

    UTF-8 vs. ISO-10646 : 404 Blog Not Found
  • HowToUseUnicodeStrings in Ruby on Rails

    Note that this guide covers the recent versions of Rails, if you are stuck with an older version take a look at the UnicodeStringsInOldRails A short intro While Ruby doesn’t have any specific facilities for managing Unicode strings, you can store UTF-8 encoded data in your 8-bit strings. However some of the String methods assume a single byte encoding and therefore return wrong results. Besides, w

  • UCS-2とUTF-8

    最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき,文字コードの方式が2種類,あるいはそれ以上あることに気が付かれるかもしれません。例えば,一つはUnicodeとあるのに対し,もう一つはUnicode (UTF-8)と表記されているかもしれません。この2つは,また,その違いは何でしょうか(前者はUTF-16の一形態なのですが…)。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット,ISO-10846-1は,16ビット(16桁の二進数)でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets,「2つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット(8桁の二進数)のことです。 ユニコードの特定の文字は,例

  • PHP で UTF-8 に付いている BOM を削除する方法

    PHPUTF-8 に付いている BOM を削除する方法 2006-06-05-1: [PHP] UTF-8 に BOM (Byte Order Mark) が付くのが良いのか,悪いのかは分からないけど,問題が多そうな気がする. Windows に付いているメモ帳はご丁寧に BOM をつけてくる. - When a BOM is used, is it only in 16-bit Unicode text? http://www.unicode.org/unicode/faq/utf_bom.html#25 上記の記事によると,ファイルの先頭 3 バイトに EF BB BF があれば,UTF-8 に付く BOM らしいので,これを判別して削除する方法. function delete_bom($str) { if (ord($str{0}) == 0xef && ord($str{1

    ftnk
    ftnk 2007/09/11
  • [を] UTF-8 で半角カナを判定

    UTF-8 で半角カナを判定 2006-11-09-3 [Programming] PerlUTF-8 で半角カナを判定するには、 顔文字みたいな正規表現を使うと良いみたい。 なお、下記では全角になっていますが、「。」「゜」は半角です。 print if /[。-゜]/; 以下、確認スクリプト utf8hankana-test.pl。 begin 755 utf8hankana-test.pl.gz M'XL("+7C4D4``W5T9CAH86YK86YA+71E<W0N<&P`1<_)2L-@$,#Q^SS%9[Q8 ML>0J1H1"]>K!>'()M48-U"A)BP<1M.[5NN];L>[[OFM]F"IXZROX5P\._&!F MF!F8XB(]X7MZB^/JW;87DV+UF4Y]'<SEDR?YP51)O5D3+`](PK>5'_><:-SX MS7L

  • 1