[B! UTF-8] ftnkのブックマーク

PHP、デフォルトエンコーディングをUTF-8へ (default_charset) | エンタープライズ | マイコミジャーナル

PHP: Hypertext Preprocessor PHP開発チームはPHP6におけるUTF-16化を断念。開発ブランチをPHP5.3へロールバックし、これまでに開発した機能をロールバックしたブランチへバックポートするという方針へ変更した。これはPHP6で取り組まれたUTF-16対応実装が予想以上に困難だったためと、UTF-16に移行することで得られる利益よりも不利益が多いことが判明したためだ。PHPにおける文字集合とエンコーディング回りの議論は振り出しに戻った。しかし、変化は確実に訪れている。Mind the encodings!において「default_charset」がiso-8859-1からUTF-8へ変更されたことが紹介されている。ブラウザはサーバからのデータにエンコーディングの指定がなかった場合、これまではISO-8859-1をデフォルトエンコーディングとしていた。逆にP

ftnk 2010/03/31

リンク

Webで利用される文字コード、UTF-8がもうすぐ50％を突破 | スラド

Google Blogによると、WWWで利用されている文字コードのうちUTF-8が占める割合が50％に近づいたそうだ。 UTF-8の利用は2006年あたりから急激に増加しており、一方でUS-ASCIIやW.Eu.（ISO/IEC 8859-1/Windows 1252のことだと思われる）の割合が減少してる。日本語（SJIS等）についてはもともと10％以下しか無かったが、こちらもUTF-8への以降が進んでいるようだ。かつては「文字化け」で（ブラウザの設定を変えないと）見られないサイトもよく見られたが、現在では確かにこのようなサイトは少なくなってきた。/.J読者の皆様の関わっているサイトはUTF-8対応しているだろうか?

ftnk 2010/01/31

utf8
utf-8

リンク

UnicodeとUTF-8の違いは？ - 自分的まとめ - Humanity

UnicodeとUTF-8の違いは？ - Humanityはあんなに反響があるとは思わなかった。ブコメにコピペじゃなくてまとめを書いてくれれば良い資料になるのにと書いてあったので今度は自分の知識をまとめてみる。と言っても自分もあのスレを見るまでUnicodeとUTF-8を混同してた一人なのでほとんどあのスレからの知識ですが...orz なので簡単なまとめ。引用を多分に含みます。間違ってたらつっこんでいただけるとうれしいです。調べる際に弾さんのエントリがかなり参考になったので(今頃意味が分かってきた)関連リンクとして度々載せさせていただきます。参考リンクじゃない理由は解説しているエントリだけじゃなくて既存のエンコーディングを拡張するといった高度なエントリも含まれているため。 UnicodeとUTF-8 まず一番重要なことは Unicodeは「符号化文字集合(Coded Charact

ftnk 2010/01/29

リンク

screenとUTF-8の相性をなんとかする - ただのにっき(2009-02-07)

■ Debian lenny導入メモ(on VMware Player) マジ個人的な作業メモ。なんか、この日記を始めた頃のことを思い出したよ。当時はKondaraだったが。さすがにインストールでつまづく時代ではないので省略。パッケージのセットは、「Webサーバ」と「ファイルサーバ」を選択。インストール直後、まだVMwareのコンソールからしか入れない段階で最低必要なパッケージを導入: # aptitude install sudo zsh vim subversion ssh screen keychain ruby rubyは最新の1.8.7-p72ですな。1.9.1はあとで野良ビルドする。 sudoの設定。visudoして以下を追加: sho ALL=(ALL) NOPASSWD: ALL sambaをセットアップして、sshの鍵をコピーするための穴のあける。 # smbpassw

ftnk 2009/02/08

screen
utf-8

リンク

CentOS5.2 + putty + screen + zsh + emacs21(22)でUTF-8の日本語いろいろメモ

CentOS5.2 + putty + screen + zsh + emacs21(22)でUTF-8の日本語いろいろメモ微妙に日本語が通ってなかったところを何とかしたメモ。まず環境。CentOSは5.2。Debian 4.0 etchでも同様の構成でうまくいく。 % cat /etc/redhat-release CentOS release 5.2 (Final) puttyはRelease 0.59_Gottani+Mouse_Tr_Bad。半透明化のためのパッチが当たってるバージョンを使用。半透明は後ろのドキュメントを読みながら作業できるので便利。 PuTTY マウス選択挙動変更+背景半透明化 + 文字ふちどりパッチ screenは4.00.03。現状yumで入る最新版となる。 % screen --version Screen version 4.00.03 (FAU) 2

ftnk 2009/02/06

リンク

Emacs22 UTF-8 における文脈依存な文字幅の問題について

UTF-8 には文字の幅が文脈依存 (ambiguous) となる文字があって、矢印や記号 (■▲)、罫線などの文字は状況に応じて文字幅が変化します。下の 2 つの画像は Emacs で同じファイルの内容を narrow character として判定させた場合と、 wide character として判定させた場合のスクリーンショットです。 narrow wide 現状、 Emacs22 はこれらの文字をデフォルトで narrow character として判定します (※のように化けてしまう文字もあります)。文字によって幅を変えるプロポーショナルフォントを前提としたテキストであればあまり問題にはならないと思いますが、等幅フォントに向けて書いたテキストでは表示がガタガタになってしまい問題になります。これらの文字を wide character として判別させるには以下の設定を

ftnk 2007/12/27

リンク

UTF-8/UTF-16/UTF-32 を処理系の内部エンコーディングに使う場合のそれぞれのメリット - higepon blog

ごく最近調べて実装したり、人に聞いたメモなので間違っていたらぜひ御指摘を。 UTF-8 ascii が 1byte で ascii に一致する。これが大きい。処理系が実装されている C のコードで、絶対に ascii だと分かっている変数にたいして、標準C関数を使いまくれるのがうれしい。文字列リテラルも可搬性を維持したまま使える。 strcmp("hige-func", hoge) これが UTF-32 だったら、たとえ全てが ascii と分かっていても専用の関数(ブリッジ？)を作らないと行けない。 fopen とか。あとはasciiばかりの場合には効率が良いとか。 UTF-16 2byteに収まる。サロゲートペアの部分なんか気にしないぜと男気を見せれば、完全2byteの世界になること。 UTF-32 完全 4byte 固定なので処理がとても楽。*1 L"abあ" は、何文字？

ftnk 2007/12/27

リンク

ヽ( ・∀・)ノくまくまー(2005-12-26)

● UTF8 環境そうだ、京都(UTF8)に行こう！理由は3点。 Ajax は UTF8 でないと無駄な苦労が多い (半年我慢したけど諦めた) Debian の時期 sid の etch ちゃんはデフォルト locale が UTF8 になる (ので避けられない未来) screen で window 毎に別 encoding 指定できると知った (完全移行はまだ抵抗あるの) 1. システムへ locale の追加まずは、「なまずの人」の情報を参考に locale を設定。 # dpkg-reconfigure locales [*] ja_JP.EUC-JP EUC-JP [*] ja_JP.UTF-8 UTF-8 (※ UTF-8をチェック) どのロケールをシステム標準の環境変数として設定しますか ? 从 ’w’)つ[なし] ja_JP.EUC-JP ja_JP.UTF-8 (※ デ

ftnk 2007/09/11

リンク

[を] UTF-8 の文字にマッチする正規表現

UTF-8 の文字にマッチする正規表現 2006-03-09-1 [Programming] UTF-8の文字にマッチする正規表現の素直版。レガシーなのに対応するとき用にメモ。 [\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}|[\xF0-\xF7] [\x80-\xBF]{3}|[\xF8-\xFB][\x80-\xBF]{4}|[\xFC-\xFD][\x80-\xBF]{5} 1 2 3 4 5 60xxxxxxx 110xxxxx10xxxxxx 1110xxxx10xxxxxx10xxxxxx 11110xxx10xxxxxx10xxxxxx10xxxxxx 111110xx10xxxxxx10xxxxxx10xxxxxx10xxxxxx 1111110x10xxxxxx10xxxxxx10xxxxx

ftnk 2007/09/11

Regexp
UTF-8

リンク

UTF-8 vs. ISO-10646 : 404 Blog Not Found

2006年03月11日13:07 カテゴリLightweight Languages一日一行野郎 UTF-8 vs. ISO-10646 これだとLiberalなUTF-8ですね。 [を] UTF-8 の文字にマッチする正規表現 UTF-8の文字にマッチする正規表現の素直版。新旧、というのか、LiberalなUTF-8とStrictなUTF-8の違いは、RFC2044とRFC2279を見ればはっきりします。要はU+11000より上を認めるかどうかということです。今のところUnicode.orgの定義では、U+0000 - U+10FFFF しか認めていないので、そちらの定義に従うと、むしろこの正規表現はさらに短く $RE_UTF8CHAR_STRICT = qr/(?:[\x00-\x7f]|[\xC0-\xDF][\x80-\xBF]|[\xE0-\xEF][\x80-\xBF]{2}

ftnk 2007/09/11

Regexp
UTF-8

リンク

HowToUseUnicodeStrings in Ruby on Rails

Note that this guide covers the recent versions of Rails, if you are stuck with an older version take a look at the UnicodeStringsInOldRails A short intro While Ruby doesn’t have any specific facilities for managing Unicode strings, you can store UTF-8 encoded data in your 8-bit strings. However some of the String methods assume a single byte encoding and therefore return wrong results. Besides, w

ftnk 2007/09/11

リンク

UCS-2とUTF-8

最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例

ftnk 2007/09/11

リンク

PHP で UTF-8 に付いている BOM を削除する方法

PHP で UTF-8 に付いている BOM を削除する方法 2006-06-05-1: [PHP] UTF-8 に BOM (Byte Order Mark) が付くのが良いのか，悪いのかは分からないけど，問題が多そうな気がする． Windows に付いているメモ帳はご丁寧に BOM をつけてくる． - When a BOM is used, is it only in 16-bit Unicode text? http://www.unicode.org/unicode/faq/utf_bom.html#25 上記の記事によると，ファイルの先頭 3 バイトに EF BB BF があれば，UTF-8 に付く BOM らしいので，これを判別して削除する方法． function delete_bom($str) { if (ord($str{0}) == 0xef && ord($str{1

ftnk 2007/09/11

PHP
UTF-8

リンク

[を] UTF-8 で半角カナを判定

UTF-8 で半角カナを判定 2006-11-09-3 [Programming] Perl で UTF-8 で半角カナを判定するには、顔文字みたいな正規表現を使うと良いみたい。なお、下記では全角になっていますが、「。」「゜」は半角です。 print if /[。-゜]/; 以下、確認スクリプト utf8hankana-test.pl。 begin 755 utf8hankana-test.pl.gz M'XL("+7C4D4``W5T9CAH86YK86YA+71E<W0N<&P`1<_)2L-@$,#Q^SS%9[Q8 ML>0J1H1"]>K!>'()M48-U"A)BP<1M.[5NN];L>[[OFM]F"IXZROX5P\._&!F MF!F8XB(]X7MZB^/JW;87DV+UF4Y]'<SEDR?YP51)O5D3+`](PK>5'_><:-SX MS7L

ftnk 2007/09/11

リンク

はてなブックマーク

タグ

関連タグで絞り込む (19)

UTF-8に関するftnkのブックマーク (14)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス