[B! unicode][hnw] shimookaのブックマーク

shimooka id:shimooka

unicodeとhnwに関するshimookaのブックマーク (2)

講習会「文字集合と文字エンコーディング」を開催しました — ディノオープンラボラトリ
「文字集合と文字エンコーディング」というタイトルで、経験2〜3年目の人をターゲットに社内勉強会を開催しました。文字集合という単語を知っている必要はないですけど、少なくともUTF-8とShift_JISとでは扱える文字の種類数が違うことだけは伝えたかったので、その意味では目標が達成できたと思っています。まとめ文字集合とは、扱える文字の集合 JIS X 0208なら6000文字くらいの日本語の文字 UCS-2なら60000文字くらいの世界中の主要な文字文字エンコーディングとは、文字の集合をバイト列に直す方式 Shift_JISはJIS X 0208（など）を1〜2バイトにする UTF-8はUCS-2を1〜3バイトにする文字エンコーディング関連のツールを使いこなそう nkfやlvを使いこなそう日本語を探すならlgrep 最終兵器：hexjaで16進ダンプムービー
shimooka 2010/01/15
hnw

unicode

encoding

utf-8

charset
リンク
PHPでマルチバイト対応のtrim関数を作る - hnwの日記
（2009/06/29）追記4：本記事のmb_trim関数が動かない環境があったので、詳細を「PCREはUnicode文字プロパティをサポートするとは限らない」にまとめました。よりポータブルなmb_trim関数も紹介していますので、併せてご覧ください。追記：「mb_ereg_match('^[\0[:space:]]+$', $str);」で、今回pregで作った正規表現'/^[\s\0\x0b\p{Zs}\p{Zl}\p{Zp}]+$/u'と同一になりました。mb_regex_encoding関数が使える分だけmb_ereg版の方が使い勝手も上です。ちょっとショック。（2009/02/24 17:00）追記2：もっと簡潔に、「mb_ereg_match('^[\0\s]+$', $str);」でいいことがわかりました。POSIX正規表現風の表記がキモいな、と思っていたので、これは素晴
shimooka 2009/03/15
mb_ereg_match('^[\0\s]+$', $str)

php

unicode

hnw
リンク
1