インターネット上で動作するアプリケーションを開発する際に、我々日本人にとって大きな障害となるのが文字エンコーディングの問題だ。日本語の表記には、ひらがな、カタカナ、漢字など、非常に多くの文字種、多くの文字数が必要となる、英語圏のソフトウェアはそのままでは正しく動作しないことが多いのだ。しかも、日本語の文字をコンピュータ上で表現するための符号化手法、いわゆる一般的に文字コードと呼ばれる規格(正確には符号化文字集合とエンコーディング法)も、歴史的に様々なものが混在している。Shift JIS、EUC-JP、JISなどに加え、最近ではUnicodeとUTF-8エンコーディングなども利用される機会が増えてきた。 PHPでは、開発者コミュニティの努力によってPHP3の時代から日本語の扱いに対する改善が常に行われてきており、その成果はPHP 4.0.6以降で「mbstring拡張」として本家PHPのリ