先々週から茶筌を使った形態素解析について書いてきたが、最近MySQL周辺でバージョン4.1のプロダクション・リリースに伴ったちょっとした混乱が生じている様子なので、今回は少し寄り道をして情報を整理しておきたい。 MySQL 4.1では、特に我々日本人にとって影響の大きい文字エンコーディング周りにも、かなり大幅な改変が入っている。文字コードの自動変換機能が追加されたり、UTF-8、UCS2といったUnicodeのキャラクタセットが利用可能になったり、データベース単位にしか指定できなかったキャラクタセットが列単位に指定できるようになったりと、とにかく盛りだくさんである。機能が増えるのは一般的には喜ばしいことだが、既存のMySQL 4.0からアップグレードしようとするユーザにとっては、当然のことながら互換性が心配のタネになる。そして、現状ではトラブルがないとは言えない状況のようだ。 まず、サーバ