phpで漢字の正規表現を調べる(utf-8) の続きです。 ※この記事はMacのChromeで表示を確認しています。 以前phpで使える漢字の正規表現を示したところ 異体字セレクターとStandardized Variants が考慮されていないというご指摘を頂き 知らなかったので調べてみました。 結果正規表現は以下となりました。 前回の記事を参考に正規表現を作ってしまった方ごめんなさい。 ##異体字セレクターとは wikipediaに詳細に書かれていますが、 字形を詳細に表現するためにコードポイントの後ろにくっつく番号です。 例えばあなどるの「侮」という字のコードポイントはFA30ですが、 後ろにE0101をつけると侮󠄁 後ろにE0103をつけると侮󠄃 後ろにFE00をつけると侮︀ となります。 はて、3種類あるけど、E0103とFE00は同じ字形なのになぜ重複しているの? これはU