正規表現の文字クラスの略記法 \d と \s と \w がいつのまにかアレレなことになっていたのでメモ。(1 Perl 5.8 以降で正規表現を使うには use utf8 が必須。 use utf8 では \d と \s と \w の文字クラスの内容が Unicode のカテゴリーに基づいている。 InDesign(Boost)も同様。 PCRE や Ruby は変わりなし。 (2 参考資料:perldoc の perlrecharclass 参考資料:Programming Perl の 5.4. Character Classes ちょっと詳しく見ていきます。 *以降、Perl = use utf8 の Perl ほとんど全ての人が [0-9] の10文字として使っていますが、Perl では \p{Nd} です。ただし、Perlのバージョンによって(対応しているUnicodeバージョン
![ものかの » 正規表現の略記法 \d と \s と \w](https://cdn-ak-scissors.b.st-hatena.com/image/square/2261854691ec536a105ffd69648bb164ffdee6a3/height=288;version=1;width=512/https%3A%2F%2Ftama-san.com%2Fwp-content%2Fuploads%2F2015%2F08%2Ftama-san.png)