タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

unicodeと正規表現に関するtakaesuのブックマーク (2)

  • Unicodeの文字プロパティを指定した正規表現をみてみる(ECMAScript2018) - TES Blog

    はじめに Unicodeは、世界で使われる文字を利用できるようにすることを目的としています。 そのため、ラテン文字はもちろん、漢字、ハングル、キリル文字、タイ文字、(なんと!)絵文字までもがコード化されています。 一方、JavaScript(ECMAScript2018)ではUnicodeの文字プロパティにマッチングする正規表現の書き方が取り入れられます。 関連:https://github.com/tc39/proposal-regexp-unicode-property-escapes Unicodeの文字プロパティとは、Unicodeの規格で定められた各コードポイントの属性のことです。 まず簡単に見せると、以下のようなことができるようになります。 // 絵文字が含まれているかチェックする /\p{Emoji}/u.test("😃"); // → true /\p{Emoji}/u.

    Unicodeの文字プロパティを指定した正規表現をみてみる(ECMAScript2018) - TES Blog
  • Unicode 文字プロパティ

    Unicode 文字プロパティ PHP 5.1.0 以降、UTF-8 モード を設定した場合に、 一般的な文字タイプにマッチする新たなエスケープシーケンスが 3 つ追加されました。 \p{xx} xx プロパティを持つ文字 \P{xx} xx プロパティを持たない文字 \X 拡張 Unicode シーケンス ここで xx で表されているプロパティ名は、Unicode で 一般カテゴリプロパティ (general category properties) として規定されているものに なります。すべての文字は、いずれかひとつのプロパティを持ちます。 プロパティは、2 文字の略語で表されます。Perl と同じく、 開き波カッコとプロパティ名との間にハット文字を記述することで否定を指定できます。 たとえば、\p{^Lu} は \P{Lu} と同じです。 \p もしくは \P の後に、一文字だけを記

  • 1