タグ

2006年5月15日のブックマーク (3件)

  • K2Editorでの正規表現の解説 目次

    K2Editorでの正規表現の解説 K2Editor では検索、置換、キーワードの強調などに正規表現を使う事が出来ます。このページは、その正規表現を説明する目的で書かれています。 K2Editorで公式にサポートしているのは、K2Regexp.dll による正規表現です。これから述べる内容も、K2Regexp でサポートしているものを対象としています。 K2Regexp.dll は BREGEXP.DLL(より正しく言えば、Linux 用の Bregexp ライブラリ)に制御系の拡張をしたものです。正規表現エンジン部分は BREGEXP から変更されていないようです。 BREGEXP は Perl5(perl version 5.002 だと思われる)互換の正規表現エンジンなので、Perl の解説がほぼそのまま使えますが、Perl 自体が正規表現と密接につながっているため、うまく適応するこ

  • ホームページ作成の第一歩【Perl 文字の正規表現】

    # 半角スペース $spc = '\x20'; # 全角スペース $eSpc = '(?:\xA1\xA1)'; # EUC-JP $sSpc = '(?:\x81\x40)'; # SJIS # 全角数字 [0-9] $eLng = '(?:\xA3[\xB0-\xB9])'; # EUC-JP $sLng = '(?:\x82[\x4F-\x58])'; # SJIS # 全角小英字 [a-z] $estr = '(?:\xA3[\xE1-\xFA])'; # EUC-JP $sstr = '(?:\x82[\x81-\x9A])'; # SJIS # 全角大英字 [A-Z] $eStr = '(?:\xA3[\xC1-\xDA])'; # EUC-JP $sStr = '(?:\x82[\x60-\x79])'; # SJIS # 全角ひらがな [ぁ-ん] $eHira = '(?:

  • MODULE.JP - 日本語に絡むUnicodeブロックとスクリプト(正規表現)

    といった感じ。ちなみにjava.util.regexとPerlのUnicodeブロックは接頭子Inを使うが、.NETの場合は接頭子Isを使う、という差異があります。 Unicodeスクリプトとブロックの違いがビミョーに見えるけど、ブロックがコードブロックをゴリッと指定したものに対して、スクリプトは特定言語に関係する文字の種類を直接指定するものなのでブロックよりも断定的、って感じで見れば良かなと。ちなみにUnicode関連のドキュメントによるとUnicodeプロパティとスクリプトで日語の文章を表そうとすると m/(?:(?:\p{Hiragana}|\p{Katakana}|\p{Han}|\p{Latin}|\p{Common}) (?:\p{Inherited}|\p{Me}|\p{Mn})?)+/x; こんな感じになるそうな。実際流通している文章はこれより多様なので現実とは微妙に乖離