タグ

正規表現に関するnemobaのブックマーク (4)

  • Perlメモ/XMLの解析 - Walrus, Digit.

    XMLファイルを正規表現のみでタグとテキストの配列に変換する方法です。 簡易的なXMLパーサーを作る時には、まずこの作業をしてしまうと後の処理は簡単になるでしょう。 なお、対象のXMLデータはeucコードにしておいてください。 このルーチンおよび正規表現は、大崎氏の「Perlメモ」にある「(HTML)タグを削除する」をベースに、XMLの解析用にアレンジしたものです。 このルーチンが役立ったとすれば、その功績の9割までは大崎氏のものです。 次のサブルーチンは、引数にXML文字列を取り、タグと文字列に分けた配列を返します。 sub xml_to_array { my $xml = shift; my $tag_regex_ = q{<[^"'<>]*(?:"[^"]*"[^"'<>]*|'[^']*'[^"'<>]*)*(?:>|(?=<)|$(?!\n))}; my $comment_reg

  • すべての漢字を取り出す正規表現 - totonのブログ

    http://www.unixuser.org/~euske/doc/python/sample.py.html # 日語トークンを切り出すための正規表現。 JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+") http://www.ascii.co.jp/pb/ascii/archive/aftercare/1999.html [亜-煕]はJIS漢字を検出するときに使う正規表現になります。 文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので,すべての漢字を検出するには,[一-龠]を使用してください(龠は音読みで「ヤク」,訓読みで「ふえ」,Unicodeでは「9FA0」にあたります)。 追記 ※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。

    すべての漢字を取り出す正規表現 - totonのブログ
  • Regexp::Assemble: blog.bulknews.net

  • 正規表現のeオプションをJavaScriptでエミュレート

    Perlなどの置換系の正規表現ではeというオプション(フラグ)をつけると、置換後の文字列をプログラム・コードとみなしてくれるわけですが、JavaScriptのreplace()の第一引数で指定する正規表現にはeオプションなどというモノはありません。しかし、replace()の第二引数である置換後の文字列にはStringオブジェクトや文字列リテラル以外にも関数を指定することもできるので、事実上eオプション相当のことが実現できます。エミュレートというのは正確ではない気がするけど気にしない。 具体的には、 var s = "asdf123asdf123456asdf123asdf"; document.write( s.replace( /123/g, function (num, idx, old) { return parseInt(num) + 333; } ) ); という感じ。上記例で

    正規表現のeオプションをJavaScriptでエミュレート
    nemoba
    nemoba 2005/03/30
    置換後の文字列をプログラム・コード
  • 1