[B! 正規表現] nemobaのブックマーク

Perlメモ/XMLの解析 - Walrus, Digit.

XMLファイルを正規表現のみでタグとテキストの配列に変換する方法です。簡易的なXMLパーサーを作る時には、まずこの作業をしてしまうと後の処理は簡単になるでしょう。なお、対象のXMLデータはeucコードにしておいてください。このルーチンおよび正規表現は、大崎氏の「Perlメモ」にある「(HTML)タグを削除する」をベースに、XMLの解析用にアレンジしたものです。このルーチンが役立ったとすれば、その功績の9割までは大崎氏のものです。次のサブルーチンは、引数にXML文字列を取り、タグと文字列に分けた配列を返します。 sub xml_to_array { my $xml = shift; my $tag_regex_ = q{<[^"'<>]*(?:"[^"]*"[^"'<>]*|'[^']*'[^"'<>]*)*(?:>|(?=<)|$(?!\n))}; my $comment_reg

nemoba 2006/09/17

リンク

すべての漢字を取り出す正規表現 - totonのブログ

http://www.unixuser.org/~euske/doc/python/sample.py.html # 日本語トークンを切り出すための正規表現。 JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+") http://www.ascii.co.jp/pb/ascii/archive/aftercare/1999.html ［亜-煕］はJIS漢字を検出するときに使う正規表現になります。本文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので，すべての漢字を検出するには，[一-龠]を使用してください（龠は音読みで「ヤク」，訓読みで「ふえ」，Unicodeでは「9FA0」にあたります）。追記 ※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。

nemoba 2005/11/05

正規表現

リンク

Regexp::Assemble: blog.bulknews.net

nemoba 2005/04/01

リンク

正規表現のeオプションをJavaScriptでエミュレート

Perlなどの置換系の正規表現ではeというオプション(フラグ)をつけると、置換後の文字列をプログラム・コードとみなしてくれるわけですが、JavaScriptのreplace()の第一引数で指定する正規表現にはeオプションなどというモノはありません。しかし、replace()の第二引数である置換後の文字列にはStringオブジェクトや文字列リテラル以外にも関数を指定することもできるので、事実上eオプション相当のことが実現できます。エミュレートというのは正確ではない気がするけど気にしない。具体的には、 var s = "asdf123asdf123456asdf123asdf"; document.write( s.replace( /123/g, function (num, idx, old) { return parseInt(num) + 333; } ) ); という感じ。上記例で

nemoba 2005/03/30

置換後の文字列をプログラム・コード

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

正規表現に関するnemobaのブックマーク (4)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス