[B! Python][regexp] Automatorのブックマーク

Automator id:Automator

Pythonとregexpに関するAutomatorのブックマーク (1)

pythonの正規表現で日本語を扱う – taichino.com
先日、正規表現が使えるようになってきたと書いたものの、今まで日本語に対して正規表現を使うのは、どうせ上手く動かないだろうという様な先入観で使っていなかったのですが、調べてみるとただの食わず嫌いだった事が解りました。利用シーンは色々考えられると思うのですが、例えば日本語文書中の単位付き数詞(１００g、20個等)から数値と単位を両方抜き出すという処理を考えます。折角なので数値・単位共に半角全角文字がどちらも使われていて、正規表現が使いにくそうな状況を想定します。結論から言うとunicode文字列を使えばこのような状況でも上手く正規表現を使う事が出来ます。使い方は簡単でパターンと検索対象の文字列をunicodeで用意し、searchやmatch等を呼ぶ際にunicodeフラグを指定すればOKです。unicodeフラグは省略形のre.Uも用意されています。先ほど想定した問題に対する正規表現を書
Automator 2010/07/27
Python

Unicode

regexp
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx