タグ

tipsと正規表現に関するh1saoのブックマーク (3)

  • ゼロからはじめるPython(33) 英単語で正規表現をマスター | マイナビニュース

    英単語で正規表現をマスターしよう 「正規表現」という言葉を聞いたことがあるだろうか。正規表現はとても便利なので、プログラマーでなくてもマスターしておきたい機能だ。多くのテキストエディタに正規表現を使った置換機能があるので、正規表現を覚えると、Pythonだけでなくあらゆる場面で活用できる。今回は、英単語辞書のデータを利用して、正規表現をマスターしよう。 英単語で正規表現とはどういうことか? 「正規表現」とは、文字列の集合を特殊なメタ文字を利用して表現する方法だ。正規表現に似た表現に「ワイルドカード」がある。ワイルドカードでは「*.txt」のようなパターンを記述することで、「abc.txt」や「書類.txt」などを表すことができる。これは主に、ファイル検索などで、拡張子「.txt」(テキストファイル)を列挙するのに役立つものだ。そして、正規表現は、このワイルドカードを何十倍も便利にしたものと

    ゼロからはじめるPython(33) 英単語で正規表現をマスター | マイナビニュース
  • なるべく短い正規表現で住所を「都道府県/市区町村/それ以降」に分けるエクストリームスポーツ - Qiita

    rex = /ごにょごにょ/ p "東京都文京区後楽1丁目3−61".match(rex).captures #=> ["東京都", "文京区", "後楽1丁目3−61"] みたいなやつ。なるべく短く。 実用性? そんなもの、うちにはないよ。 TL;DR 「読むのめんどくさい」という人用に最初に最終結果を置いておきます (...??[都道府県])((?:旭川|伊達|石狩|盛岡|奥州|田村|南相馬|那須塩原|東村山|武蔵村山|羽村|十日町|上越|富山|野々市|大町|蒲郡|四日市|姫路|大和郡山|廿日市|下松|岩国|田川|大村)市|.+?郡(?:玉村|大町|.+?)[町村]|.+?市.+?区|.+?[市区町村])(.+) あまり厳密ではないのでちゃんとしたとこでは使わないほうがいいです 住所データを用意する 郵便局からデータをダウンロードしておく。一ヶ月毎に更新されている。 → 郵便番号データ

    なるべく短い正規表現で住所を「都道府県/市区町村/それ以降」に分けるエクストリームスポーツ - Qiita
  • pythonの正規表現で日本語を扱う – taichino.com

    先日、正規表現が使えるようになってきたと書いたものの、今まで日語に対して正規表現を使うのは、どうせ上手く動かないだろうという様な先入観で使っていなかったのですが、調べてみるとただのわず嫌いだった事が解りました。 利用シーンは色々考えられると思うのですが、例えば日語文書中の単位付き数詞(100g、20個等)から数値と単位を両方抜き出すという処理を考えます。折角なので数値・単位共に半角全角文字がどちらも使われていて、正規表現が使いにくそうな状況を想定します。結論から言うとunicode文字列を使えばこのような状況でも上手く正規表現を使う事が出来ます。 使い方は簡単でパターンと検索対象の文字列をunicodeで用意し、searchやmatch等を呼ぶ際にunicodeフラグを指定すればOKです。unicodeフラグは省略形のre.Uも用意されています。先ほど想定した問題に対する正規表現を書

  • 1