[B! Programming][regular_expression][python] pipeheadのブックマーク

pipehead id:pipehead

Programmingとregular_expressionとpythonに関するpipeheadのブックマーク (5)

全ての形容動詞と、その位置を見つける - Qiita
こういうの無いかなあと思って調べたらそのままあったのでメモ。もし、パターンにマッチするものについて、マッチしたテキスト以上の情報を得たいと考えたとき、文字列ではなく MatchObject のインスタンスを返す finditer() が便利です。以下に例を示すように、なにかの文章の全ての副詞と、その位置を調べたいと考えたとき、下記のように finditer() を使います。 : >>> text = "He was carefully disguised but captured quickly by police." >>> for m in re.finditer(r"\w+ly", text): ... print '%02d-%02d: %s' % (m.start(), m.end(), m.group(0)) 07-16: carefully 40-47: quickly
pipehead 2013/02/25
re.finditer()

programming

python

regular_expression
リンク
inforno :: Python:re.ScannerでS式パーサ
Rubyの StringScanner は個人的にかなり好きなモジュールで、Rubyでちょっとしたパーサなどを書くときに重宝しています。一方、Pythonにはexperimentalながら re.Scanner というクラスがあります( >= 2.4 )。experimentalなのでマニュアルにはのっていませんが。この re.Scanner はかなりシンプルなんですが典型的な StringScanner の使い方の範疇では、こちらのほうがキレイに書けるような気がします。 re.Scanner の使い方使い方は非常に簡単で (regex, action) のリストを渡してScannerオブジェクトを作成 action は(scanner, string_matched) => stringな関数、Noneを返せば結果は無視される。 scanメソッドでスキャン。結果が配列で返ってくると
pipehead 2008/08/08
programming

python

regular_expression
リンク
[メモ]正規表現モジュール re のscanner機能
Pythonのドキュメントには書かれていないが、正規表現モジュール(re)にはscannerという機能がある。一旦作成した正規表現オブジェクトで、長い文章中をスキャンしていくような感じで、全てのマッチする部分を検出していく機能だ。便利なんだが、使いたい時に毎回使い方を忘れているのでこの際ここにメモしておこう。 >>> a="aaabbbcccdddaaa111fffsss" >>> import re >>> pat = re.compile(r"aaa(...)") >>> dir(pat) ['__copy__', '__deepcopy__', 'findall', 'finditer', 'match', 'scanner', 'search', 'split', 'sub', 'subn'] >>> scanner = pat.scanner(a) >>> dir(scann
pipehead 2007/11/06
programming

python

regular_expression
リンク
[メモ]Pythonによる英字の半角全角変換
↓これもっと簡潔できれいな書き方はないものだろうか。 from itertools import izip #半角英字->全角英字変換 HAN_CHARS = map(chr, range(ord('A'), ord('Z')+1) + range(ord('a'), ord('z')+1)) ZEN_CHARS = map(lambda x: unichr(0xff00 + x),range(0x21, 0x21+ord('Z')-ord('A')+1) + range(0x41, 0x41+ord('Z')-ord('A')+1)) def han2zen(word): """ Unicodeで与えられた文字列の半角英字を全角英字に変換する。 """ for c, cc in izip(HAN_CHARS, ZEN_CHARS): word = word.replace(c, cc)
pipehead 2007/08/16
programming

python

regular_expression
リンク
すべての漢字を取り出す正規表現 - totonのブログ
http://www.unixuser.org/~euske/doc/python/sample.py.html # 日本語トークンを切り出すための正規表現。 JP_TOKEN = re.compile(u"[一-龠]+|[ぁ-ん]+|[ァ-ヴ]+|[a-zA-Z0-9]+") http://www.ascii.co.jp/pb/ascii/archive/aftercare/1999.html ［亜-煕］はJIS漢字を検出するときに使う正規表現になります。本文中で触れている「一太郎 Lite2」の正規表現はUnicode仕様なので，すべての漢字を検出するには，[一-龠]を使用してください（龠は音読みで「ヤク」，訓読みで「ふえ」，Unicodeでは「9FA0」にあたります）。追記 ※「すべての漢字を取り出す正規表現」については、id:toton:20051105 に記事を追加しました。
pipehead 2005/11/03
programming

python

regular_expression
リンク
1