タグ

正規表現に関するprogdのブックマーク (4)

  • 指定したサイトから文字列を正規表現で抜き出すpythonスクリプト - progd

    #!/usr/bin/env python2.6 #coding: utf-8 import urllib2 import chardet import sys import re # コマンドライン引数を取得 argvs = sys.argv if len(argvs) != 3: print "usage: python %s url regex" % argvs[0] quit() url = argvs[1].decode('utf-8') regex = argvs[2].decode('utf-8') # 引数の正規表現文字列を( )で囲んで、正規表現オブジェクトを生成 reg_patt = re.compile(u"(%s)" % regex) # WebページのHTMLを取得 html = urllib2.urlopen(url).read() # ページのエンコードを取得

    指定したサイトから文字列を正規表現で抜き出すpythonスクリプト - progd
  • 複数の正規表現により文字列を繰り返しフィルタすることのできるGUIツールを作成 - 試験運用中なLinux備忘録・旧記事

    Pythonで正規表現による文字列処理(検索・置換・分割)を行う」ではPythonで正規表現を使用した操作についてを扱っているが、この機能を使用してGUI上でテキストを置換するツールを作成した。GtkBuilderファイルを使用しているため、実行にはバージョン2.12以上のPyGTKが必要。 特徴は パターンが複数登録できる パターン(群)はファイルへの保存とファイルからの読み込みが可能 入力されたテキストだけでなく、処理するファイルをリストに登録して一括でフィルタ(置換)処理することも可能 など。 置換前後にUnicodeとの変換を行うため、日語の文字も正しく処理される。ファイルを処理する際にはエンコーディングの指定もできる(違うエンコーディングを指定した場合は正しく処理されない)。 テキストの置換に関する機能は一通り完成しているが、パッケージ化なども含めて問題が残っている可能性があ

    複数の正規表現により文字列を繰り返しフィルタすることのできるGUIツールを作成 - 試験運用中なLinux備忘録・旧記事
  • Perlメモ

    複数のプロセスでロック状態が異常であると判断し,そのうちの 1つがロックを解除したことにより,別のプロセスがロックしたにもか かわらず,先ほどロック状態が異常であると判断したプロセスによってこの正常なロッ クを解除されてしまう可能性があります. この方法の問題点は,異常なロック状態を解除する操作が正常なロック状態をも 解除できてしまうことにあります.逆に言えば,異常なロック状態を解除する操作に よって正常なロック状態を解除できなければ問題ないわけです.そのためにはどうす ればよいのか? 答えはロック状態が常に変化していけば よいということです.そして,これを実現するのに都合がよいのが rename による方法になります. 最初のスクリプトで説明しますと,ロックファイルが lockfile という 名前のときがロックが解除されている状態で,lockfile987654321 のよう に後ろに

    Perlメモ
    progd
    progd 2009/06/27
  • Regex Module(正規表現モジュール) - 適宜覚書はてな異本

    The Regex module modifies fields in an RSS feed using regular expressions, a powerful type of pattern matching. Think of it as search-and-replace on steriods. Pipes - Operator Modules Regex(正規表現)モジュールを使うとRSSフィードのフィールドを正規表現という強力なパターンマッチングによる類型化で改造することが出来る。検索や置換の増強版みたいなものを思い浮かべると良い。 You can define multiple Regex rules. Each has the general format: "In [field] replace [regex pattern] with [text]". En

  • 1