タグ

ブックマーク / digit.que.ne.jp (2)

  • PHPメモ/HTMLの解析 - Walrus, Digit.

    各種ライブラリを使わず正規表現でHTMLを解析してみる。 ライブラリが使える状況では、XML_HTMLSax3や、これを使用したPHP Simple HTML DOM Parserを使う方が良いと思う。これらのライブラリを使いがたい状況で、簡易的にHTMLを解析する必要に追われて、やってみた。 Perlメモの「HTMLタグの正規表現」と「タグを削除する」をベースに、PHPHTMLをテキストとHTMLタグに分ける。分けた結果を配列で返し、タグの削除などは行わない。 引数には解析対象のHTML文字列を渡す。第二引数として、最大いくつの要素に分けるかを指定できる。デフォルトでは上限なし。 function parse_html ($html, $max = 0) { $result = array(); $tag_regex_ = '[^"\'<>]*(?:"[^"]*"[^"\'<>]*|\

    taro-maru
    taro-maru 2010/01/26
    HTMLパーサー関数
  • Perlモジュールの確認 - Walrus, Digit.

    $ find `perl -e 'print join(" ", @INC)'` -type f -name "*.pm" > mod.txt 実行すると、mod.txtに@INC(Perlがモジュール検索対象にするディレクトリ)以下のファイル一覧が入ります。 $ find `perl -e 'print join(" ", @INC)'` -type f -name "*.pl" > mod.txt jcode.plなど、ファイル名が*.plのライブラリが入ります。 $ find `perl -e 'print join(" ", @INC)'` -type f -name "*.pm" -exec ll {} > mod.txt モジュールファイルの更新日付、パーミッションなど、llによる情報が入ります。 ただし、QUE::Networkのデフォルト設定(シェルはksh、.profil

  • 1