タグ

ブックマーク / digit.que.ne.jp (1)

  • PHPメモ/HTMLの解析 - Walrus, Digit.

    各種ライブラリを使わず正規表現でHTMLを解析してみる。 ライブラリが使える状況では、XML_HTMLSax3や、これを使用したPHP Simple HTML DOM Parserを使う方が良いと思う。これらのライブラリを使いがたい状況で、簡易的にHTMLを解析する必要に追われて、やってみた。 Perlメモの「HTMLタグの正規表現」と「タグを削除する」をベースに、PHPHTMLをテキストとHTMLタグに分ける。分けた結果を配列で返し、タグの削除などは行わない。 引数には解析対象のHTML文字列を渡す。第二引数として、最大いくつの要素に分けるかを指定できる。デフォルトでは上限なし。 function parse_html ($html, $max = 0) { $result = array(); $tag_regex_ = '[^"\'<>]*(?:"[^"]*"[^"\'<>]*|\

  • 1