OpenPear でソースコードが公開されている(未リリース)、HTML_ExtractContent を試してみた。これは、Ruby 実装の Webページの本文抽出 (nakatani @ cybozu labs) を PHP に移植したもの。設計方針は Perl 版 Kansai.pm #11 HTMLからの本文抽出 - 貳佰伍拾陸夜日記 で丁寧に解説されている。 Webサイトすべてではなく、ブログを対象に ブログ記事の URL からタイトルと本文を取得する場合を考えた。実際にいくつかのブログに対して実行してみると、見逃せないレベルのゴミがある。それらへの泥臭い処理は、HTML_ExtractContent を継承した Blog_HTML_ExtractContent に担当させることにした。なのでともかく、HTML_ExtractContent の private 関数を prote