extract_html_content.php <?php error_reporting(E_ALL & ~E_NOTICE); /** * ブログサイトの本文のみを抽出する関数ファイル */ /** * HTMLの本文ブロックを抽出 * * div td center区切りで抽出 * 文字数と区切り文字数をベーススコアとして算出 * 前半のブロックほどスコアが高くなるように計算 * description属性との編集距離を考慮し、スコアに強く反映 * 複数ブロックをクラスタ化し、クラスタ間で比較 * * @param string $html HTMLソース * @return string 本文ブロック(標準出力) */ function get_html_content( $html ){ $decay_factor = 0.8; // 減衰係数(小さいほど先頭に近いブロックのス