こんにちは高橋です。ひさびさです。ぺちぺで検索エンジンや類似文書の提示エンジンなどを作成していたのですが、普通の文書ではなくサイト等の場合、タグやヘッダ情報、サイドバーリンクなどを対象に含めると精度がめちゃくちゃになるので、それを改善するために本文抽出プログラムを週末に実装しました。まだ一応動く程度です(いろいろと怪しいところがあるので、ごめんなさい)。 http://hakaselab.sakura.ne.jp/make/extractcontent/extractcontent.phps 下記のように利用します。 <?php require('./extractcontent.php'); list($body, $title) = extractcontent_analy(file_get_contents('http://www.example.com')); echo $titl