引用する記事のタイトル&本文の抜粋を取得したい! ということで、PHPでスクレイピング&本文抽出する方法を調べてみました。 [amazonjs asin=“4839956472” locale=“JP” title=“実践 Webスクレイピング&クローリング-オープンデータ時代の収集・整形テクニック”] 本文抽出に使用するライブラリ いろいろと選択肢はあったのですが、今回はfivefilters.orgのPHP Readabilityを使ってみることにしました。 BitBucketのPHP Readabilityのレポジトリのものより、同じfivefilters.orgのFull-Text RSSレポジトリに使われているPHP Readabilityのほうが新しいっぽいのでこっちを使います。 ちなみにFull-Text RSS最新版のダウンロードは有償ですが、古いバージョンは無料で利用でき