デイリーポータルZからべつやくさんの記事だけ抽出したい! という要望を目にしたのでphantomjsでスクレイピングしました。 インストール http://code.google.com/p/phantomjs/wiki/BuildInstructions うちではUbuntu 10.04を使っていますが、phantomjsのバージョンが1.0だとmakeの時点でエラーが出るのでgit cloneして最新版を使いましょう。 1.0と最新版で文字エンコーディングの扱いとかも変わってたりします。 $ git clone git://github.com/ariya/phantomjs.git && cd phantomjs $ sudo apt-get install pyqt-tools libqt4-dev python-qt4-dev python-qt4 $ qmake-qt4 &&