■ 日経電子版をスクレイピングしてKindle向けmobiファイルを作る 日経電子版は家族でアカウントを使い回してよいという先日の調査結果を受け、それなら新聞を読む生活に戻れるかも知れないねということで、Kindleで読むための準備を開始。「準備」というのは、まだ電子版の有料会員に申し込んでないからなんだけど……。 とりあえず、トップページに載っているトップニュースと主要カテゴリへのリンクを拾って、個々の記事を持ってくるという簡単なスクリプトを書いてみた(→nikkei-scraper.rb)。ついでにKindle向けのmobiにするための各種ファイルも生成するので、あとはkindlegenを実行するだけでmobiができる。 全面的にちゃんとCMSで生成されているだけあって、非常にスクレイピングしやすいサイトだというのはわかった。ただニュースだけじゃつまらないので、コラムなんかも拾ってくる