タグ

Rubyとscrapingに関するhitoriblogのブックマーク (2)

  • Automatic Ruby v12.9.1 をリリースした | 774::Blog

    Automatic Ruby v12.9.1 をリリースした。 重要な変更点として Automatic::Pipeline の形式を「フィードの配列」と定めたことが挙げられる。前バージョンの v12.6.0 であらゆるオブジェクトを格納できることとしたがこれを改め、いろいろとおかしくなっていた設計を整理してスッキリさせた。そのため幾つかのプラグインは廃止している。 これにより、来のフィードアグリゲーターとしての原点に立ち戻っている。なんでもフィードにする Plagger とやろうとしていることは一緒である。 詳しくは日語ドキュメントに色々書いてあるのはいつも通り。 バージョンがいきなり 12.9.1 な理由は ChangeLog を見れば一目瞭然だが 12.9.0 のリリース直後にバグが見つかったからだ。 RSpec をもっと充実させる必要があるだろう。 なんでも RSS フィードにす

  • 都道府県別環境放射能水準調査結果をscrapingするの法 または PDF をスクレイピングするの法 - tokuhirom's blog

    http://www.mext.go.jp/a_menu/saigaijohou/syousai/1303723.htm このあたりからデータを取得できるわけだが、なぜか PDF なので、うんざりする。 こんなもんどうみても excel かなにかでつくってるんだから生データを提供しろといいたい。 まあ文句をいっていてもしょうがないので、こういう PDFスクレイピングする方法について解説する。 pdftotext などのコマンドをつかうのがオススメ。今だと、poppler というライブラリが日語もあつかえてすばらしすぎるので、これをつかうとよい。これは Perl/Python/Ruby のバインディングがあるので、それをつかってもよいがこういう場合、ライブラリなどでがんばって PDF を解析するのはわりと時間の無駄となる場合がおおい。 poppler は homebrew で一発インス

  • 1