タグ

2016年8月27日のブックマーク (1件)

  • tabulizerパッケージによるPDF表データからのデータ取得

    tabulizerパッケージによるPDF表データからのデータ取得 👤 Shinya Uryu 📆 2016年8月24日(水曜日) ROpenSciの実験的パッケージリポジトリropenscilabsで、便利そうなパッケージを見つけた。 {tabulizer} というものだ。このパッケージは Tabula というオープンソースツールの機能を利用して、PDF中に含まれる表から、値を取り出すというもの。 政府や企業の報告書はPDFであることが多く(二次利用を想定していないのだろうが)、表としてデータが収められていることがしばしばある。PDFからのデータ取得方法として、Rでは {tm} を 使う方法 や {pdftools} を 利用する方法 がそれぞれあるが、 {pdftools} ではテキストベースでの抽出となるため、表データの抽出からRの特徴とも言えるデータフレーム形式への変換が困難であ

    abrahamcow
    abrahamcow 2016/08/27