ROpenSciの実験的パッケージリポジトリropenscilabsで、便利そうなパッケージを見つけた。使ってみた感じ、PDFからのデータ取得の決定版となりそうな大変便利なパッケージであることがわかったので、その機能を試しておく。 ROpenSciの実験的パッケージリポジトリropenscilabsで、便利そうなパッケージを見つけた。{tabulizer}というものだ。このパッケージはTabulaというオープンソースツールの機能を利用して、PDF中に含まれる表から、値を取り出すというもの。 政府や企業の報告書はPDFであることが多く(二次利用を想定していないのだろうが)、表としてデータが収められていることがしばしばある。PDFからのデータ取得方法として、Rでは {tm}を使う方法や{pdftools}を利用する方法がそれぞれあるが、{pdftools}ではテキストベースでの抽出となるため、
