エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント3件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
tabulizerパッケージによるPDF表データからのデータ取得
tabulizerパッケージによるPDF表データからのデータ取得 👤 Shinya Uryu 📆 2016年8月24日(水曜日) RO... tabulizerパッケージによるPDF表データからのデータ取得 👤 Shinya Uryu 📆 2016年8月24日(水曜日) ROpenSciの実験的パッケージリポジトリropenscilabsで、便利そうなパッケージを見つけた。 {tabulizer} というものだ。このパッケージは Tabula というオープンソースツールの機能を利用して、PDF中に含まれる表から、値を取り出すというもの。 政府や企業の報告書はPDFであることが多く(二次利用を想定していないのだろうが)、表としてデータが収められていることがしばしばある。PDFからのデータ取得方法として、Rでは {tm} を 使う方法 や {pdftools} を 利用する方法 がそれぞれあるが、 {pdftools} ではテキストベースでの抽出となるため、表データの抽出からRの特徴とも言えるデータフレーム形式への変換が困難であ
2016/08/25 リンク