エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
PDFの表を表のまま読み取るには tabula - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
PDFの表を表のまま読み取るには tabula - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure y... Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 自治体やお役所のオープンデータの取り組みは以前に比べて多くなってきているが、問題はその公開フォーマット。 機械的に読み取って再利用したい側としては構造化されたテキストである JSON、あるいは XML、せめて CSV でほしいところだが、PDF でのみという場合も多い。 文章を PDF から抽出するのはそれほど難しくはないが、表を表の形のまま、抽出するのはなかなか難しい。行やカラムがずれたり、セルの中の改行をうまく扱えなかったりする。 これまで、自治体等が公開しているデータがどうしても PDF のみの場合に、コピー&ペーストしたり、入力

