■イベント :第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要 タイトル:Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者: 技術…

SARS-COV-2関連情報を集めていると、国や自治体、企業が公開している情報がPDFなのにムカついてしまう。ExcelをPDF化したものもあって、素直にxlsも出せよと思う。 (それでも画像データで公開している組織に比べればかなりマシなのが悲しい) 例えば、沖縄県のワクチン接種率の情報がPDFだ。「沖縄県のワクチン接種進捗状況/沖縄県」に掲載されている「県内市町村ごとの新型コロナワクチン接種件数」がPDFだ。タイトルは .xlsx になっているので、元々はExcelであったのだろう。 ご丁寧なことに情報が更新されると過去のPDFが消されてしまうので、接種率の変化を追っかけたい場合はPDFを手元に保存しておかないといけない。沖縄県の情報公開はこういうところがダメダメだと思う。消すなよ。 表から情報を抜き出す情報を抜き出すツールとしては adobeの【無料】PDFをExcelに変換 – Ad
PDFは扱いにくい PDFファイルをPythonで扱うのは大変です。 表がPDFの中に埋め込まれているケースも割とあります。 例えば 平成30年 全衛連ストレスチェックサービス実施結果報告書の中にはたくさんの表データが埋め込まれています。 例えばファイルの40ページの【表14 業種別高ストレス者の割合】を抜き出したいと思ったとします。 この表を選択して、Excelにコピペしてみましょう。 コピーして、Excelに貼り付けます。 おや?うまくいかないですね。 1つのセルの中に、全部のデータが羅列されてしまっています。 実はPythonを使ってこのPDF中の表を比較的簡単にcsvやExcelに変換することができます。 PythonでPDFの表をcsvに PythonでPDF内の表(テーブル)をcsvやexcelに変換する手順は2ステップです。 ステップ1. PDFから表をpandasのData
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く