teddy-gのブックマーク - はてなブックマーク

teddy-g id:teddy-g

ブックマーク / qiita.com/mima_ita (1)

Pythonを使えばテキストを含むPDFの解析は簡単だ・・・そんなふうに考えていた時期が俺にもありました - Qiita
まえがき Pythonを使えばテキストを含むPDFの解析は簡単だ・・・文字情報が含まれていればPDFから文字やテーブルの情報を抽出して、そのデータを利用してWebサービスなんて簡単につくれるぜ、ひゃっほーいっという安易な思考の結果が以下になります。新型コロナウイルス感染症の感染拡大を踏まえたオンライン診療のPDFデータを利用してみた https://qiita.com/mima_ita/it ems/c0f28323f330c5f59ed8 ここで得た最も重要な知見は「PDFデータをコンピュータで読むのはやめとけ、あれは人間が読むものだ」ということと、わずかなPythonを使用したPDFの取り扱いの方法です。今回はそのわずかなPythonを使用したPDFの取り扱い方法について説明します。なお、実験環境はWindow10のPython 3.7.5 64bitになります。 operand
teddy-g 2021/10/31
PythonでPDF取り扱うときはPDFMiner。文字を全部書き出すので結構めんどい。

python

python3

pdf
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx