概要 最近は行政データをオープンに公開することで、広く官民に使ってもらおうと言う動きが活発だ。裁判所も過去の判例データを公開している。こちらのサイトで、過去の判例データを検索して、判決文や判決に至る根拠を書いたPDFをダウンロードできる。 しかし、そのPDFは人間が読むことを想定しており、PDFの内容を機械が読み取ってデータとして利用することは想定していないように見られる。 今回は、判例PDFをダウンロードして、機械的に読み取り、テキスト化する際にどのような不便があるかを共有する。 アドベントカレンダーへの参加 こちらの記事は、CivicTechテック好き Advent Calendar 2020 12/15に参加しています。 使用ツール PDFから機械的にテキストを抜き出すツールは色々ある が、今回は、pdfminer を利用して判例PDFからテキストファイルを抜き出す。pdfminer