タグ

ブックマーク / qiita.com/shibacow (1)

  • 判例PDFをパースする際にハマること - Qiita

    概要 最近は行政データをオープンに公開することで、広く官民に使ってもらおうと言う動きが活発だ。裁判所も過去の判例データを公開している。こちらのサイトで、過去の判例データを検索して、判決文や判決に至る根拠を書いたPDFをダウンロードできる。 しかし、そのPDFは人間が読むことを想定しており、PDFの内容を機械が読み取ってデータとして利用することは想定していないように見られる。 今回は、判例PDFをダウンロードして、機械的に読み取り、テキスト化する際にどのような不便があるかを共有する。 アドベントカレンダーへの参加 こちらの記事は、CivicTechテック好き Advent Calendar 2020 12/15に参加しています。 使用ツール PDFから機械的にテキストを抜き出すツールは色々ある が、今回は、pdfminer を利用して判例PDFからテキストファイルを抜き出す。pdfminer

    判例PDFをパースする際にハマること - Qiita
    myrmecoleon
    myrmecoleon 2021/04/03
    法律をプログラム的に扱うなら当然必要だよなと思っていたら、芝尾さん判例のテキスト構造化まではじめてるんか…
  • 1