国立情報学研究所 情報学研究データリポジトリ(IDR)では、「研究者等提供データセット」として、情報・システム研究機構 データサイエンス共同利用基盤施設 人工知能法学研究支援センターより受け入れた「日本の判例HTMLデータ」の提供を開始しました。 本データセットは、最高裁判所が公開している判例集のPDFデータをテキスト化(HTMLデータ化)したものです。 最高裁判所のサイトで検索可能な最高裁判所判例集、高等裁判所判例集、下級裁判所裁判例速報、行政事件裁判例集、労働事件裁判例集、知的財産裁判例集のPDFデータをHTML化しており、2024年1月11日時点で検索可能であった1947年~2023年までの約65,000件の判例データからなります。 HTMLデータでは、本文内容に無関係な部分を除去し、小見出し、箇条書き、段落などの構造を認識して、それぞれに応じたタグを付与しています。 データは情報学