国立情報学研究所(NII)はこのほど、最高裁判所が公開している判例集のPDFデータをテキスト化(HTMLデータ化)した「日本の判例HTMLデータ」の研究者向け無償提供を始めた。 情報・システム研究機構から受け入れたもので、情報学研究データリポジトリ(IDR)のサイトからオンライン申請すれば入手できる。 最高裁判所のサイトで検索可能な、最高裁判所判例集、高等裁判所判例集、下級裁判所裁判例速報、行政事件裁判例集、労働事件裁判例集、知的財産裁判例集のPDFデータをHTML化。1947年~2023年の約6万5000件の判例データを収録する。 HTMLデータでは、本文に無関係な部分を除去した上で、小見出し、箇条書き、段落などの構造を認識。それぞれに応じたタグを付与している。 関連記事 メルカリの出品データ、研究者向けに無償提供 国立情報学研究所と連携 メルカリの研究開発組織であるmercari R4