タグ

ブックマーク / xtech.nikkei.com (1)

  • 新聞記事100年分を電子データに、日経が「AI OCR」で読み取りへ

    経済新聞社が100年分の新聞記事をテキストデータにする取り組みを進めている。AI人工知能)を組み込んだOCR(光学的文字認識)で紙の新聞を効率的に読み取る。読み取り対象には約140年前の1876年に創刊された「中外物価新報」などを含む。中外物価新報は日経済新聞の前身となった新聞だ。2019年5月以降、テキストデータにする作業を始める予定だ。 日経済新聞社は1970年代から約40年、新聞に掲載した記事のテキストデータを管理してきた。しかしそれ以前の100年分の新聞についてはテキストデータは無く、原をスキャンしたイメージデータだけを保存していた。 「過去の新聞の内容をテキストデータにした上で記事ごとにタグ情報を加えれば、検索しやすくなる。かつての日の経済状況を把握したり分析したりするのも容易になる」。同社の山田剛日経イノベーション・ラボ上席研究員は今回の取り組みの狙いをこう説明す

    新聞記事100年分を電子データに、日経が「AI OCR」で読み取りへ
    kinohiko
    kinohiko 2020/04/29
  • 1