2022年05月30日 令和2年度補正予算(第3号)により、令和3年度に国立国会図書館が実施した、OCR関連事業の概要ページを公開しました。 「デジタル化資料のOCRテキスト化」及び「OCR処理プログラム研究開発」の2つの事業について、目的や実施内容、OCRテキスト化性能の評価方法・評価結果のほか、成果物の提供について紹介しています。 令和3年度OCR関連事業のページ 令和3年度デジタル化資料のOCRテキスト化 令和3年度OCR処理プログラム研究開発
サービスURL https://lab.ndl.go.jp/ngramviewer/ 概要 OCRによって作成されたテキストデータから、出版年代ごとの単語及びフレーズ(以下「キーワード」といいます。)の出現頻度を可視化・列挙することができるサービスです。 可視化グラフの縦軸は、年代ごとにキーワードが何回出現したかを表す出現頻度と、出現頻度を出版年代ごとの総ngram数で割った値を表す出現比率の2種類を切り替えることができます。 2023年1月現在の対象は、国立国会図書館デジタルコレクションで提供されているデジタル化済み資料のうち、図書約97万点及び雑誌約132万点のOCRテキストデータから集計した、約17億種類のキーワードです。 具体的な内訳は次の通りです 図書及び雑誌約230万点(約17億種類のキーワード) 図書約97万点(約8.5億種類のキーワード) 雑誌約132万点(約8.9億種類の
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く