タグ

ブックマーク / lab.ndl.go.jp (8)

  • NDL Ngram Viewer

    yuiseki
    yuiseki 2022/06/08
  • NDL Ngram Viewer | NDLラボ

    サービスURL https://lab.ndl.go.jp/ngramviewer/ 概要 OCRによって作成されたテキストデータから、出版年代ごとの単語及びフレーズ(以下「キーワード」といいます。)の出現頻度を可視化・列挙することができるサービスです。 可視化グラフの縦軸は、年代ごとにキーワードが何回出現したかを表す出現頻度と、出現頻度を出版年代ごとの総ngram数で割った値を表す出現比率の2種類を切り替えることができます。 2023年1月現在の対象は、国立国会図書館デジタルコレクションで提供されているデジタル化済み資料のうち、図書約97万点及び雑誌約132万点のOCRテキストデータから集計した、約17億種類のキーワードです。 具体的な内訳は次の通りです 図書及び雑誌約230万点(約17億種類のキーワード) 図書約97万点(約8.5億種類のキーワード) 雑誌約132万点(約8.9億種類の

  • 次世代デジタルライブラリーの機能追加について | NDLラボ

    2022年04月28日 次世代デジタルライブラリーに、OCRテキストデータの引用に便利なコピー&ペースト機能を追加しました。 全文テキストデータの表示機能 ビューワ画面上右上の下図赤矢印で示したボタンをクリックすると、当該コマのOCR全文テキストデータを表示することができます。 全文テキスト表示画面で、下図のように「範囲指定」ボタンを押すと、 ビューワに表示された資料画像上をマウスカーソルで選択して、選択範囲内のテキストをコピーできます。 範囲選択画面 ルビの部分が不要の場合は、全文テキスト表示画面で「ルビを消す」を選択してください。 下図のように、画面右下にバーが表示されます。バーを左右に調整することで、面積を利用してルビと思われる領域を取り除くことができます。 特に英語の資料等の横書きの資料では、左右のページのテキストが混ざってしまったり、単語間の区切りがなく、読みづらい場合があります

    yuiseki
    yuiseki 2022/04/30
  • NDLラボについて | NDLラボ

    NDLラボは、次世代の図書館システムの開発に資する要素技術の実証実験を行うためのウェブサイトです。 NDLラボでは、国立国会図書館のサーバ環境や国立国会図書館が持つデジタル化資料のデータ・書誌データなどを研究者等に提供し、研究者等はその資源を使ってソフトウェア等の実験をします。研究者等が開発したソフトウェアは、NDLラボから、多くの人に試していただけるようになります。同時に、国立国会図書館自身が研究開発した要素技術についても、実験システム・データとして順次公開し、フィードバックを受けてシステムの機能を発展させる取組を行っています。こうした実験の成果を公開することにより、我が国の次世代図書館サービスの利便性向上に貢献することを目指しています。 また、これらの研究成果や国立国会図書館が持つデータの活用例の紹介、イベント等のご案内も行っています。ぜひ、NDLラボのコンテンツをご活用ください。 沿

    yuiseki
    yuiseki 2022/04/27
  • GitHubについて | NDLラボ

    2019年8月にGitHubNDLラボのアカウントを開設し、学習用データセットや各種プログラムを公開しています。 詳細は以下のリンクをご参照ください。 NDLラボ公式GitHubアカウント(外部サイト) NDLラボ公式GitHubアカウント運用方針 国立国会図書館電子情報部次世代システム開発研究室が運営する「NDLラボ」の公式GitHubアカウント(ndl-lab)は、NDLラボに係る技術情報の発信を行うことで当室の調査研究の成果の周知を図るとともに、館外の技術者とのやり取りを通じて、技術的な検討を行うことを目的としています。御利用の方は、以下の点に御留意ください。 アカウントは、技術情報の発信とともに、館外の技術者とのやり取りを通じて技術的な検討を行うことを目的としているため、アカウントによる発信内容が最終的な国立国会図書館の公式見解とは異なる場合があること。 利用者がアカウント

    yuiseki
    yuiseki 2022/04/27
  • NDLラボ

    NDLラボの概要と研究成果のご紹介 NDLラボの目的や、NDLラボで研究開発を行っている技術に関する文献をご紹介します。

    yuiseki
    yuiseki 2022/04/27
  • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

    2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

  • NDLラボ

    NDLラボの概要と研究成果のご紹介 NDLラボの目的や、NDLラボで研究開発を行っている技術に関する文献をご紹介します。

    yuiseki
    yuiseki 2015/10/19
  • 1