タグ

OCRと図書館に関するmyrmecoleonのブックマーク (3)

  • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

    2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

  • CA1718 – 動向レビュー:電子化の現場からみたOCRの動向 / denshikA

    電子化の現場からみたOCRの動向 1. はじめに  インターネットを通じて、自宅や職場などから閲覧できるが増えている。あるものは無料で、あるものは有料で閲覧することができる。電子化されたがインターネット上で公開される利点は、いつでも/どこでも読むことができるということだけではない。これまで目当てのを探そうとすると、タイトル、著者名、分類などを頼りに探すしかなかったが、電子化されたは、その中の文章や内容の一部からでも検索可能となる。つまり、インターネット上に電子化されたが公開されると、の探し方/使い方が変わる、と言える。この新しい「の探し方/使い方」を陰で支えているのが「光学式文字読取装置」(Optical Character Reader:OCR)というテクノロジーである。稿では、や新聞の電子化に携わる者(1)の視点で、OCRの動向を紹介する。 2. OCRはどのように使

    CA1718 – 動向レビュー:電子化の現場からみたOCRの動向 / denshikA
    myrmecoleon
    myrmecoleon 2010/06/22
    お。simpleAの人が。っていうか,最近は変名でも普通に記事書けるようになったのカレントアウェアネス。
  • Blog vs. Media 時評 | 国会図書館の蔵書デジタル化、あまりな時代錯誤

    日経新聞の朝刊で「国会図書館、有料ネット配信 400万冊対象、11年にも」を見て、「ブック検索著作権問題、Google期限まで半月 [BM時評] 」で紹介したようにグーグル・ブック検索に押しまくられた国内勢も反転、攻勢に出るのかと思いました。ところが、調べると、とんでもない時代錯誤をしていらっしゃるのです。これは頭が痛い!! 日経の記事には、こうあります。「国立国会図書館は、日文芸家協会、日書籍出版協会と共同で、デジタル化した同図書館の蔵書をインターネットで有料配信するサービスを始める。両協会が著者など権利者に許可を取り、個人がネット上で同図書館の蔵書を読めるようにする」「9月に同図書館と両協会が中心となり協議会を設立する。10年3月までに利用者から著作権料をいくら徴収するかなど詳細を詰めたうえで、11年春には利用者から集めた著作権料を作家などに分配する社団法人か財団法人を発足さ

    myrmecoleon
    myrmecoleon 2009/08/07
    デジタル化を先にやろうが一緒にやろうが,OCRの手間はさほど変わらないのだが。Googleでさえ日本語のOCRはまだまだ不十分。技術出来てからあとで一気にやろうぜ/ボーンデジタルの方はWARPとかでやるのかなと
  • 1