タグ

OCRとjapaneseに関するmyrmecoleonのブックマーク (3)

  • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

    2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

  •  「なか見!」のOCR検証(1) - bookscanner記

    今日も引き続き、アマゾンの「なか見!検索 」。 さっそく、「なか見!」に行って、「日」というキーワードで検索してみよう。 ひどいOCR結果のオンパレードが見れるはず。日語OCRの程度の低さをアピールするには、都合が良い。 でも、悪いところを見て、悪い評価を下すだけじゃ、何の役にも立たんよね。やっぱり、良いとこを見て、良い評価もしとかんと。 そんじゃ、「なか見!」に行って、今度は、「憩室炎」をキーワードにして検索してみる。どれ見てもいいけど、とりあえず12番目くらいに出てくる『現代医療の治療効果を高める補完代替療法』(ISBN:4882824817)ってのをみてみよう。 一番下の方にある「このに出てくる憩室炎についての詳細を見る」ってのをクリックしてみると、 1. 掲載ページ - p.174: " ... 多発性硬化症、脊髄 損傷、クローン病、憩室炎、痔核などの多くの慢性疾患が便秘を引き

     「なか見!」のOCR検証(1) - bookscanner記
    myrmecoleon
    myrmecoleon 2006/10/17
    Amazonの日本語OCRの実力と,読み取れないならそのクセも組み込めばいいじゃない,という解決。/一字違いくらいは許容する方式にすれば解消できそう。で,その誤字含み語彙をClustyみたいに分ける。
  •  日本で起こっている大変化を、私はとて〜も評価する - bookscanner記

    アマゾンの「なか見!検索」は画期的だ!というより、びっくりした!何をいまさら、と思うなかれ。よ〜く、画像をみてみよう! http://www.amazon.co.jp/gp/product/4894714930/ 『応用代数学入門』(ISBN:4894714930) 「なか見」方法:(みなさん、知ってるだろうけど、念のため) 左側のの写真をクリック。 画像の上あたりにある、「抜粋」をクリック。 第1章 整数と数式処理 ・・・ ってページに来た?*1 このページ、だいたい0.7度左側に傾いてる!*2 こんなこと、これまでの日じゃ、ありえなかった。直角好きな日人は、0.1度だって傾いてれば、「なんじゃ、この画像は!傾いとんじゃないか!」って目くじら立てて怒ってた(と思う)。ちなみに、0.7度の傾きってのは、米国じゃ、かなり普通。詳しくはこっちを見てね。 アマゾンも、ユーザーも、出版社も、

     日本で起こっている大変化を、私はとて〜も評価する - bookscanner記
    myrmecoleon
    myrmecoleon 2006/10/13
    注のこっちのがきになる。「日本語のOCRが壁だって言う人いるけど、本当にそうかな?性能は確かに悪いけどね。そのうち、詳しく書く予定。」期待
  • 1