タグ

googleとocrに関するlost_and_foundのブックマーク (6)

  • Google Cloud Vison APIでNDLのデジコレ画像をひたすらOCRをかけてみる(その1) | kzakza

    Google Cloud Vison APIで 光学式文字認識(OCR)をかけたり、画像に含まれているものの解析ができるようになっていますので、以下で公開されている方法とスクリプトで国立国会図書館デジタルコレクションで公開されている画像データをOCRにかけてみました、のその1(気が向けば、いろいろと試してみたいので、引き続きやってみるつもり)。 ※2017/8/19 追記 このエントリでは、レイアウトの認識に難ありという話になってしまいましたが、レイアントを認識できる方法で改めて同じ画像をGoogleのOCRにかけたものを以下に紹介しています。 Google Cloud Vison APINDLのデジコレ画像をひたすらOCRをかけてみる(その1 再戦) 正確すぎる!Googleの画像認識APIで超ラクラクOCR(macOS・ていねい解説) : GOROLIB DESIGN – はやさはち

    Google Cloud Vison APIでNDLのデジコレ画像をひたすらOCRをかけてみる(その1) | kzakza
  • Google DocsのOCR変換機能が日本語に対応

    PDFファイルやスキャナで読み込んだ文書の画像ファイルをGoogle Docsにアップロードすると、編集可能なテキストファイルに変換できる機能が横書きの日語に対応した。 米Googleは2月28日(現地時間)、昨年6月にGoogle Docsに追加したOCR(光学式文字認識)機能を、新たに日語を含む29カ国語に対応させたと発表した。日語のPDFやスキャナやデジカメで取り込んだ文字を含む画像をGoogle Docsにアップロードすると、ファイルがテキストデータに変換される。 使い方は、Google Docsの「アップロード」の画面で変換オプションを以下のように設定し、「アップロードを開始」をクリックする。変換が可能なファイル容量の上限は2Mバイトだ。 実際にやってみたところ、PDFではほぼ問題なくテキストに変換されたが、デジカメで撮影した画像からの変換の精度はまだ高いとはいえないようだ

    Google DocsのOCR変換機能が日本語に対応
  • GoogleドキュメントにPDF、画像内の文字を抽出できる機能が登場 | ライフハッカー・ジャパン

    Googleドキュメントに新しい機能が追加されましたのでご紹介いたします。 新機能はPDF・画像内の文字を抽出できるというもの。Google ブックスで利用されているOCR技術を利用しています。なかなか精度もいいですよ。 以下に使ってみた様子を載せておきます。 まずGoogleドキュメントにアクセスします。 ファイルのアップロードを選択しますと、オプションで「PDF や画像ファイルからテキストを Google ドキュメントのドキュメントに変換する。」という項目があるので、チェックをいれます。 以下の画像を読み取ってみました。 Google Chrome Updates, Adds Integrated Flash Player アップロード後、しばらくすると変換が終了します。 変換後のドキュメントは以下のとおり。 一部文字が抜けたりしているところがありますが、おおよそ読み取ることができてい

    GoogleドキュメントにPDF、画像内の文字を抽出できる機能が登場 | ライフハッカー・ジャパン
    lost_and_found
    lost_and_found 2010/07/01
    流石だね
  • Google、OCR APIとGoogle翻訳APIを試験公開 | インターネット | Macお宝鑑定団 blog(羅針盤)

    Googleが、PNGファイル、JPGファイルデータから文字を認識する「OCR API」と、認識された文字情報を元に翻訳する「Document Translation API」を公開したと発表しています。 どういったことが出来るのかについてはDocList API OCR Demoを試してみて下さい。 TagGoogle iPhone App Store (5139) アクセサリ (4274) 特価 (3345) レポート (2704) NEWS (2475) Rumor (1920) iPad App Store (1810) iTunes (1242) iPhone (1220) Apple Apps (1025) iOS (769) プロモーション (748) Apple (708) ソフトウェア (688) Apple Store (681) Mac App Store (671)

    Google、OCR APIとGoogle翻訳APIを試験公開 | インターネット | Macお宝鑑定団 blog(羅針盤)
  • Googleはこうして膨大な数の本をスキャンしているようだ | 栗原潔のIT弁理士日記

    言うまでもなくGoogle Books Library Projectでは、図書館の膨大な蔵書をスキャンしてOCR処理をしてテキスト化するという作業が必要になります。ここではOCRの認識率などの問題もありますが、何と言っても最大の課題は物理的なスキャン作業でしょう。 一般にをフラットベッド・スキャナーやコピー機でスキャンするのは相当面倒くさいですし、特にが厚い場合にはうまく読み取れないこともありますね。最後の手段としてをばらすという方法もありますが、そもそもGoogle Books Library Projectでは図書館の貴重な蔵書を扱っている以上、それも非現実的と思われます。 で、Techmeme経由のブログ経由で知りましたが、Googleは書籍のスキャン手法に関して米国で特許を取得しています(米国特許7508978)。 の上方から2つのカメラでページを撮影し、ページの凹凸の画

    Googleはこうして膨大な数の本をスキャンしているようだ | 栗原潔のIT弁理士日記
  • 『日本が失ってしまった電子情報空間 著作権という罠に日本ははまっている。』

    Googleが、100億ページ以上のデータを飲み込んで、索引化した時点で、 実インターネット空間の情報よりも、Googleの索引済情報量のほうが、 何倍、もしくは、何百倍も大きかったことになる。 この情報空間を、日は失ってしまった。 おじいさんのランプのような法律によって。 このことによって、日が失ったもの大きさを、誰が知ることになるのでしょうか? 法律は、国会や議会でしか決めることができないので、このことに着目しなかった 議員さんを責めるべきなのでしょうか。 情報立国して立つために、ハードやソフトではない、法が、重要な問題になってきているのですが どうなるのでしょうか。 日が、格的に、図書の電子化をはじめようとするころ(10年後でしょうか?) Googleの高笑いが聞こえてきそうです。 Googleは、2007年7月から、福澤諭吉の江戸、明治の活字の読取に挑戦しているのですよ。

    『日本が失ってしまった電子情報空間 著作権という罠に日本ははまっている。』
  • 1