タグ

OCRに関するseuzoのブックマーク (7)

  • 認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた | Ledge.ai

    記事ネタを集めていたところ、代官山で日語の手書き認識ソフトウェアの開発に成功した外国人グループがいる。それもたった2か月で。という記事にあたりました。日語の手書き文字のOCRを外国人が開発しているという驚き。 気になりすぎたので、早速取材にいってみたところ、Reactive Inc.のデータサイエンティストのDavid MalkinさんとコアエンジニアのPhilip Irriさんにお話しを聞くことができたので、まとめてみました! 非エンジニアにもわかるようにと噛み砕いて、システムの内容や今後の拡張計画ディープラーニングの可能性についてまでいろいろ話してくださいました。

    認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた | Ledge.ai
  • 江戸期以前の“くずし字”、精度80%以上でOCR処理、凸版印刷が技術開発 

    江戸期以前の“くずし字”、精度80%以上でOCR処理、凸版印刷が技術開発 
  • あの「イラつく文字認証」のおかげで年間250万冊もの本がデジタル化されている - ログミー[o_O]

    誰もが一度はイラっとさせられたであろう文字認証「CAPTCHA」。ユーザがコンピュータで無いことを確認するセキュリティ機能のひとつですが、近年、これを解読することは「のテキスト化」に協力することと同義になりました。同システムの開発者でクラウドソーシングも発案した起業家、Luis von Ahn(ルイス・フォン・アン)氏が、7億5,000万人が参加するプロジェクトが生まれたキッカケを語ります。(TEDxCMU 2011より) 誰もが一度はイラっとさせられるCAPTCHA(キャプチャ) ルイス・フォン・アン氏:このように、ゆがめられた文字の並びを読んで埋めるタイプのウェブフォームを見たことのある人は何人いますか? これを見て当にいらいらすると感じた人は何人いますか? はい、すばらしいですね。私がこれを発明しました。私がこれを発明したメンバーの1人です。 (会場笑) これはCAPTCHAと呼

    あの「イラつく文字認証」のおかげで年間250万冊もの本がデジタル化されている - ログミー[o_O]
  • OCRの正読率などの調査

    OCRの正読率などの調査 出版デジタル機構(当時名称はなかった)の準備室が開設されたころ、電子書籍制作のための技術的な可能性を検討をするために、沢辺(ポット出版)が株式会社ゼロメガと日高崇さん深沢英次さんの協力得て行ったOCRに関する調査。 人間の校正には多くのコストがかかるため、紙面スキャンの画像と検索用のテキストの組み合わせでつくる電子書籍の可能性を見るために、いわゆる「自炊業者」のスキャンとOCRで1冊200円の精度の調査をおこなった。 この調査にはブックスキャンBOOKSCANに協力してもらった。 ●ドキュメントスキャンPDF のコストと品質について PDF・766kb 株式会社ゼロメガ/日高崇(資料作成 2011年10月18日) OCRの現状と、BOOKSCANによるスキャンの正読率の調査。 「既刊のデジタル化では、ドキュメントスキャンによる「自炊PDF」がユーザーの支持を受け

    seuzo
    seuzo 2014/06/17
  • PC

    USBケーブルのワナ USBケーブル選びの落とし穴、慌てて選ぶと性能を発揮できないケースも 2024.07.26

    PC
  • Google DocsのOCR変換機能が日本語に対応

    PDFファイルやスキャナで読み込んだ文書の画像ファイルをGoogle Docsにアップロードすると、編集可能なテキストファイルに変換できる機能が横書きの日語に対応した。 米Googleは2月28日(現地時間)、昨年6月にGoogle Docsに追加したOCR(光学式文字認識)機能を、新たに日語を含む29カ国語に対応させたと発表した。日語のPDFやスキャナやデジカメで取り込んだ文字を含む画像をGoogle Docsにアップロードすると、ファイルがテキストデータに変換される。 使い方は、Google Docsの「アップロード」の画面で変換オプションを以下のように設定し、「アップロードを開始」をクリックする。変換が可能なファイル容量の上限は2Mバイトだ。 実際にやってみたところ、PDFではほぼ問題なくテキストに変換されたが、デジカメで撮影した画像からの変換の精度はまだ高いとはいえないようだ

    Google DocsのOCR変換機能が日本語に対応
  • MOONGIFT: » 待ちに待ったオープンソースの日本語OCR「NHocr」:オープンソースを毎日紹介

    OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。 デモサービスで試せます 今回紹介するオープンソース・ソフトウェアはNHocr、日語OCRシステムだ。Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、デモサービスは公開されている。 デモサービスでは、BMP/JPEG/PBM/PGM/PPMのファイル(さらに各ファイルをGZip圧縮していても可能)をアップロードすると、それを解析した結果を日語表示してくれる。日語OCRとあって、漢字/ひらがな/片仮名/英語などが判別可能になっている。 読み取らせた画像 手書き文字であっても認識率はそこそこ高い。正式リリースがまだという段階にあ

    MOONGIFT: » 待ちに待ったオープンソースの日本語OCR「NHocr」:オープンソースを毎日紹介
    seuzo
    seuzo 2008/09/12
    日本語OCR
  • 1