[B! google][OCR] kzakzaのブックマーク

kzakza id:kzakza

googleとOCRに関するkzakzaのブックマーク (12)

Announcing Tesseract OCR- Google Developers Blog
kzakza 2012/02/24
OCR

google
リンク
[PDF]Combined Script and Page Orientation Estimation using the Tesseract OCR engine　-- Publications by Googlers
kzakza 2011/06/21
OCR

google

google論文
リンク
[PDF]Low Cost Correction of OCR Errors Using Learning in a Multi-Engine Environment（2009 10th International Conference on Document Analysis and Recognition）-- Publications by Googlers
kzakza 2011/06/21
OCR

google

google論文
リンク
Google DocsのOCR変換機能が日本語に対応
PDFファイルやスキャナで読み込んだ文書の画像ファイルをGoogle Docsにアップロードすると、編集可能なテキストファイルに変換できる機能が横書きの日本語に対応した。米Googleは2月28日（現地時間）、昨年6月にGoogle Docsに追加したOCR（光学式文字認識）機能を、新たに日本語を含む29カ国語に対応させたと発表した。日本語のPDFやスキャナやデジカメで取り込んだ文字を含む画像をGoogle Docsにアップロードすると、ファイルがテキストデータに変換される。使い方は、Google Docsの「アップロード」の画面で変換オプションを以下のように設定し、「アップロードを開始」をクリックする。変換が可能なファイル容量の上限は2Mバイトだ。実際にやってみたところ、PDFではほぼ問題なくテキストに変換されたが、デジカメで撮影した画像からの変換の精度はまだ高いとはいえないようだ
kzakza 2011/03/04
google

OCR
リンク
When OCR Goes Bad: Google's Ngram Viewer & The F-Word
kzakza 2010/12/21
Google

OCR

GoogleBook
リンク
秋元@サイボウズラボ・プログラマー・ブログ: reCAPTCHA - キャプチャを利用した人力高性能OCR
reCAPTCHA という新サービスはすごい。その構想力には感動させられた。念のためにCAPTCHA(キャプチャ)について説明しておくと、スパムプログラム(bot)と人間のユーザを見分けるための簡単な(しかし機械にとっ […] reCAPTCHA という新サービスはすごい。その構想力には感動させられた。念のためにCAPTCHA(キャプチャ)について説明しておくと、スパムプログラム(bot)と人間のユーザを見分けるための簡単な(しかし機械にとっては難しい)クイズのことだ。ある程度ウェブを使っている人なら、ネットサービスの登録時やコメントの書き込み時などに、読みにくく加工されたアルファベットを読まされたりした経験があるだろうと思う。それらのサイトでは、あなたが人間にしかできないクイズを解いたのを見て、ユーザ登録やコメントの投稿を受け付けたりする仕組みになっているわけだ。文字を読む以外のC
kzakza 2010/09/09
「CAPTCHA画像は、これまであったような、きれいなフォントから加工して作られたものではない。実在する紙の本をスキャンして、OCRで読み取ろうと試みた単語のうち、認識に失敗した単語のイメージをベースにしている」

OCR

Google

電子書籍

GoogleBook
リンク
グーグル、reCAPTCHAを買収--書籍スキャンにも活用へ
GoogleがreCAPTCHAを買収した。reCAPTCHAは、ウェブサイトのサインインページの下部によく表示される、ゆがんだ文字のテキストボックスを手がける企業の1つだ。買収条件は明らかにされなかったが、Googleがブログ記事で述べたところによると、同社はreCAPTCHA の技術を一部のGoogleサイト内におけるセキュリティ対策として利用するほか、大規模な書籍スキャンプロジェクトでも役立てる計画という。reCAPTCHAは、カーネギーメロン大学コンピュータサイエンス学部のプロジェクトから生まれた企業で、従来のCAPTCHA（スパムボットやそのほかの人間でない厄介者を惑わすことを目的とする、曲がりくねった書体で書かれた文字列）技術に新しい工夫を凝らしている。 CAPTCHA技術が開発された目的は、コンピュータには読めない文字を提示することである。しかし、コンピュータは、昔の書籍な
kzakza 2010/09/09
2009年9月のニュース。

OCR

Google

電子書籍

GoogleBook
リンク
tesseract-ocr - Google Code
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
kzakza 2010/08/12
OCR

Google
リンク
GoogleがReCAPTCHAを買収、詐欺防止とOCR改良の一石二鳥　
kzakza 2010/08/12
google

OCR
リンク
Google，HPの開発したオープンソースOCRエンジン「Tesseract」を公開
米Googleは，オープンソース・コミュニティSourceForge.netで文字認識（OCR）エンジン「Tesseract」を公開した。Google最上級技術リード（Uber Tech Lead）のLuc Vincent氏が米国時間8月，公式ブログGoogle Code Blogへの投稿で明らかにしたもの。SourceForge.netのWebサイトから無償でダウンロードできる。 Tesseractは，米Hewlett-Packard（HP）が1985～1995年にかけて開発していたOCRエンジン。ネバダ州立大学ラスベガス校（UNLV）が1995年に開催したOCRソフトウエアの精度を評価するコンテストで，トップ3の成績を記録したという。しかしHPがOCR事業からの撤退を決めたことから，「Tesseractはほこりをかぶっていた」（Google）。その後「HPの関係者がTesseract
kzakza 2010/08/12
2006/09/06の記事

OCR

google
リンク
[PDF] Google Book Search: Document Understanding on a Massive Scale , by Luc Vincent, Google, Inc.
kzakza 2010/08/11
2007年の論文？

OCR

文字処理

多言語

GoogleBook

google

google論文
リンク
Microsoft Word - MOCRadaptingtesseract2.doc
kzakza 2010/08/11
Googleによる2009年の論文（だと思う）。、「Tesseract OCRの多言語化の試みについて」か？やはりヒンディ語は難しいらしい。もっともこのOCRがGBSに使われているかどうかわからないけど

OCR

文字処理

多言語

GoogleBook

google

google論文
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx