PDFファイルやスキャナで読み込んだ文書の画像ファイルをGoogle Docsにアップロードすると、編集可能なテキストファイルに変換できる機能が横書きの日本語に対応した。 米Googleは2月28日(現地時間)、昨年6月にGoogle Docsに追加したOCR(光学式文字認識)機能を、新たに日本語を含む29カ国語に対応させたと発表した。日本語のPDFやスキャナやデジカメで取り込んだ文字を含む画像をGoogle Docsにアップロードすると、ファイルがテキストデータに変換される。 使い方は、Google Docsの「アップロード」の画面で変換オプションを以下のように設定し、「アップロードを開始」をクリックする。変換が可能なファイル容量の上限は2Mバイトだ。 実際にやってみたところ、PDFではほぼ問題なくテキストに変換されたが、デジカメで撮影した画像からの変換の精度はまだ高いとはいえないようだ
reCAPTCHA という新サービスはすごい。その構想力には感動させられた。 念のためにCAPTCHA(キャプチャ)について説明しておくと、スパムプログラム(bot)と人間のユーザを見分けるための簡単な(しかし機械にとっ […] reCAPTCHA という新サービスはすごい。その構想力には感動させられた。 念のためにCAPTCHA(キャプチャ)について説明しておくと、スパムプログラム(bot)と人間のユーザを見分けるための簡単な(しかし機械にとっては難しい)クイズのことだ。ある程度ウェブを使っている人なら、ネットサービスの登録時やコメントの書き込み時などに、読みにくく加工されたアルファベットを読まされたりした経験があるだろうと思う。 それらのサイトでは、あなたが人間にしかできないクイズを解いたのを見て、ユーザ登録やコメントの投稿を受け付けたりする仕組みになっているわけだ。文字を読む以外のC
GoogleがreCAPTCHAを買収した。reCAPTCHAは、ウェブサイトのサインインページの下部によく表示される、ゆがんだ文字のテキストボックスを手がける企業の1つだ。 買収条件は明らかにされなかったが、Googleがブログ記事で述べたところによると、同社はreCAPTCHA の技術を一部のGoogleサイト内におけるセキュリティ対策として利用するほか、大規模な書籍スキャンプロジェクトでも役立てる計画という。reCAPTCHAは、カーネギーメロン大学コンピュータサイエンス学部のプロジェクトから生まれた企業で、従来のCAPTCHA(スパムボットやそのほかの人間でない厄介者を惑わすことを目的とする、曲がりくねった書体で書かれた文字列)技術に新しい工夫を凝らしている。 CAPTCHA技術が開発された目的は、コンピュータには読めない文字を提示することである。しかし、コンピュータは、昔の書籍な
米Googleは,オープンソース・コミュニティSourceForge.netで文字認識(OCR)エンジン「Tesseract」を公開した。Google最上級技術リード(Uber Tech Lead)のLuc Vincent氏が米国時間8月,公式ブログGoogle Code Blogへの投稿で明らかにしたもの。SourceForge.netのWebサイトから無償でダウンロードできる。 Tesseractは,米Hewlett-Packard(HP)が1985~1995年にかけて開発していたOCRエンジン。ネバダ州立大学ラスベガス校(UNLV)が1995年に開催したOCRソフトウエアの精度を評価するコンテストで,トップ3の成績を記録したという。しかしHPがOCR事業からの撤退を決めたことから,「Tesseractはほこりをかぶっていた」(Google)。 その後「HPの関係者がTesseract
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く