PDFファイルやスキャナで読み込んだ文書の画像ファイルをGoogle Docsにアップロードすると、編集可能なテキストファイルに変換できる機能が横書きの日本語に対応した。 米Googleは2月28日(現地時間)、昨年6月にGoogle Docsに追加したOCR(光学式文字認識)機能を、新たに日本語を含む29カ国語に対応させたと発表した。日本語のPDFやスキャナやデジカメで取り込んだ文字を含む画像をGoogle Docsにアップロードすると、ファイルがテキストデータに変換される。 使い方は、Google Docsの「アップロード」の画面で変換オプションを以下のように設定し、「アップロードを開始」をクリックする。変換が可能なファイル容量の上限は2Mバイトだ。 実際にやってみたところ、PDFではほぼ問題なくテキストに変換されたが、デジカメで撮影した画像からの変換の精度はまだ高いとはいえないようだ
GoogleがreCAPTCHAを買収した。reCAPTCHAは、ウェブサイトのサインインページの下部によく表示される、ゆがんだ文字のテキストボックスを手がける企業の1つだ。 買収条件は明らかにされなかったが、Googleがブログ記事で述べたところによると、同社はreCAPTCHA の技術を一部のGoogleサイト内におけるセキュリティ対策として利用するほか、大規模な書籍スキャンプロジェクトでも役立てる計画という。reCAPTCHAは、カーネギーメロン大学コンピュータサイエンス学部のプロジェクトから生まれた企業で、従来のCAPTCHA(スパムボットやそのほかの人間でない厄介者を惑わすことを目的とする、曲がりくねった書体で書かれた文字列)技術に新しい工夫を凝らしている。 CAPTCHA技術が開発された目的は、コンピュータには読めない文字を提示することである。しかし、コンピュータは、昔の書籍な
さて、JPEG2000に関する小難しい話*1が続いていますので、ちょっと休憩です。 本日のお題画像 本日は、OCRについて、お話します。 (http://denshika.cc/faq/faq4.phpも参照してください。) OCRの技術を簡単に説明しますと、こんな紙面の画像があるとしますと、 http://chroniclingamerica.loc.gov/lccn/sn83030272/1879-07-01/ed-1/seq-1/ 赤丸の記事に該当する部分を抜き出して、 さらに、1行を抜き出して、 さらに、単語を抜き出して、 さらに、文字単位に切り分けます。 ここまで来たら、各文字が、それぞれ何か、ということを計算します。 普通に1文字づつ計算をしていくと、たとえば、 を と勘違いしたり、 を と勘違いしたりします。 なので、上の「PIECES」という単語を と勘違いする可能
wordのOCR機能がCOM APIから使えるとの事だったので試した。 まちみのな::C#で文字認識を行うとCodeProject: OCR with Microsoft? Office. Free source code and programming helpを参考にした、というかほぼそのままで、UIを付けただけ。 日本語OCRは商用の物しか見つからなくて、クセロReaderに入ってるとかどうやってか自分で作ってる人もいるけど、高嶺の花だった。英語はオープンソースプロジェクトがいくつかあるのになあ・・・ できたもの。 画像をドラッグアンドドロップするとOCR発動、文字を読み取る。この画質の写真でも相当間違える。 ■作ったサンプル shokai / OCR C# Sample / overview — bitbucket.org (VS2008 C#.NET用) 右上のDownloadか
OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。 デモサービスで試せます 今回紹介するオープンソース・ソフトウェアはNHocr、日本語OCRシステムだ。Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、デモサービスは公開されている。 デモサービスでは、BMP/JPEG/PBM/PGM/PPMのファイル(さらに各ファイルをGZip圧縮していても可能)をアップロードすると、それを解析した結果を日本語表示してくれる。日本語OCRとあって、漢字/ひらがな/片仮名/英語などが判別可能になっている。 読み取らせた画像 手書き文字であっても認識率はそこそこ高い。正式リリースがまだという段階にあ
うーん、これは凄い。 OCRという技術はフリーでは殆ど見られない(日本語では昔あったが、今はない)位、高い専門性と特許が絡んだ難しい技術だ。 それを無料で利用できるというのが素晴らしい。オフィスでも多用されるPDFについて、OCRを適用したければこれを使おう。 今回紹介するフリーウェアはクセロReader ZERO、OCR機能がついたPDFビューワだ。 クセロReader ZEROはタブがついたPDFビューワーで、複数のPDFを閲覧するのに便利なソフトウェアだ。しおりやサムネイルを表示するといった機能もある。 そして最も便利な機能として取りざたされるのがOCR機能だ。試してみた所では多少の誤字認識はあったものの、十分実用レベルだ(PDF中の文字列を検索するという目的には十分)。 さらに画像をクセロReader ZEROにドラッグアンドドロップするだけでPDF化する機能もある。その上でOCR
新しいサービス(といっても大層なものではない)を作ろうと思った時に、画像の中の文字列を読み取る仕組みが必要な事に気づいた。いわゆるOCRだ。 オープンソースのOCRはごく僅かだが存在する。今回はその中の有力なものを紹介しよう。 今回紹介するオープンソース・ソフトウェアはTesseract OCR、Googleが手がけるOCRエンジンだ。 Tesseract OCRは元々、HPが開発していたもので、それをGoogleが開発を引き継ぐ形でオープンソース化されたソフトウェアだ。英語圏のソフトウェアなので日本語の読み込みには対応していないが、性能自体は高い評価を受けている。 実際試してみた限りでは、変換率50%を越えているだろう。一段の文章であれば問題なく変換できるが、多段組になっている文章やグレースケール等はうまく解析することはできない。 GoogleはGoogle Book Searchなどで
Google Maps for WordPressのIE表示対策の参考にできるかも 侍ズム | Samuraism - Google Maps 簡単貼り付け 先日、『Google Maps for WordPress 試してみました が…』の記事で紹介した 侍ズム の記事にトラックバックをさせていただいた... [Java]BEA JRockitが単体ダウンロード不可に 参照サイト 侍ズム | Samuraism - Oracle、BEA 買収後早くもクローズド戦略に? - BEA JRockit 単体ダウンロード不可 JRockitが・・・・ - maachangの日記 いちおう最新バージョンはまだ手に入るみた...
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く