OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。 デモサービスで試せます 今回紹介するオープンソース・ソフトウェアはNHocr、日本語OCRシステムだ。Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、デモサービスは公開されている。 デモサービスでは、BMP/JPEG/PBM/PGM/PPMのファイル(さらに各ファイルをGZip圧縮していても可能)をアップロードすると、それを解析した結果を日本語表示してくれる。日本語OCRとあって、漢字/ひらがな/片仮名/英語などが判別可能になっている。 読み取らせた画像 手書き文字であっても認識率はそこそこ高い。正式リリースがまだという段階にあ
うーん、これは凄い。 OCRという技術はフリーでは殆ど見られない(日本語では昔あったが、今はない)位、高い専門性と特許が絡んだ難しい技術だ。 それを無料で利用できるというのが素晴らしい。オフィスでも多用されるPDFについて、OCRを適用したければこれを使おう。 今回紹介するフリーウェアはクセロReader ZERO、OCR機能がついたPDFビューワだ。 クセロReader ZEROはタブがついたPDFビューワーで、複数のPDFを閲覧するのに便利なソフトウェアだ。しおりやサムネイルを表示するといった機能もある。 そして最も便利な機能として取りざたされるのがOCR機能だ。試してみた所では多少の誤字認識はあったものの、十分実用レベルだ(PDF中の文字列を検索するという目的には十分)。 さらに画像をクセロReader ZEROにドラッグアンドドロップするだけでPDF化する機能もある。その上でOCR
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く