You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
日本語文字認識 - beta >> English page Since: Oct. 1, 2008 Updated: Jan 13, 2010 このサーバは OCRopusと NHocrを使って 文書画像中の日本語文字を認識します。 文字の周囲にゴミや罫線があると認識に失敗します。 横書きの印刷文字のみに対応しています。 認識精度はまだ低いので、ご了承ください。 機密・秘密の画像は絶対に送信しないでください。 (BMP, JPEG, PBM/PGM/PPM, およびそれらのgzipで圧縮されたファイルが読めます。) server spec | other OCR servers Powered by WeOCR, OCRopus, and NHocr. 日本語文字行認識 - beta このサーバは NHocrを使って 文字行画像中の日本語文字を認識します。 一行だけの文字列のイメージを
新しいサービス(といっても大層なものではない)を作ろうと思った時に、画像の中の文字列を読み取る仕組みが必要な事に気づいた。いわゆるOCRだ。 オープンソースのOCRはごく僅かだが存在する。今回はその中の有力なものを紹介しよう。 今回紹介するオープンソース・ソフトウェアはTesseract OCR、Googleが手がけるOCRエンジンだ。 Tesseract OCRは元々、HPが開発していたもので、それをGoogleが開発を引き継ぐ形でオープンソース化されたソフトウェアだ。英語圏のソフトウェアなので日本語の読み込みには対応していないが、性能自体は高い評価を受けている。 実際試してみた限りでは、変換率50%を越えているだろう。一段の文章であれば問題なく変換できるが、多段組になっている文章やグレースケール等はうまく解析することはできない。 GoogleはGoogle Book Searchなどで
洋書の輪講で、重たい本を持ち運びたくないのと、辞書引きを効率化するためにTesseractでOCR化してみた。 以前はsourceforge.netでホストされていたが、いつの間にか Google Code に移っていた。 詳しくは以下を参照。 http://code.google.com/p/tesseract-ocr/ http://code.google.com/p/tesseract-ocr/wiki/ReadMe Windows な人は tesseract-2.xx.exe.tar.gz tesseract-2.00.eng.tar.gz をダウンロードしてくる。 tesseract.exe tessdata/eng.* というディレクトリ構造を作る。 見開き/段組をうまいこと処理する方法はないっぽい(未確認)なので、先に手作業でファイルを分割した。 圧縮されたtiffを扱えるよ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く