洋書の輪講で、重たい本を持ち運びたくないのと、辞書引きを効率化するためにTesseractでOCR化してみた。 以前はsourceforge.netでホストされていたが、いつの間にか Google Code に移っていた。 詳しくは以下を参照。 http://code.google.com/p/tesseract-ocr/ http://code.google.com/p/tesseract-ocr/wiki/ReadMe Windows な人は tesseract-2.xx.exe.tar.gz tesseract-2.00.eng.tar.gz をダウンロードしてくる。 tesseract.exe tessdata/eng.* というディレクトリ構造を作る。 見開き/段組をうまいこと処理する方法はないっぽい(未確認)なので、先に手作業でファイルを分割した。 圧縮されたtiffを扱えるよ