米Googleは、米Hewlett-Packard(HP)が開発した光学式文字認識(OCR)エンジンをオープンソース化したことを明らかにした。8月の同社の公式ブログで言及したもので、オープンソース開発者向けサイト「SourceForge.net」でダウンロードできる。 「Tesseract」と名付けられたOCRソフト。HPが85〜95年に開発し、95年には米ネバダ大学ラスベガス校(UNLV)が開催したOCRソフト精度コンテストで3位に入賞した実績がある。 HPがOCR事業から撤退したため“お蔵入り”になっていたが、2年ほど前、HPの関係者がオープンソース化して提供した方がよいと判断、これにGoogleが協力して、数カ月前にSourceForge.netで公開した。 Googleによると、英語しか認識できず、複数段組やカラーの文書では処理能力が落ちるという。それでも同社は「認識精度は市販の最