Googleのエンジニアらが、かつてHewlett-Packard(HP)が開発した光学式文字認識(OCR)エンジンをよみがえらせた。 Googleは、HP Labsによって20年も前に開発され、1995年にお蔵入りとなった「Tesseract」のバグを修正し、数カ月前にオープンソースコミュニティに公開していたことを発表した。 Googleは、一般の人が作った面白いビデオから学術論文に至るまで、これまでデジタル化されてこなかった世界中のあらゆる情報をインデックス化し、体系立てて整理しようと取り組んできた。Tesseractのプロジェクトも、Googleの目指すこうしたゴールと合致する。Tesseractのようなオープンソース技術を使えば、エンジニアや公共機関などが、これまで紙で保存されてきたたくさんの情報をデジタル化していくことができる。 Googleはこの2年間、ネバダ州立大学ラスベガス