タグ

scannerとsearchに関するanegishiのブックマーク (1)

  • Google、スキャン文書も検索対象に(MarkeZine) - Yahoo!ニュース

    紙の文書をスキャンしてPDF形式で保存している文書は現在ネットで多数公開されているが、そのテキストは「テキストの画像」であって「テキストデータ」ではない。そのため、ウェブページ上のテキストのように、文書の内容を検索対象とすることはできなかった。 【関連写真】上の検索結果からHTMLバージョンを開いた状態。検索キーワードが一目でわかる Official Google Blogの10月30日のエントリによると、Googleは、OCR(光学文字認識)を使ってスキャン画像からテキストデータを抽出してインデクシングすることで、スキャン画像のテキストを検索対象とすることに成功。これによって、テキストデータ化されていない貴重な文書を見つけることが容易になった。 検索結果に表示されたPDF文書は、そのままPDF形式で開くこともできるし、GoogleHTML変換したものを閲覧することもできる。しかし

  • 1