タグ

Googleとocrに関するFeZnのブックマーク (2)

  • 『日本が失ってしまった電子情報空間 著作権という罠に日本ははまっている。』

    Googleが、100億ページ以上のデータを飲み込んで、索引化した時点で、 実インターネット空間の情報よりも、Googleの索引済情報量のほうが、 何倍、もしくは、何百倍も大きかったことになる。 この情報空間を、日は失ってしまった。 おじいさんのランプのような法律によって。 このことによって、日が失ったもの大きさを、誰が知ることになるのでしょうか? 法律は、国会や議会でしか決めることができないので、このことに着目しなかった 議員さんを責めるべきなのでしょうか。 情報立国して立つために、ハードやソフトではない、法が、重要な問題になってきているのですが どうなるのでしょうか。 日が、格的に、図書の電子化をはじめようとするころ(10年後でしょうか?) Googleの高笑いが聞こえてきそうです。 Googleは、2007年7月から、福澤諭吉の江戸、明治の活字の読取に挑戦しているのですよ。

    『日本が失ってしまった電子情報空間 著作権という罠に日本ははまっている。』
  • 『Googleの明治の活字 OCR化の次なる 一手(まったくの推測です。)』

    Googleが、明治の活字に挑戦している。 現在の状況をみるとかなり苦戦しているようだ。 ところで、学問のすすめ は、どこにある? どうりで、検索できないわけだ。 ほんとうは、學問すゝめ: 自第一篇至第十七篇 というらしい。 一瞬、慶応義塾大学が、とんでもないミスをしたと 喜んだ、私が馬鹿だった。 明治に出版された表紙をみると、読めない。うーん。 Googleが正しいようだ。 ちなみに、青空文庫では、 さて、Googleは、明治の活字をどのように攻略するのか。 福翁自傳で考えてみよう。 すでに、デジタルデータがある。 すくなくとも、青空文庫にはある。 これを、ルビなどのない、OCRに対応するデータに加工して、 Googleが読んだOCRデータと付き合わせる。 すると、OCR読み取りパターンとテキストと対応することになるので、 そのまま、OCRの認識を強制的に修正、活字パターンと一致させる。

    『Googleの明治の活字 OCR化の次なる 一手(まったくの推測です。)』
  • 1