タグ

ocrに関するFeZnのブックマーク (4)

  • reCAPTCHAの無茶振りとその理由 - しろもじメモランダム

    CAPTCHA(いわゆる画像認証)の実装の一つにGoogleのreCAPTCHAというものがあるが、今日の昼にこんなものに引っかかった。 ウムラウト付きのcaptchaとか微妙に難易度高いなこれw URL 2011-09-30 11:53:27 via Janetter2 @mashabow 私はbiſhopを出されたことがありますw bishopで通りましたが 2011-09-30 11:56:53 via Tween to @mashabow どうやらreCAPTCHAは、a–zの26文字以外のアルファベットも出してくるらしい。面白そうだったので、更新ボタン(矢印が巴形になっているボタン)を押しまくって変なものが出てこないか探してみた。 reCAPTCHAの無茶振り・初級篇 thouſand。上のツイートにも出てきた ſ はいわゆる長いsで、現代風に表記すれば thousand。古い

    reCAPTCHAの無茶振りとその理由 - しろもじメモランダム
    FeZn
    FeZn 2011/10/10
  • 『日本が失ってしまった電子情報空間 著作権という罠に日本ははまっている。』

    Googleが、100億ページ以上のデータを飲み込んで、索引化した時点で、 実インターネット空間の情報よりも、Googleの索引済情報量のほうが、 何倍、もしくは、何百倍も大きかったことになる。 この情報空間を、日は失ってしまった。 おじいさんのランプのような法律によって。 このことによって、日が失ったもの大きさを、誰が知ることになるのでしょうか? 法律は、国会や議会でしか決めることができないので、このことに着目しなかった 議員さんを責めるべきなのでしょうか。 情報立国して立つために、ハードやソフトではない、法が、重要な問題になってきているのですが どうなるのでしょうか。 日が、格的に、図書の電子化をはじめようとするころ(10年後でしょうか?) Googleの高笑いが聞こえてきそうです。 Googleは、2007年7月から、福澤諭吉の江戸、明治の活字の読取に挑戦しているのですよ。

    『日本が失ってしまった電子情報空間 著作権という罠に日本ははまっている。』
  • 『Googleの明治の活字 OCR化の次なる 一手(まったくの推測です。)』

    Googleが、明治の活字に挑戦している。 現在の状況をみるとかなり苦戦しているようだ。 ところで、学問のすすめ は、どこにある? どうりで、検索できないわけだ。 ほんとうは、學問すゝめ: 自第一篇至第十七篇 というらしい。 一瞬、慶応義塾大学が、とんでもないミスをしたと 喜んだ、私が馬鹿だった。 明治に出版された表紙をみると、読めない。うーん。 Googleが正しいようだ。 ちなみに、青空文庫では、 さて、Googleは、明治の活字をどのように攻略するのか。 福翁自傳で考えてみよう。 すでに、デジタルデータがある。 すくなくとも、青空文庫にはある。 これを、ルビなどのない、OCRに対応するデータに加工して、 Googleが読んだOCRデータと付き合わせる。 すると、OCR読み取りパターンとテキストと対応することになるので、 そのまま、OCRの認識を強制的に修正、活字パターンと一致させる。

    『Googleの明治の活字 OCR化の次なる 一手(まったくの推測です。)』
  • MOONGIFT: » Web上でOCR「WeOCR Project」:オープンソースを毎日紹介

    会議室にあるホワイトボード。印刷する仕組みがあれば良いが、そうでない場合は携帯電話のカメラで撮影していく事がある。後で見返すと会議の内容が思い出せるのは便利だが、画像データのままと言うのがいただけない。テキストデータに落とし込む仕組みはないだろうか。 スキャナなどがあれば、OCRと言う手がある。これは大抵スキャナ付属、または有料だ。だがこちらはオープンソースで提供されている。 今回紹介するオープンソース・ソフトウェアはWeOCR Project、Web上で利用できるOCRソフトウェアだ。 Web上で、と言っても実際はCGIベースで動作しているので、インタフェースとしてWebを介しているに過ぎない。だが、ブラウザベースで利用できれば便利な事も多そうだ。 利用できる画像の種類はBMPやJPEGなど。圧縮されていても利用できる。画面のスクリーンショットをアップしてみた限りでは、60~70%くらい

    MOONGIFT: » Web上でOCR「WeOCR Project」:オープンソースを毎日紹介
    FeZn
    FeZn 2007/06/26
  • 1