タグ

電子書籍とOCRに関するkzakzaのブックマーク (5)

  • 全文テキスト化実証実験報告書|国立国会図書館―National Diet Library

    平成22年度に実施した「全文テキスト化実証実験」及び「OCRを用いたデジタル画像の全文テキスト化」について、報告書を公開いたします。 昨今、出版物のデジタル利用をめぐる動きが関心を集めています。このようなデジタル出版データの利活用に向けた動きに対応するため、国立国会図書館では、過去から現在に至る出版物を対象とした、統合的かつ高度な全文テキスト検索における技術的課題に関する実証実験を行いました。また、平成23年7月25日には、出版社向け成果報告会を開催しました。 期間 平成22年10月~平成23年3月 内容 テキストデータ作成に関する実証実験(全文テキスト化システムプロトタイプ構築:日アイ・ビー・エム株式会社) 全文テキストデータの検索・表示に関する実証実験(全文検索・表示システムプロトタイプ構築:株式会社日立製作所) 全文テキスト化実証実験に係る調査及び評価支援等(作業支援:株式会社三菱

  • フランス国立図書館、年間7万冊をOCRスキャンへ

    フランス国立図書館は4月12日(現地時間)、同館が運営する電子図書館サイト「Gallica」向けに今後3年間、1年当たり7万冊ペースで書籍のOCRスキャンを行なうことを発表した。 対象となるのは、同館および提携図書館の所蔵書籍。実際のOCRスキャン作業は仏ドキュメント電子化大手仏Safigや米BancTecの現地法人などが行う。OCR化された作品の一部はEPUB電子書籍にも変換されるという。 関連記事 仏Hachette Livre、Googleと絶版書の電子書籍化スキャンについて5年契約を締結へ 20世紀の絶版書を公費でスキャンするプロジェクトを計画中の仏国で、最大手の出版社がGoogleとの書籍スキャン契約について詳細を明らかにした。 大日印刷、電子図書館の構築支援に腰 大日印刷とその子会社であるCHIグループは、全国の図書館向けに包括的な電子図書館サービスを提供することを明らか

    フランス国立図書館、年間7万冊をOCRスキャンへ
  • 秋元@サイボウズラボ・プログラマー・ブログ: reCAPTCHA - キャプチャを利用した人力高性能OCR

    reCAPTCHA という新サービスはすごい。その構想力には感動させられた。 念のためにCAPTCHA(キャプチャ)について説明しておくと、スパムプログラム(bot)と人間のユーザを見分けるための簡単な(しかし機械にとっ […] reCAPTCHA という新サービスはすごい。その構想力には感動させられた。 念のためにCAPTCHA(キャプチャ)について説明しておくと、スパムプログラム(bot)と人間のユーザを見分けるための簡単な(しかし機械にとっては難しい)クイズのことだ。ある程度ウェブを使っている人なら、ネットサービスの登録時やコメントの書き込み時などに、読みにくく加工されたアルファベットを読まされたりした経験があるだろうと思う。 それらのサイトでは、あなたが人間にしかできないクイズを解いたのを見て、ユーザ登録やコメントの投稿を受け付けたりする仕組みになっているわけだ。文字を読む以外のC

    kzakza
    kzakza 2010/09/09
    「CAPTCHA画像は、これまであったような、きれいなフォントから加工して作られたものではない。実在する紙の本をスキャンして、OCRで読み取ろうと試みた単語のうち、認識に失敗した単語のイメージをベースにしている」
  • グーグル、reCAPTCHAを買収--書籍スキャンにも活用へ

    GoogleがreCAPTCHAを買収した。reCAPTCHAは、ウェブサイトのサインインページの下部によく表示される、ゆがんだ文字のテキストボックスを手がける企業の1つだ。 買収条件は明らかにされなかったが、Googleがブログ記事で述べたところによると、同社はreCAPTCHA の技術を一部のGoogleサイト内におけるセキュリティ対策として利用するほか、大規模な書籍スキャンプロジェクトでも役立てる計画という。reCAPTCHAは、カーネギーメロン大学コンピュータサイエンス学部のプロジェクトから生まれた企業で、従来のCAPTCHA(スパムボットやそのほかの人間でない厄介者を惑わすことを目的とする、曲がりくねった書体で書かれた文字列)技術に新しい工夫を凝らしている。 CAPTCHA技術が開発された目的は、コンピュータには読めない文字を提示することである。しかし、コンピュータは、昔の書籍な

    グーグル、reCAPTCHAを買収--書籍スキャンにも活用へ
    kzakza
    kzakza 2010/09/09
    2009年9月のニュース。
  • 新聞電子化の歩き方 その2 - 電子化

    そろそろ、内容が拡充されましたので、前の地図を改訂しておきます。 新聞電子化に興味はあるけれど、道が分からなければ、以下のガイドを参考にしてみてください。 以下のような方に、お勧めです。 はじめて、このサイトへ迷いこんで来た方 これから新聞電子化について調べたい方 すでに新聞電子化に携わっているが、全体像を整理したい方 (1)「電子化」には、「カレント」と「アーカイブ」という2種類の意味がありますが、ご存知ですか? YESの場合、次へ NOの場合、こちら(の後半)を読んでみてください。 世界最古の新聞をネットで拝見 http://d.hatena.ne.jp/denshikA/20090831/ (2)ここでは、主に「アーカイブ」について書いていますが、よろしいですか? YESの場合、次へ NOの場合、 もし、電子書籍などに興味がある方は、こちらがオススメです。 外部記憶 http://m

    新聞電子化の歩き方 その2 - 電子化
  • 1