無料でOCR(光学文字認識)したかったらGoogleDriveを試してみるといいかもね 【オンラインストレージ】 wrote on 2012/11/15 http://blog.56doc.net/Entry/454/無料でOCR(光学文字認識)したかったらGoogleDriveを試してみるといいかもね 昨日ツイッターのフォロ... 続きを読む
オーリッドという日本のIT企業が注目を集めている。売上高は40億円規模。法人向けWebサービスを提供していたが、昨年から個人向けサービス「KYBER」を開始した。16日に発売した「KYBER Smartnote」(写真、3冊1500円)は、そのサービスの目玉だ。 見た目はごく... 続きを読む
黒澤公人のドキュメンテーションシステムの100年(1960年-2060年) 一次情報ダイレクトアクセス時代のドキュメンテーションシステム PR 私立大学に勤務している図書館員です。 プロフィール プロフィール|なう|ピグの部屋 ニックネーム:黒澤公人 性別:男性 血... 続きを読む
1 RT
RT @myrmecoleon:
昨今、出版物のデジタル利用をめぐる動きが関心を集めています。このようなデジタル出版データの利活用に向けた動きに対応するため、国立国会図書館では、過去から現在に至る出版物を対象とした、統合的かつ高度な全文テキスト検索における技術的課題に関する実... 続きを読む
国会図書館が出版物の全文テキスト化実験、参加出版社・印刷会社を募集 国立国会図書館は20日、出版物の全文テキスト検索のための実証実験を行うとして、参加する出版社や印刷会社の募集を開始した。募集期間は8月31日17時まで。 実験では、出版物の版下データ... 続きを読む
カレントアウェアネス・ポータルは、図書館界、図書館情報学に関する最新の情報をお知らせする、国立国会図書館のサイトです。 電子化の現場からみたOCRの動向 1. はじめに インターネットを通じて、自宅や職場などから閲覧できる本が増えている。あるもの... 続きを読む
電子化業界では、なぜか、「80%以上の精度」にこだわります。通称「80%ルール」です。Our experience suggests that should the word accuracy be greater than 80%, then most fuzzy search engines will be able to sufficiently fill in the gaps or find re... 続きを読む
図書館業務に計算機を導入して,より多様な情報サービス,より効率的な業務処理を実現することが積極的に試みられている.しかし,膨大な書誌情報をいかに効率よく計算機に入力するかが大きな課題となっている.このために,図書目録カードから目録情報を自動的に抽出... 続きを読む
日経新聞の朝刊で「国会図書館の本、有料ネット配信 400万冊対象、11年にも」を見て、「ブック検索著作権問題、Google期限まで半月 [BM時評] 」で紹介したようにグーグル・ブック検索に押しまくられた国内勢も反転、攻勢に出るのかと思いました。ところが、調... 続きを読む
国会図書館とグーグルのデジタルデータは 似て非なるもの ここまで「本」のデジタル化という表現をしてきましたが、そのデジタル化の具体的な内容については説明していませんでしたので、今回は「デジタル化の中身」を取り上げたいと思います。グーグルでのデジ... 続きを読む
カレントアウェアネス・ポータルは、図書館界、図書館情報学に関する最新の情報をお知らせする、国立国会図書館のサイトです。 ニュージーランド国立図書館が、2001年から実施している新聞デジタル化プロジェクト(ウェブサイト“Papers Past”で公開中)に関連... 続きを読む
Googleで、紙の文書をスキャニングして作成した(テキスト情報をもたない)画像PDFも検索可能になった、とGoogle社がOfficial Google Blogで発表しています。 同社のOCR技術によって画像PDFからテキスト情報を抽出しインデクスすることにより、検索が可能になっ... 続きを読む
データの項目数が少ない子書誌の作成は、(大きな声では言えませんが…って言ってるようなものだけど)図書に比べてかなりラクチン。号数等の数字を入力+兄弟たちとの「似てる度」を確認=5分で終了ということも。 が、しかし。時に、1時間たってもまだ越え... 続きを読む
カレントアウェアネス-R 新着ニュース NDL書誌情報ニュースレター、IFLAケベック大会の書誌データ関連セッションの報告を掲載 ( 2008-10-03 ) 欧州研究図書館協会の“LIBER Quartely”誌、OA化 ( 2008-10-03 ) Thomson Reuters、2008年のノーベル賞の有力候... 続きを読む
カレントアウェアネス-R 新着ニュース NDL書誌情報ニュースレター、IFLAケベック大会の書誌データ関連セッションの報告を掲載 ( 2008-10-03 ) 欧州研究図書館協会の“LIBER Quartely”誌、OA化 ( 2008-10-03 ) Thomson Reuters、2008年のノーベル賞の有力候... 続きを読む
書籍電子化 | 17:03 | 書籍の電子化について、現状把握をしよーとしてんだけど、今回の切り口は、「OCRのあたり」。 書籍電子化の歴史と、OCR*1の発展の紆余曲折は、姉妹のよーなもの。 OCRの発展の紆余曲折を知ることはとっても大事。ただ、紆余も曲折もぜーん... 続きを読む
それぞれの出版者のHPで完成形がご覧になれます。 大日本絵画のHP 金の星社のHP ここでご紹介した図書を含む非掲載分のMARCの作成件数は年間約16,000件で、2007年は8/31現在で10,410件となっています。 最後に、その1でご紹介したスキャナの秘密をちょっとお教... 続きを読む
Posted by T.V. Raman, Research Scientist From time to time, our own T.V. Raman shares his tips on how to use Google from his perspective as a technologist who cannot see -- tips that sighted people, among others, may also find useful. - Ed. A... 続きを読む
Digitizing Books One Word at a Time reCAPTCHA is a free CAPTCHA service that helps to digitize books. A CAPTCHA is a program that can tell whether its user is a human or a computer. You've probably seen them — colorful images with distorted ... 続きを読む
スクリーンショット+OCRを実現する『Kleptomania』 May 13, 2007 2:13 PM written by webmaster StructuRiseのKleptomaniaはちょっと便利そうだ。 このソフト、いわゆるスクリーンショットを撮ってくれるのだが、同時にOCR的な機能をもっているところがよい。 ... 続きを読む