タグ

ocrに関するxiaodongのブックマーク (69)

  • 橋本商会 » scansnapと裁断機を買って本を電子化しまくる

    を解体する為にこの裁断機を買った。14000円ぐらい。 大型ペーパーカッター 裁断機 まだ必要ないので買ってないけど、替え刃も発見した。 コピー用紙500枚らくらくカット/人気 商品大型ペーパーカッター用『替え刃』 ジャンプぐらいの厚い雑誌でも切れる。このサイズの裁断機では妙に安い(他の半額程度)だが、そのかわり届いた時点で油でぬるぬるしている。 軍手とぞうきんを用意しておいて、よく拭いた。 刃の部分には茶色い油?が付着しているので、試しにいらないを裁断してみて油の拭き残しが無いか確かめる必要がある。 油がついた。(古ぐらしは新しいのを持っているので、2003年版を試し切りに使った) ■裁断する まずスキャンできるようにをバラバラにする。 表紙を外す しっかり押さえる 切る 切る。裁断機の刃が超鋭いので、あんまり力はいらない。 バラバラにしたをscansnapに入れる iPhon

    橋本商会 » scansnapと裁断機を買って本を電子化しまくる
    xiaodong
    xiaodong 2010/01/04
    OCR機能については日英自動選択,縦書き認識ができるのでAcrobat Proがよいと思う。
  • 電子化検定2009 - 電子化

    今年最後のエントリです。なので、突然ですが、「電検」こと電子化検定を行います。 あなたは何級? 以下の問題にすばやく答えよ。制限時間13分くらい。 *1 (問題1)左上のような画像を2値化した場合、右上のように消えてしまう文字がある。なぜか? (問題2)消えてしまわないようにするためには、どうすれば良いか?あっさり述べよ。 (問題3)このような2値化の問題とOCRの関係について、かなり簡潔に述べよ。 続きを見る前に、じっくり考えてみましょう。 (問題1の回答例) まず、大前提を確認しましょう。 2値化というのは、「黒と白しか使わない」画像にすることです。例を挙げれば、FAXなどがそうです。カラーじゃない、ということで、グレースケールと混乱する場合がありますが、2値化された画像は、灰色もありません。とても、ファイルサイズが小さくなるのですが、文字や形が欠けちゃう、という欠点があります。 次に

    電子化検定2009 - 電子化
    xiaodong
    xiaodong 2009/12/16
    3級。まだまだ精進が足りない・・・。
  • 歴史研究のひとのための、テキスト化ことはじめ - 取引費用ゼロの歴史 〜 アーカイヴズと歴史研究のトリセツ

    前回のつづきで、TEI のお勉強にはいりたいと思ったのですが、いちおうこのブログはトリセツであることを目指していて、しかも一般に資料のデジタル化にそれほど熱心とはいえない歴史研究のひとたちをこっち側にひきこむことをひとつのねらいともしています。そこで、歴史研究のひとむけに、まずはそもそもテキスト化やマークアップをなぜやるのかという、超基的なところからはじめることにしようと思いました。今回のお題は、「パパ、テキスト化が何の役に立つの?」です。(以下は正確さよりもおおざっぱに問題をつかむことを目的に書いています) 前に書いた文書のテキスト化についてのエントリでは、テキスト化することのメリットについては異論はないだろうという前提で話をしていましたが、じつはそんなコンセンサスはないんではないかと思うようになったので、そもそも〜話からはじめることにします。まずはテキスト化の前のデジタル化からです。

    歴史研究のひとのための、テキスト化ことはじめ - 取引費用ゼロの歴史 〜 アーカイヴズと歴史研究のトリセツ
    xiaodong
    xiaodong 2009/12/10
    「いまのところきちんと自動化できない処理」に私も日々苦しんでいます・・・。
  • MSN Japan - ニュース, 天気, メール (Outlook, Hotmail), Bing検索, Skype

    MSN はニュース、天気、エンタメ、マネー、スポーツ、ライフスタイル、自動車などの最新情報と、動画、Bing検索、メールの Outlook.com (旧 Hotmail)、Skypeなどを提供する Microsoft が運営するポータルサイトです。

    MSN Japan - ニュース, 天気, メール (Outlook, Hotmail), Bing検索, Skype
    xiaodong
    xiaodong 2009/11/16
    「蛍光ペンでマークした単語や文章を PDF のキーワード情報に自動追加できる「インテリジェント・インデックス機能」を備え、OS の検索機能で簡単に書類の検索が可能。」キーワード自動登録機能か,便利そう。
  • ペパレス - 本のスキャン、裁断しない本のスキャンやOCRテキスト化、エクセル名簿作成もできる総合スキャニングサービスです。

    事業概要 トップページ サービス更新履歴 スタッフご挨拶 お客様の声 お取引の流れ 書籍の発送と返送 電子化支援グッズ 電子化コラム 書籍電子化 高品質スキャン一覧 スキャンの用途 スキャン品質と見 解像度について 裁断スキャン 裁断しないスキャン 古書スキャン 書類スキャン 大型スキャン スキャン 料金表 自動見積フォーム テキスト化 入力業務一覧 OCR・テキスト化 名簿のエクセル化 テキスト化のご依頼 名刺電子化 名刺の電子化TOP 失敗にご注意! 名刺電子化タイプ 電子化名刺の使い方 名刺料金表 名刺電子化見積り 2022年9月1日 個人事業主様~中小企業様向けエクセル連携 名刺電子化サービスを開始いたしました。 2022年1月29日 創業14年目を記念してスタッフ挨拶を掲載いたしました。 2022年1月26日 画像処理システムがバージョンアップし、文字がさらにくっきり、読みやす

    xiaodong
    xiaodong 2009/10/19
    「テキスト化ではOCRという画像の文字化処理後に目視での処理ミス修正が必要」「業界では半値程度の価格ではありますが、それでも100円/頁からの処理費用が必要で、小説1冊程度で20000円程度がかかります。」
  • 「OnlineOCR」でスキャンした文書を編集可能なテキストデータに変換(日本語未対応) | ライフハッカー・ジャパン

    デスク配線がスッキリ。Ankerの全部入り12 in 1モニタースタンドが突然8,250円OFFされてた #Amazonセール

    「OnlineOCR」でスキャンした文書を編集可能なテキストデータに変換(日本語未対応) | ライフハッカー・ジャパン
    xiaodong
    xiaodong 2009/10/19
    日本語には未対応。
  • OCRはどのように間違いを犯すのか? - 電子化

    さて、JPEG2000に関する小難しい話*1が続いていますので、ちょっと休憩です。 日のお題画像 日は、OCRについて、お話します。 (http://denshika.cc/faq/faq4.phpも参照してください。) OCRの技術を簡単に説明しますと、こんな紙面の画像があるとしますと、 http://chroniclingamerica.loc.gov/lccn/sn83030272/1879-07-01/ed-1/seq-1/ 赤丸の記事に該当する部分を抜き出して、 さらに、1行を抜き出して、 さらに、単語を抜き出して、 さらに、文字単位に切り分けます。 ここまで来たら、各文字が、それぞれ何か、ということを計算します。 普通に1文字づつ計算をしていくと、たとえば、  を  と勘違いしたり、  を  と勘違いしたりします。 なので、上の「PIECES」という単語を と勘違いする可能

    xiaodong
    xiaodong 2009/10/10
    OCRの誤認識・誤変換の話。「しかし、このようなミスは、ある程度予測可能ですので、すでに対策があります。JPEG2000のシリーズが終了したら、その対策について、お話します。」楽しみ!
  • 文書のテキスト化 2 - 取引費用ゼロの歴史 〜 アーカイヴズと歴史研究のトリセツ

    みんなで文書のテキスト化をしましょうよ、という前回のつづきのお話です。前回はお話の導入のはずだったのですが、歴史研究仲間のおばらくんからじっくりなコメントをもらったので、導入のつづきとしてあらためてエントリを書きます。今回は、主に歴史研究のひとむけの「なんでテキスト化をするのか」というお話です。 (おばらくん、いろんなひととじっくり議論するためにブログやってるんだから、コメントが長くなるのはもちろん歓迎なのです。すまんとか言わないでくださいね) わたしは、テキスト化を大規模に進めることによって、いままでとはちがう歴史研究の方法を模索することができるようになると思っています。たぶん、そのことについては異論はあまりないと思います(たとえば保立道久先生や東大の史料編纂所のお仕事を見てください)。でも、「そんなこと言っても〜」という歴史研究のひとたちの声をたくさん聞いてきました。そこで、今回はその

    文書のテキスト化 2 - 取引費用ゼロの歴史 〜 アーカイヴズと歴史研究のトリセツ
  • 文書のテキスト化 - 取引費用ゼロの歴史 〜 アーカイヴズと歴史研究のトリセツ

    今回のおはなしは、いいかげんみんなでよってたかって文書のテキスト・ファイル化をしましょうよというお話です。 書籍のテキスト化を進めているプロジェクトには、もはや誰にもおなじみの感があるプロジェクト・グーテンベルクや青空文庫などがあります。一方で、文書の画像を中心に公開しているのは、グーグル・ブック検索やインターネット・アーカイヴなどたくさんあります。日語のものならさしずめ国会図書館の近代デジタル・ライブラリーでしょう。 しかし、これらのプロジェクトにはわたしたちにとってはざんねんなところがあります。 テキスト中心のプロジェクト プロジェクト・グーテンベルクのProof Readersの作業は、非常に分散されているのが特徴ですが、そのため自分の興味ある文書のテキスト化に必ず関われるかというと、ほぼそういうことはありません。これは、かなりやる気をそがれる部分です。もちろん、作業が分散されてい

    文書のテキスト化 - 取引費用ゼロの歴史 〜 アーカイヴズと歴史研究のトリセツ
  • Google Docsで、画像ファイルのテキスト変換が可能になる?! | ライフハッカー・ジャパン

    PDF-to-Word-Converter』や『Zilla PDF to TXT Converter』など、PDFファイルをテキスト変換するツールは数々ありますが、PNG形式やJPG形式のファイルをテキスト化するツールは一歩遅れている印象...。そんな中、Google Docsでは、画像のテキスト変換機能の第一弾がリリースされたとのこと。まだテスト版ということもあり、機能の精度については十分でない面が多いですが、第一報としてお届けします。 GoogleDocsでは、アップロードしたPNGファイル・JPGファイル・GIFファイルなどの画像ファイルをテキストに変換するという機能(テスト版)がリリースされました。こちらのページでGoogle Docsへの「アクセスを許可」をすれば、デモ機能を実際に使ってみることができます。米ライフハッカー編集部が早速試してみたところ、米Lifehacker記事

    Google Docsで、画像ファイルのテキスト変換が可能になる?! | ライフハッカー・ジャパン
  • Google Docs にテキストを OCR する機能が追加予定?

    Perform OCR with Google Docs – Turn Images Into Editable Documents まだユーザーインターフェースそのものに組み込まれてはいないようですが、Google Docs に OCR 機能が追加されるのではないかという記事が Digital Inspiration で紹介されています。 この機能は Document List Data API の例として公開されているもので、こちらのフォームを利用して画像をアップロードすると、テキストが認識されて自動的に Google Documents に変換されます。 現在の所英数字のみ 画像はそれなりに高解像度の必要があります。1文字ごとに 10 px ほどの高さが目安 ファイルサイズは最大 10 MB、25 メガピクセル ファイルサイズに従って時間がかかります。500K くらいなら 15 秒、

    Google Docs にテキストを OCR する機能が追加予定?
  • SSIMとは何か? その3 - 電子化

    日は、同じSSIMでも、少し異なる側面を見てみましょう。(過去2回と比べても、マニア度高めですので、お酒でも飲みながら、リラックスして読んでください。) 日の課題画像: http://www.ece.uwaterloo.ca/~z70wang/publications/icassp05.pdf 4ページより 前回は、PSNRよりSSIMの方が「私たちの感覚により近い」ということについて、確認してみました。ここで、電子化業界人は、おそらくピンとくるわけです。 「似てる」か「似てないか」について、「私たちの感覚により近い」ということは、OCR*1として、使えるんじゃないでしょうか? と。日は、ここを追及してみましょう。 前回も言いましたが、SSIMと言えば、Zhou Wangさんです。さっそく、彼の別の論文を見てみましょう。 http://www.ece.uwaterloo.ca/~z7

    SSIMとは何か? その3 - 電子化
  • グーグル、reCAPTCHAを買収--書籍スキャンにも活用へ

    GoogleがreCAPTCHAを買収した。reCAPTCHAは、ウェブサイトのサインインページの下部によく表示される、ゆがんだ文字のテキストボックスを手がける企業の1つだ。 買収条件は明らかにされなかったが、Googleがブログ記事で述べたところによると、同社はreCAPTCHA の技術を一部のGoogleサイト内におけるセキュリティ対策として利用するほか、大規模な書籍スキャンプロジェクトでも役立てる計画という。reCAPTCHAは、カーネギーメロン大学コンピュータサイエンス学部のプロジェクトから生まれた企業で、従来のCAPTCHA(スパムボットやそのほかの人間でない厄介者を惑わすことを目的とする、曲がりくねった書体で書かれた文字列)技術に新しい工夫を凝らしている。 CAPTCHA技術が開発された目的は、コンピュータには読めない文字を提示することである。しかし、コンピュータは、昔の書籍な

    グーグル、reCAPTCHAを買収--書籍スキャンにも活用へ
  • Google、OCR技術のreCAPTCHA買収

    Googleは9月16日、カーネギーメロン大学のコンピュータ科学者が設立した新興企業reCAPTCHAを買収したと発表した。印刷物のデジタル化プロジェクトの推進と、スパム配信や詐欺目的の悪質なサービス利用を阻止するのが狙い。 reCAPTCHAは、同大学のコンピュータ科学者ルイス・フォン・アーン助教授の研究プロジェクトから生まれた企業。reCAPTCHAの開発した技術や変形文字は、古い新聞や書籍からスキャンした文字を使っており、インクが薄れたり紙がいたんでいたりして、光学技術を使った現在の文字識別プログラムでは判読が難しいという。 reCAPTCHAの買収により、印刷文字を光学技術で読み取るOCRの強化技術Google BooksやGoogle News Archive Searchといったプロジェクト推進に役立てることが可能になるとGoogleは説明している。 また、これまでのCAP

    Google、OCR技術のreCAPTCHA買収
  • 経験上、OCR変換が80%以上の精度だと、検索でヒットする確率は95-98%の確率となーる - 電子化

    電子化業界では、なぜか、「80%以上の精度」にこだわります。通称「80%ルール」です。 Our experience suggests that should the word accuracy be greater than 80%, then most fuzzy search engines will be able to sufficiently fill in the gaps or find related words such that a high search accuracy (>95-98%) would still be possible from newspaper content because of repeated significant words. http://www.dlib.org/dlib/july09/munoz/07munoz.html とい

    経験上、OCR変換が80%以上の精度だと、検索でヒットする確率は95-98%の確率となーる - 電子化
    xiaodong
    xiaodong 2009/09/14
    「meetがmootと変換されてしまった場合、文字単位では2勝2敗なのに、単語単位では0勝1敗だからです。」一度mootと読んでしまうと他の箇所にでてくるmeetもmootになってさらに連敗を重ねてしまうOCRの誤認識のワナ。
  • 新聞はこうして電子化される(1) - 電子化

    さて、このへんで、新聞電子化の現場をご紹介しましょう*1。日の題材は、こちらのビデオです。(出所が書かれていない写真は、全てこのビデオ内から取りました。) このビデオは、 Promotional video of the University of Kentucky methodology for newspaper digitization for the National Digital Newspaper Program というわけで、米国ケンタッキー大学が、彼らの「やり方」を紹介したビデオです。この米国ケンタッキー大学は、先日ご紹介したNDNPの一環として新聞電子化に関わっています。 ところで、新聞を電子化する場合、2つの方法が考えられます。すでにマイクロフィルム化されている場合はマイクロフィルムから電子化し、マイクロフィルムが無い場合は、紙面を直接電子化していきます。日は、マ

    xiaodong
    xiaodong 2009/09/04
    「このレイアウトを人間の目で確認して、それを効率よく入力していく作業が必要になります。」やっぱり自動的にはむりなのか。
  •  喉から手を出してまで、UCが欲しがった”Coordinates"とは? - bookscanner記

    前回、UCグーグル契約書の4.7にある Image Coordinates will only be provided (i) so long as University complies with the volume commitments set forth in Section 2.2 という部分を見たCoyleさんが、「もしUCが毎日3,000冊を提供するんだったら、GoogleはImage Coordinatesをあげる、って書いてあるけど、そもそもこの二つが比べられるなんて、おもろくない?」と言ってたことを紹介した。そして、この小さな歪みから、UCとグーグルが、それぞれ喉から手が出ちゃったくらい欲しがった("really, really, really wanted ")ものを、Coyleさんは予想した。 そんで、このCoyleさんの言ってることを正しく理解するためには、Im

     喉から手を出してまで、UCが欲しがった”Coordinates"とは? - bookscanner記
  •  大量スキャンプロジェクトにおいて、ダブりなどない② - bookscanner記

    9月11日に書いたものの続編。 前回の要約 出版された当時は「同じ」だったものが、汚れたり、書き込みされたり、折られたり、切られたりして、もはや「スキャン」上「同じ」とは言えないようになってる という感じで、の状態に注目して「の大量スキャンプロジェクトにおいては、ダブりなんてないよ」ってことを主張してみた。 今回は、仮にの状態が全く同じだったとしても、それでも「ダブりなんてないよ」ということを見てみる。特にスキャン画像の傾きとOCRについて注目してみるよ。 fuzzy2さんが、家庭用スキャナとOCRで、小説『涼宮ハルヒの憂』(結構、いろんなところでこの小説の話題を目にするんだけど、いまだに読んだことがない、お恥ずかしい限り。)を電子化して、OCR結果を検討してる。必見。 http://d.hatena.ne.jp/fuzzy2/20060916/p1 http://d.hate

     大量スキャンプロジェクトにおいて、ダブりなどない② - bookscanner記
    xiaodong
    xiaodong 2009/09/04
    「スキャン画像が傾く > 傾きを補正しないとOCRにかけれない > 補正具合でOCR結果に差が出る」まさに。
  • 書類や本への書き込みについて - 取引費用ゼロの歴史 〜 アーカイヴズと歴史研究のトリセツ

    会議やプレゼンなどで配られた書類や、などの紙媒体の資料に手書きでメモを書き込むときの Tips おもいつきです。あたりまえといえばあたりまえのことですが。 1. 必ず色つきのペンで書き込みましょう。それも、赤や青のような基的な色で、しかも色数はふたつくらいまでに抑えましょう。蛍光ペンはだめです。 2. スキャンするときに特定の色をドロップする機能があるスキャナ・ソフトを使いましょう。(ドキュメント・スキャナとして売られているものだとキャノンの ImageFormula や、エプソンのスキャナについているソフトだとこの機能が最初からついています)。 これだけです。スキャンするときに手書きで入れたメモをドロップするわけです。そのメリットは、手書き部分がドロップされると、OCRの読み取り精度があがるということです。さらにマイナーなメリットとしては、会議資料などで元の書類に手書きの訂正が入って

    書類や本への書き込みについて - 取引費用ゼロの歴史 〜 アーカイヴズと歴史研究のトリセツ
    xiaodong
    xiaodong 2009/08/30
    手書きの部分もOCRにかけて検索できるようにしたい。
  • 産業用ロボット、サービスロボット、その他ロボット関連 ニュース: 2009.08.13 東大の石川教授ら、書籍を電子データ化できる連続スキャンシステム開発

    東京大学の石川正俊教授、小室孝講師らの研究室(http://www.k2.t.u-tokyo.ac.jp/)は、カメラの前で書籍を素早くめくるだけで内容を取り込める速読スキャンシステムを開発した。1/1000秒の動きを捉えるカメラセンサ1台と2種の照明によりページの変形把握と文字・絵のデータ取得を同時に行い、電子データとして取り込む。図書館などの書籍の電子データにかかる作業を低コストで高速化に行える。また、書かれた文字や絵を検索することも可能という。 システムは2種の照明とカメラ、同期制御回路、計算機から構成される。レーザラインプロジェクタの光を照射して3次元形状を計測し、同時に、照明光を利用してデータスキャンを行う。変更した形状の情報から書籍データの歪みを補正して保存する。3次元形状も取り込めるため、画面上でめくる動きを再現することもできる。理論上はカラーコピーも可能。ただし現状は、コピ

    産業用ロボット、サービスロボット、その他ロボット関連 ニュース: 2009.08.13 東大の石川教授ら、書籍を電子データ化できる連続スキャンシステム開発