タグ

OCRに関するak1024のブックマーク (6)

  • ScanSnap S1500 の設定まとめ - 電子書籍を自炊するときの 10 のポイント - おいちゃんと呼ばれています

    これまで電子書籍を自炊するエントリーをいくつか書いてきましたが、予想以上のはてブとトラバと問合せをいただいて、嬉しい限りです。 裁断については「裁断機 PK-513L でを 100冊裁断してみた - 経験した 9つの失敗とその回避方法」でほぼ完結していますが、「スキャン → OCR テキスト認識」についても ある程度 情報が出揃ったので、この辺りで一度まとめておこうと思います。 だーかーらー、結局、ScanSnap S1500 はどう設定すれば良いわけ??時間がもったいないから手短によろしく << という声に正面から向き合ってみるエントリーです。 では、早速。 *1. 画質の選択 : スーパーファイン オススメは「スーパーファイン(カラー/グレー:300dpi、白黒:600dpi)」です。「ファイン(カラー/グレー:200dpi、白黒:400dpi)」との差は肉眼では分かりづらいですが、

  • 日本生まれのクラウドノート「KYBER」がすごい理由 (1/3)

    オーリッドという日IT企業が注目を集めている。売上高は40億円規模。法人向けWebサービスを提供していたが、昨年から個人向けサービス「KYBER」を開始した。16日に発売した「KYBER Smartnote」(写真、3冊1500円)は、そのサービスの目玉だ。 見た目はごく普通のノート。メモをしたり、議事録をとったり、普通のノートとして使える。ノートをiPhone付属のカメラで撮影し、KYBERのWebサイトにアップロードすると、画像のデータがクラウドサーバー上で管理される(Androidには10月対応予定)。そこまではこれまでのクラウドサービスにもあったもの。「Evernote」を思い浮かべる人もいるだろう。 だが、話はここからだ。 しばらくすると、手書きのメモが文字データになって送られてくる。いわゆるOCR(画像からの文字起こし)だが、その精度は異様に高い。ほぼ完璧だ。納品までも最速

    日本生まれのクラウドノート「KYBER」がすごい理由 (1/3)
  • Google DocsのOCR変換機能が日本語に対応

    PDFファイルやスキャナで読み込んだ文書の画像ファイルをGoogle Docsにアップロードすると、編集可能なテキストファイルに変換できる機能が横書きの日語に対応した。 米Googleは2月28日(現地時間)、昨年6月にGoogle Docsに追加したOCR(光学式文字認識)機能を、新たに日語を含む29カ国語に対応させたと発表した。日語のPDFやスキャナやデジカメで取り込んだ文字を含む画像をGoogle Docsにアップロードすると、ファイルがテキストデータに変換される。 使い方は、Google Docsの「アップロード」の画面で変換オプションを以下のように設定し、「アップロードを開始」をクリックする。変換が可能なファイル容量の上限は2Mバイトだ。 実際にやってみたところ、PDFではほぼ問題なくテキストに変換されたが、デジカメで撮影した画像からの変換の精度はまだ高いとはいえないようだ

    Google DocsのOCR変換機能が日本語に対応
  • 本の電子化を始めたのでまとめる。 - 機械

    大阪から東京への引越しを機に、前からやってみたいと思っていたの電子化をすることにしました。 電子化の実行に踏み切った理由は、荷造りで部屋を埋め尽くした入り段ボール箱の山を見て「うへぇ」と思ったからです。これは減らしていかないといつか地震で押し潰されて死んじまうなと。 もう一つの理由は、通勤で電車に乗る時間が片道40分に増えたから。職場が近いと家賃が高いし電車が混む場所なので、40分かかっても座れる方を選んだのです。往復80分あれば随分とが読めますよね。 普通に持ってけって話ですが、時間を考えると2〜3冊は持ち歩きたいところ。なので嵩張らないように持ち歩けるのはありがたいのです。 前置きが長くなりましたが、以下に俺自身が試行錯誤して落ち着いたスキャニングの方法について書いていきます。「漫画の電子化の方法」(以下、「電子化」)を参考にさせていただきました。 電子化する 完結している漫

    本の電子化を始めたのでまとめる。 - 機械
  • 橋本商会 » scansnapと裁断機を買って本を電子化しまくる

    を解体する為にこの裁断機を買った。14000円ぐらい。 大型ペーパーカッター 裁断機 まだ必要ないので買ってないけど、替え刃も発見した。 コピー用紙500枚らくらくカット/人気 商品大型ペーパーカッター用『替え刃』 ジャンプぐらいの厚い雑誌でも切れる。このサイズの裁断機では妙に安い(他の半額程度)だが、そのかわり届いた時点で油でぬるぬるしている。 軍手とぞうきんを用意しておいて、よく拭いた。 刃の部分には茶色い油?が付着しているので、試しにいらないを裁断してみて油の拭き残しが無いか確かめる必要がある。 油がついた。(古ぐらしは新しいのを持っているので、2003年版を試し切りに使った) ■裁断する まずスキャンできるようにをバラバラにする。 表紙を外す しっかり押さえる 切る 切る。裁断機の刃が超鋭いので、あんまり力はいらない。 バラバラにしたをscansnapに入れる iPhon

    橋本商会 » scansnapと裁断機を買って本を電子化しまくる
    ak1024
    ak1024 2010/01/04
    "中高の頃に毎年度みんなの作文や部活の大会記録がまとめられた200ページぐらいの本が作られていたんだけどそれもスキャンして全部パソコンに入れておいた。OCRもかけてあるので、これで黒歴史を検索できる"
  • Google Docs にテキストを OCR する機能が追加予定?

    Perform OCR with Google Docs – Turn Images Into Editable Documents まだユーザーインターフェースそのものに組み込まれてはいないようですが、Google Docs に OCR 機能が追加されるのではないかという記事が Digital Inspiration で紹介されています。 この機能は Document List Data API の例として公開されているもので、こちらのフォームを利用して画像をアップロードすると、テキストが認識されて自動的に Google Documents に変換されます。 現在の所英数字のみ 画像はそれなりに高解像度の必要があります。1文字ごとに 10 px ほどの高さが目安 ファイルサイズは最大 10 MB、25 メガピクセル ファイルサイズに従って時間がかかります。500K くらいなら 15 秒、

    Google Docs にテキストを OCR する機能が追加予定?
  • 1