タグ

OCRに関するwasaiのブックマーク (12)

  • あの「イラつく文字認証」のおかげで年間250万冊もの本がデジタル化されている - ログミー[o_O]

    誰もが一度はイラっとさせられたであろう文字認証「CAPTCHA」。ユーザがコンピュータで無いことを確認するセキュリティ機能のひとつですが、近年、これを解読することは「のテキスト化」に協力することと同義になりました。同システムの開発者でクラウドソーシングも発案した起業家、Luis von Ahn(ルイス・フォン・アン)氏が、7億5,000万人が参加するプロジェクトが生まれたキッカケを語ります。(TEDxCMU 2011より) 誰もが一度はイラっとさせられるCAPTCHA(キャプチャ) ルイス・フォン・アン氏:このように、ゆがめられた文字の並びを読んで埋めるタイプのウェブフォームを見たことのある人は何人いますか? これを見て当にいらいらすると感じた人は何人いますか? はい、すばらしいですね。私がこれを発明しました。私がこれを発明したメンバーの1人です。 (会場笑) これはCAPTCHAと呼

    あの「イラつく文字認証」のおかげで年間250万冊もの本がデジタル化されている - ログミー[o_O]
  • 「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正

    原子力規制委員会がWebサイトで公開している資料の中で、「ストロンチウム」の「ト」と「ロ」が漢字の「卜」(ぼく)と「口」(くち)になっていたとネットユーザーに指摘され、サイトを公開している原子力規制庁が修正する騒ぎがあった。画像PDFをテキスト化する際、文字認識(OCR)ソフトが間違った文字を認識してしまったことが原因という。 誤字があったのは、今年1月に開かれた「第10回特定原子力施設監視・評価検討会汚染水対策検討ワーキンググループ」の会議資料一覧ページ。「福島第一原子力発電所におけるストロンチウム分析の状況について[東京電力]」という資料の「ト」と「ロ」がそれぞれ漢字になっており、「検索避けのためにあえて漢字にしたのでは」などと一部ネットユーザーの間で騒ぎになっていた。 同庁によると、Webサイトに掲載するテキストは通常、手打ちで確認しているが、この会議は資料が届いたタイミングがギリギ

    「ストロンチウム」→「ス卜口ンチウム」は「OCRのミス」 原子力規制庁、サイトを修正
    wasai
    wasai 2014/06/10
    無駄な業務通してるな
  • Windows 8.1版「OneNote」、撮影したテキストの自動調整・OCR対応機能追加

    Microsoftは11月25日(現地時間)、メモアプリ「OneNote」のWindows 8.1版をアップデートした。 OneNoteは米Evernoteの同名のツールと同様に、Webページやドキュメント、写真などをまとめて管理できるクラウドベースのメモアプリ。iPad版とAndroid版もある。 今回のアップデートで、端末のカメラでホワイトボードやレシートなどを撮影し、文書として保存すると、自動的に歪みやホワイトバランスなどが調整・保存される機能が追加された。画像内のテキストはOCR処理され、後から検索できる。スタイラスや指で描いた文字も同様に文字として認識され、検索の対象になる。

    Windows 8.1版「OneNote」、撮影したテキストの自動調整・OCR対応機能追加
  • 凸版、精度99.99%以上で紙の文献を全文データ化するシステムを開発

    凸版印刷は、紙の文献や資料を、精度99.99%以上かつ短納期で全文テキストデータ化する「文献・資料の高精度全文テキスト化システム」を開発したと発表。7月下旬より、このシステムを用いたサービスの提供を開始する。 同システムは、凸版印刷の文字・テキスト処理技術と、IBM基礎研究所が開発した共同校正技術を組み合わせて作られたもの。印刷された文献や資料を光学文字認識(OCR)でテキストとして読み取り、そのデータの精度を統計処理などにより補完。さらに、共同校正により確認・修正を行ったのち、最後に目的に応じた文字・テキスト処理、各種フォーマットへの変換処理を行う。 このシステムによって、高品質化と作業時間の短縮を両立させることに加え、ルビや傍点、縦中横、和欧混植、割り注など、従来のOCRが苦手としていた複雑な日語組版にも対応する。難読文字を効率的に確認・修正するためのサポート機能を強化することで、従

    凸版、精度99.99%以上で紙の文献を全文データ化するシステムを開発
  • 無料でOCR(光学文字認識)したかったらGoogleDriveを試してみるといいかもね

    昨日ツイッターのフォロワーさんがTLで「人を殴ったらかなり痛いくらいの紙書類の束渡されて、一晩で再編集とか死ぬる」とおっしゃってまして、まだまだ紙ベースの業務進行ってありますしPCに取り込んで効率的にさばくにはどうしたらいいだろうなーと思いまして。 調べてみたところ、GoogleDriveでもテキストスキャンした画像ファイルをOCR変換する機能があるらしくちょっとサンプル作って試して見ましたので日はそのレビューを。 【追記】縦書き版の検証記事も書いときました。あわせて参考にどうぞ。 GoogleDriveOCR、縦書きだったらどうなのよ? Google Drive OCRの使い方GoogleDrive利用するにはとりあえずGoogleアカウント必要なのでない方はまずそちらのご用意を。GoogleDriveの導入については過去に サービス開始したオンラインストレージ『Google Driv

    無料でOCR(光学文字認識)したかったらGoogleDriveを試してみるといいかもね
    wasai
    wasai 2012/11/15
    中々良いですな
  • PDFの文字をテキスト化! オンラインで簡単に使えるOCRサービス | ライフハッカー・ジャパン

    「Free Online OCR」は無料で利用できるOCRサービス。OCRは画像などに含まれる文字を認識してくれるもので、画像およびPDF内の文字をテキストやWordに変換してくれるサービスです。 以下に使ってみた様子を載せておきます。 まずFree Online OCRへアクセスしましょう。入力は画像またはPDFが選べます。

    PDFの文字をテキスト化! オンラインで簡単に使えるOCRサービス | ライフハッカー・ジャパン
    wasai
    wasai 2012/06/06
    コメント見る限りでは日本語対応してないっぽいですね
  • 日本生まれのクラウドノート「KYBER」がすごい理由 (1/3)

    オーリッドという日IT企業が注目を集めている。売上高は40億円規模。法人向けWebサービスを提供していたが、昨年から個人向けサービス「KYBER」を開始した。16日に発売した「KYBER Smartnote」(写真、3冊1500円)は、そのサービスの目玉だ。 見た目はごく普通のノート。メモをしたり、議事録をとったり、普通のノートとして使える。ノートをiPhone付属のカメラで撮影し、KYBERのWebサイトにアップロードすると、画像のデータがクラウドサーバー上で管理される(Androidには10月対応予定)。そこまではこれまでのクラウドサービスにもあったもの。「Evernote」を思い浮かべる人もいるだろう。 だが、話はここからだ。 しばらくすると、手書きのメモが文字データになって送られてくる。いわゆるOCR(画像からの文字起こし)だが、その精度は異様に高い。ほぼ完璧だ。納品までも最速

    日本生まれのクラウドノート「KYBER」がすごい理由 (1/3)
  • [CamCard Lite(名刺認識)]名刺の束の整理はAndroid君にお任せ

    Androidの内蔵カメラで撮影した名刺が並ぶ。OCRで認識したデータと画像データの両方を管理できるので、見やすく使い勝手もいい 気が付くとたまっている名刺。これまでにも名刺専用のスキャナーを使ったりして電子化に成功している人はいるだろう。しかし、多くの場合は、結局は入力できなかった名刺が束になって挫折(ざせつ)を味わう。 そんな人は「CamCard Lite(名刺認識)」を試してみてほしい。Android端末のカメラで撮影するだけで、どんどん名刺のデータベース化が進むアプリなのだ。もらった名刺は、ネタ代わりにその場で撮影してもいいし、戻りの電車などで撮影してもいい。場所を選ばずに名刺の読み込みができるので、気軽にデータベース化できる。そうすれば、もらった名刺を持ち歩く必要もなく、そのデータから電話をかけたりメールを送ったりと、紙の名刺にない便利な使い方が可能になる。しかも認識した文字列は

    [CamCard Lite(名刺認識)]名刺の束の整理はAndroid君にお任せ
  • Android版「Google Docs」がリリース--OCR機能を搭載

    共同作業が多いユーザーに朗報だ。米国時間4月27日、「Google Docs for Android」がリリースされた。 この「Android」版は、新規作成、編集、アップロード、ドキュメントの共有など、「Google Docs」でよく使われる中核機能をすべて備えている模様だ。さらにオプションとしてホームスクリーン用のウィジェットが用意されており、文書の新規作成、スター付き文書へのアクセス、写真の撮影やアップロードがワンタッチで行える。 特にうれしい機能の1つは、端末のカメラと連携した光学式文字認識(OCR)機能で、これを使うと、テキストが含まれた写真を編集可能なGoogleドキュメントに変換できる。 Googleではこの機能について、フォーマットされていない英文テキストであれば現時点でもかなり認識できるが、手書きや一部のフォントでは読み取りが難しい場合があるとしている。ただし読み取り性能

    Android版「Google Docs」がリリース--OCR機能を搭載
    wasai
    wasai 2011/04/28
    とりあえずインストールしてみた
  • 「Google Docs」のOCR機能はどこまで使える?

    Google Docs」のOCR(光学文字認識)機能が2月28日から強化され、日語を含む34言語を処理できるようになった。 この機能を使って画像やPDFをアップロードすると、テキスト部分が抽出され、Googleドキュメントに変換される。 機能がローンチされた当初使ってみたところ、日語がかなり文字化けして「まだまだか」といったところだったが、現状ではどうだろう。 まずは、PDFをアップロードしてみる。アップロードする際に、「PDF や画像ファイルからテキストを Google ドキュメントのドキュメントに変換する」のチェックボックスにチェックを付けて、「アップロードを開始」をクリックする。

    「Google Docs」のOCR機能はどこまで使える?
    wasai
    wasai 2011/03/10
    もっとがんばりましょう、というレベルですか
  • Google DocsのOCR変換機能が日本語に対応

    PDFファイルやスキャナで読み込んだ文書の画像ファイルをGoogle Docsにアップロードすると、編集可能なテキストファイルに変換できる機能が横書きの日語に対応した。 米Googleは2月28日(現地時間)、昨年6月にGoogle Docsに追加したOCR(光学式文字認識)機能を、新たに日語を含む29カ国語に対応させたと発表した。日語のPDFやスキャナやデジカメで取り込んだ文字を含む画像をGoogle Docsにアップロードすると、ファイルがテキストデータに変換される。 使い方は、Google Docsの「アップロード」の画面で変換オプションを以下のように設定し、「アップロードを開始」をクリックする。変換が可能なファイル容量の上限は2Mバイトだ。 実際にやってみたところ、PDFではほぼ問題なくテキストに変換されたが、デジカメで撮影した画像からの変換の精度はまだ高いとはいえないようだ

    Google DocsのOCR変換機能が日本語に対応
    wasai
    wasai 2011/03/02
    どんどん便利機能が追加されている
  • 画像ファイルをメールで送るだけでOCRで読み取ってくれる「n1ne@freeOCR」

    Warning: include_once(/home/sites/lolipop.jp/users/lolipop.jp-dp16105308/web/wp/wp-content/plugins/wp-super-cache/wp-cache-phase1.php): failed to open stream: Permission denied in /home/users/0/lolipop.jp-dp16105308/web/wp/wp-content/advanced-cache.php on line 8 Warning: include_once(): Failed opening '/home/sites/lolipop.jp/users/lolipop.jp-dp16105308/web/wp/wp-content/plugins/wp-super-cache/wp-c

    画像ファイルをメールで送るだけでOCRで読み取ってくれる「n1ne@freeOCR」
    wasai
    wasai 2010/04/06
    このサービスは凄いなぁ。後はセキュリティさえしっかりしていれば、売れるサービスに慣れそうな気がする。
  • 1