マコなり社長 @mako_yukinari あ…ありのまま 今 起こった事を話すぜ! 「おれは Google Driveで画像を開いたと 思ったら いつのまにか文字がすべて書き起こされていた」 な… 何を言っているのか わからねーと思うが おれも 何をされたのか わからなかった… pic.twitter.com/DFGD03VH9z 2018-02-01 09:46:18
昨日ツイッターのフォロワーさんがTLで「人を殴ったらかなり痛いくらいの紙書類の束渡されて、一晩で再編集とか死ぬる」とおっしゃってまして、まだまだ紙ベースの業務進行ってありますしPCに取り込んで効率的にさばくにはどうしたらいいだろうなーと思いまして。 調べてみたところ、GoogleDriveでもテキストスキャンした画像ファイルをOCR変換する機能があるらしくちょっとサンプル作って試して見ましたので本日はそのレビューを。 【追記】縦書き版の検証記事も書いときました。あわせて参考にどうぞ。 GoogleDriveOCR、縦書きだったらどうなのよ? Google Drive OCRの使い方 GoogleDrive利用するにはとりあえずGoogleアカウント必要なのでない方はまずそちらのご用意を。GoogleDriveの導入については過去に サービス開始したオンラインストレージ『Google Dri
2007年に慶応大学の江戸末期、明治初期の活字のOCR化に挑戦していたが、 それは、もう解読済みになっている。 なら、Google は、今何を企んでいるのか? Google Books 慶応大学プロジェクト 明治の図書のOCR解析作業完了 學問すゝめ 自第一篇至第十七篇 「天」「西洋」で、検索 検索成功(2011.1.22確認)
国会図書館とグーグルのデジタルデータは 似て非なるもの ここまで「本」のデジタル化という表現をしてきましたが、そのデジタル化の具体的な内容については説明していませんでしたので、今回は「デジタル化の中身」を取り上げたいと思います。グーグルでのデジタル化と、現段階における国会図書館のデジタル化とはその実態においてかなりの違いがあるからです。 前回、国会図書館は約15万冊の蔵書のデジタル化を終え、今回の補正予算によって新たに75万冊の蔵書デジタル化を進める計画が進行中であることを説明しました。この国会図書館のデジタル化データは、現段階では全て画像となっています。「本」のページをスキャンしたイメージが画像データとして保存されている、ということです。もちろん、「本」のタイトルや著者名、発行年月日といった情報は別途デジタルデータ化され、画像データと関連付けて保存されています。国会図書館が提供してい
Googleで、紙の文書をスキャニングして作成した(テキスト情報をもたない)画像PDFも検索可能になった、とGoogle社がOfficial Google Blogで発表しています。 同社のOCR技術によって画像PDFからテキスト情報を抽出しインデクスすることにより、検索が可能になったとのことです。 A picture of a thousand words? http://googleblog.blogspot.com/2008/10/picture-of-thousand-words.html Google、スキャン文書も検索対象に – MarkeZine http://markezine.jp/article/detail/5822
書籍の電子化について、現状把握をしよーとしてんだけど、今回の切り口は、「OCRのあたり」。 書籍電子化の歴史と、OCR*1の発展の紆余曲折は、姉妹のよーなもの。 OCRの発展の紆余曲折を知ることはとっても大事。 ただ、紆余も曲折もぜーんぶ見ようとすると大変だから、とりあえず「アキラメない」面々に注目しましょ。 出発点:OCRってダメじゃん。使えねぇー。 使えないOCRを前にして、たいていはアキラメる。もーだめだ、書籍電子化なんて、やってられん、ってな感じで。(上図、右の矢印で出て行ってしまう。) ところが、世の中には、なかなかアキラメん連中がいるもので、時に彼らはとんでもないイノベーションをもたらす。*2 使えないOCRを前にして、それでもアキラメなかったのは、次の3派。 1.それでもかけっぱ派 (左派) 2.タグでいいじゃん派 (中道) 3.なんとしても修正じゃい派 (右派) 第1の「そ
米Googleは,オープンソース・コミュニティSourceForge.netで文字認識(OCR)エンジン「Tesseract」を公開した。Google最上級技術リード(Uber Tech Lead)のLuc Vincent氏が米国時間8月,公式ブログGoogle Code Blogへの投稿で明らかにしたもの。SourceForge.netのWebサイトから無償でダウンロードできる。 Tesseractは,米Hewlett-Packard(HP)が1985~1995年にかけて開発していたOCRエンジン。ネバダ州立大学ラスベガス校(UNLV)が1995年に開催したOCRソフトウエアの精度を評価するコンテストで,トップ3の成績を記録したという。しかしHPがOCR事業からの撤退を決めたことから,「Tesseractはほこりをかぶっていた」(Google)。 その後「HPの関係者がTesseract
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く