タグ

OCRに関するArahabicaのブックマーク (23)

  • 東芝レビュー2015年4月

  • Ubuntu 14.04 LTS でOCR(光学文字認識)

    打ち合わせの資料など、まだ印刷物をいただくケースが多いです。 WindowsであればWordやExcelなどで資料を作っていただけるので、そのデジタルデータをいただければまったくそれで問題ないんですが、なぜか印刷してお渡しいただけるんですよね。 それでも「デジタルデータをください」といって支給していただけるのがほとんどですが、いただけないケースもあります。中には、印刷物をスキャンしたり、携帯で撮影した写真を送ってくれたり、いろいろ試行錯誤してくれちゃったりします。 まぁ・・・迷惑なケースもありますが、いろんな理由があるのでしょうね。 そこで、OCRを利用してテキストデータとして作成しようという訳です。 Ubuntu 14.04 LTS を利用して作業を行います。 環境 PCの環境は良いとして、「tesseract-ocr」と「gImageReader」と「Googleドキュメント」をそれぞ

    Ubuntu 14.04 LTS でOCR(光学文字認識)
  • 日本語OCRライブラリNHocrを利用してみる - Qiita

    NHocrは日語用OCR(光学文字認識)用ライブラリ。 割と世界的に有名なtesseract-ocrより日語の性能は良いということで使ってみることにした。 ちなみに、どちらもライセンスはApache License V2.0。 性能を評価してくれているブログ( http://g86.dbcls.jp/~yag/wordpress/archives/1351 )を見つけたのだけれど、これにインストールできなかったとかいてあるとおり、すんなりとはインストールできなかったのでインストールの仕方を書いておく。 ./configureでのfailの解決 $ configure checking for a BSD-compatible install... /usr/bin/install -c checking whether build environment is sane... yes

    日本語OCRライブラリNHocrを利用してみる - Qiita
  • tesstrain.sh で Tesseract-OCR の言語データをカスタマイズする - Qiita

    やりたいこと オープンソースのOCRエンジン、Tesseract-OCR の日語用言の言語データ(tessdata/jpn.traineddata)をカスタマイズする。 GitHubのWikiによると、必要な作業をコマンドでやる方法(Manual method)と、tesstrain.sh というシェルスクリプトを使う方法(Automated method)1が記載されている。というか前者を自動化したのが後者。公式Wikiを読めといえばそれまでですが、せっかくなのでまとめておきます。 TrainingTesseract · tesseract-ocr/tesseract Wiki · GitHub tesstrain.sh · tesseract-ocr/tesseract Wiki · GitHub 具体的には、 未対応フォントを学習させる(実在する書体が前提2) 未収録文字に対応させ

    tesstrain.sh で Tesseract-OCR の言語データをカスタマイズする - Qiita
  • 比較2016' 現行の日本語OCRソフト3機種の性能とおすすめ:縦書き文章の論文、英語日本語混在論文における性能や価格:Panasonic:読取革命 ver.15、エプソン・メディアドライブ:e.Typist v.15.0 Ado

    Top > 研究道具(ソフトウェア) > 比較2024'【20年使用】OCRソフト29点の性能とおすすめ【日語・外国語OCR】:資料・名刺・縦書き文書認識、英語語混在文書の精度 【今回レビューする製品】2024年 おすすめ日語対応OCRソフトの認識精度と選び方:製品版・無料版・バンドル版対応:変換精度の違いやおすすめランキング やOCRフリーソフトとの違いについて 【紹介するソフト一覧】ソースネクスト読取革命 ver.16 Panasonic 読取革命 ver.15 メディアドライブe.Typist v.15.0 Adobe Acrobat Standard Pro 透明PDF ソースネクスト格読取 5 ABBYY FineReader for ScanSnap ファイル管理革命Lite 読んde!!ココ パーソナルVer.4 読取革命Lite やさしく名刺ファイリング PRO

    比較2016' 現行の日本語OCRソフト3機種の性能とおすすめ:縦書き文章の論文、英語日本語混在論文における性能や価格:Panasonic:読取革命 ver.15、エプソン・メディアドライブ:e.Typist v.15.0 Ado
  • はじめてのDeepLearning入門(Chainer) 日本語文字認識 1章[環境構築] - Qiita

    こんにちはリヒトです。 環境研究所で販売されている日語文字認識データセットを入手したので、データセットを活用したDeepLearning初学者のためのチュートリアルを公開します。 日語の文字認識エンジンの開発にトライします。 以下の画像を見てもわかる様に、ゲシュタルト崩壊請け合いなチュートリアルですが、めげずに頑張っていきたいと思います。 なおこの記事は ・DeepLearningをはじめたい! ・mnistの数字認識以外のチュートリアルをやりたい! ・DeepLearning関連技術について学びたい! ・自分で日語OCRの開発をしたい! という方々に向けて書いています。 以下のアウトラインで説明します。 章 タイトル

    はじめてのDeepLearning入門(Chainer) 日本語文字認識 1章[環境構築] - Qiita
  • 料金  |  Cloud Vision API  |  Google Cloud

    デジタル トランスフォーメーションを加速 お客様がデジタル トランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。

    料金  |  Cloud Vision API  |  Google Cloud
  • 今更だけどGoogle Cloud Vision APIでOCR その1 - 今日も微速転進

    今更だけどGoogle Cloud Vision API。そのうち試そうと思っているうちにGCPの仕様期間3ヶ月があっさりと終了……。 毎月最初の1000リクエストはコストゼロだそうなので試してみます。 Google Cloud Platform Japan 公式ブログ: ついに Google Cloud Vision API のベータ版リリース! 料金表(英語):Pricing  |  Google Cloud Vision API  |  Google Cloud Platform 前置き 実験 テスト用スクリプト とりあえず試してみる。 第二水準および第三水準の漢字 テスト画像 結果 まとめ 前置き 日語対応のOSSのOCRエンジンとしてはTesseract、NHocrが有名どころかと思います。 Tesseractは過去記事でもネタにしています。 今回はいわゆるWeb API であ

    今更だけどGoogle Cloud Vision APIでOCR その1 - 今日も微速転進
  • Pythonで日本語OCRを行うときのメモ - Qiita

    フリーのtesseractというOCRを使って、pythonで日語のOCRを行うまでに行った手順をまとめます。 環境 Ubuntu 14.04 Python 2.7 インストール tesseractをインストールします。 インストール方針 インストールの方法には、 1. apt-getでインストール 2. ソースからビルド、インストール の二つがあります。 1のapt-getでインストールできるバージョンは3.0.3です。 tesseractで日語を扱うには、日語で訓練されたデータ(jpn.traindata)が必要です。 これは自分でダウンロードしてくる必要があるのですが、ネット上で見つけられたものはver3.0.4のものだけです。3.03でこのデータを使おうとしても、うまくいかず、こんなエラーが出ます。 こちらのかたのように、traindataを編集して3.0.3で使うこともでき

    Pythonで日本語OCRを行うときのメモ - Qiita
  • スペル修正プログラムはどう書くか

    Peter Norvig / 青木靖 訳 先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、 別に彼らが知っているべき理由はないのだった。 間違っていたのは彼らの知識ではなく、私の仮定の方だ。 このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Google

  • 近似文字列アルゴリズムのgestalt pattern machingについてメモ

    Google 検索でタイポをすると、意図したであろう綴りを教えてくれたり、意図通りの検索結果を返してくれる。 このスペルチェック機能では、入力文字列が来の文字列とどのくらい似ているのかを評価するアルゴリズムが肝で、編集距離のアルゴリズムはよくしられている。 ふとしたことから、Ratcliff/Obershelp pattern recognition(gestalt pattern maching ともいう) という編集距離とは別のアルゴリズムに出くわした。 このアルゴリズムは1980年代から存在するが、より利便性の良いアルゴリズムが発明されていったからなのか、wikipedia に載っていないくて、手元のアルゴリズムにもみあたらない。 まだこのアルゴリズムが輝いていた 1988 年に、 Dr. Dobb’s Journal に発表された次の記事(サンプル実装はアセンブリ言語!)を元に

    近似文字列アルゴリズムのgestalt pattern machingについてメモ
  • スペル修正プログラムの作り方 #pronama

    2. 自己紹介 ・名前は とろとき ・ 言 語 は P ython/ P erl/ Ja v a ( @t o r o t ki) ・ A nd roid と か 自 然 言 語 処 理 、 機械学習などを勉強中。 ・中学生 3. はじめに {自然言語処理¦プロ生}初心者です 色々とおかしなところがあればご指摘ください スペルチェッカの実装はかなり簡単 - 今 回 作 成 し た コ ー ド は 約 180行 ( Pyt h o n ) - 内 、 50行 は デ ー タ ベ ー ス に 単 語 を 突 っ 込 む た め - 理論さえ分かればとっても簡単! 4. はじめに ・自然言語処理について ・コンピュータでテキストを 分析 させる試み ・ Micr o so ft の 選 ぶ 、 10年 後 テ ク ノ ロ ジ ー 分 野 で ホ ッ ト な 職 業 ! ・ The Top Thr

    スペル修正プログラムの作り方 #pronama
  • Tesseract-OCRの日本語調教(1) - 日本語練習虫

    HPで開発され、現在ではオープンソースとなっているOCRソフトウェア「Tesseract-OCR」の調教をしようと思って、Training Tesseract3のページを眺めている。 日語文書のOCRに利用する「jpn.traineddata」を無理やりテキストエディタで開いてみると、上記育成法解説から予想される通り、ファイルの最初の方に「認識させたい文字一覧」がユニコードテキストとして読み取れる状態で含まれている。 ざっと眺めてみたところ、JIS X 0208(0213)の第一水準漢字のうち、次のものが含まれていない。 穐 袷 吋 蔚 嬰 盈 穎 謁 掩 鴛 鴬 禾 恢 劾 浬 蛎 鈎 劃 廓 鰍 椛 竃 侃 桓 澗 翰 諌 翫 誼 掬 黍 笈 禦 兇 彊 尭 粁 駈 虞 轡 粂 祁 荊 戟 倹 乎 鈷 梧 佼 肱 砿 壕 甑 忽 坤 艮 孜 鴫 悉 蔀 屡 蕊 勺 綬 蒐 輯 酋 藷

    Tesseract-OCRの日本語調教(1) - 日本語練習虫
  • tesseract-ocr - Google Code

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    tesseract-ocr - Google Code
  • 62言語超対応のOCR「tesseract.js」がJavaScriptに移植、機械学習にも対応 【@maskin】 | TechWave(テックウェーブ)

    1990年代初頭から記者としてまた起業家としてITスタートアップ業界のハードウェアからソフトウェアの事業創出に関わる。シリコンバレーやEU等でのスタートアップを経験。日ではネットエイジ等に所属、大手企業の新規事業創出に協力。ブログやSNSLINEなどの誕生から普及成長までを最前線で見てきた生き字引として注目される。通信キャリアのニュースポータルの創業デスクとして数億PV事業に。世界最大IT系メディア(スペイン)の元日編集長、World Innovation Lab(WiL)などを経て、現在、スタートアップ支援側の取り組みに注力中。 北米を中心に全世界でJavaScriptへの対応熱止まらない。 今回も知る人ぞ知るオープンソースの文字認識エンジン「Tesseract-OCR」が、JavaScriptに移植され話題になっている。 以下は「tesseract.jp」のデモ画像。ウェブ上で画

    62言語超対応のOCR「tesseract.js」がJavaScriptに移植、機械学習にも対応 【@maskin】 | TechWave(テックウェーブ)
  • Theanoによる雑音除去自己符号化器の実装 - 人工知能に関する断創録

    この記事はDeep Learning Advent Calendar 2015の9日目です。 Theanoによる自己符号化器の実装(2015/12/3)の続き。 今回は自己符号化器を継承して雑音除去自己符号化器(Denoising autoencoder)を実装した。 ソースコード全体はここ。 自己符号化器は入力をもとの入力に戻すような写像を学習する手法だったが、雑音除去自己符号化器はもっと過酷で雑音(ノイズ)を付与した入力を雑音のない状態に戻せという一見すると無茶な要求を最適化アルゴリズムにつきつける。MNISTの例だと左のようなノイズが入った画像(画像クリックで拡大)を右のようなノイズがない画像に戻す写像を学習させる。最適化アルゴリズムにこういう制約を課すだけでよりロバスト性の高い特徴が自動的に学習できるという。 ノイズ付与 ノイズ付与の方法はいろいろあるらしいがランダムにマスキングす

    Theanoによる雑音除去自己符号化器の実装 - 人工知能に関する断創録
  • Artificial Intelligence for Everyday Use: Coming Soon

    Connecting decision makers to a dynamic network of information, people and ideas, Bloomberg quickly and accurately delivers business and financial information, news and insight around the world

    Artificial Intelligence for Everyday Use: Coming Soon
  • 「こんちには みさなん」文字の順序がでたらめになっていても読めてしまう文章のネタが明らかに!ケンブリッジ大学の研究は嘘でした : はちま起稿

    人間ってすごい!! これ、ちゃんと読めた人RT pic.twitter.com/dGhoUkzZw7 — ついついワロス (@waranet48) November 9, 2013 ↓ 「読めてしまう」文章ネタの起源と歴史 http://www.kotono8.com/2009/05/10yometeshimau.html 一部抜粋 ひらがなばかりで書かれた文章なのだが、文字の順序がでたらめになっていても読めてしまうという現象が話題を呼んでいる。 中略 「英国ケンブリッジ大学の研究結果」というのは都市伝説である。また、「語の中の文字の順序を変えても読める」というのは言語学において実証された科学的発言ではないことに注意(それっぽい実例は作れるが、それが成立する条件やメカニズムについては論証されていない)。ここでは2003年の記事をもとに再編集して新情報を追加し、この「読めてしまう」文章の起源

    「こんちには みさなん」文字の順序がでたらめになっていても読めてしまう文章のネタが明らかに!ケンブリッジ大学の研究は嘘でした : はちま起稿
  • 『この文章読める?読めないのはあなたが日本人だから【パターン認識】』

    公認心理師の『知って得する心理学+α』 現役心理カウンセラーによる ”ふざけている様で為になる話” を目指しています。 知ってるようで以外と知らない心のメカニズムや、こんな心理学のあんな知識やそんな雑学、たまに規格外れの私情と偏見を明るく・楽しく・適当にお送り致しています。 ↑↑ 最近流行っているツイッターでこんな文字があります 皆さんは、この文字何て書いているか読めますか? 何とこの文字 日人には読めないらしい文字らしいですって 幸い私は日人であることを再確認できました では、何と書いてあるか こちらが正解です!! ↓↓ HEY GUYS CAN`T YOU READ THIS SENTENSE? WAY CAN`T? CAUSE YOU ARE JAPANESE 【日語訳】 やあ皆 この文章読める? 読めないのはあなたが日人だから (読めないって?それはあなたが日人だからさ)

    『この文章読める?読めないのはあなたが日本人だから【パターン認識】』
  • 本・資料を探す | 国文学研究資料館

    人間文化研究機構国文学研究資料館は、研究・事業の一環として、国内外における国文学・歴史資料の調査、マイクロフィルム等による収集、資料保存活動を行っています。 図書館では、研究資料と共にこれら資料の保存・利用サービスを行っており、当館の資料を必要としている方はどなたでも利用することができます。 新型コロナウイルス感染症の拡大に伴い実施していた開室時間の制限を廃止します。 令和6年4月1日からの開館時間は「お知らせ」をご確認ください。→お知らせ 開館時間 月~金 9:30-18:00 土 9:30-17:00 ※サービス受付時間は開館時間と異なります。ご注意ください。 休館日 第4水曜日、日曜日、国民の祝日、振替休日年末年始夏季一斉休業日蔵書点検期間(2月末の1週間) ※図書館カレンダーをご参照ください。 ※緊急時は以下のいずれかに当てはまる場合、臨時休館とします。 午前7時時点で東京都に気象

    本・資料を探す | 国文学研究資料館