[B! OCR] Arahabicaのブックマーク

打ち合わせの資料など、まだ印刷物をいただくケースが多いです。 WindowsであればWordやExcelなどで資料を作っていただけるので、そのデジタルデータをいただければまったくそれで問題ないんですが、なぜか印刷してお渡しいただけるんですよね。それでも「デジタルデータをください」といって支給していただけるのがほとんどですが、いただけないケースもあります。中には、印刷物をスキャンしたり、携帯で撮影した写真を送ってくれたり、いろいろ試行錯誤してくれちゃったりします。まぁ・・・迷惑なケースもありますが、いろんな理由があるのでしょうね。そこで、OCRを利用してテキストデータとして作成しようという訳です。 Ubuntu 14.04 LTS を利用して作業を行います。環境 PCの環境は良いとして、「tesseract-ocr」と「gImageReader」と「Googleドキュメント」をそれぞ

Arahabica 2017/01/04

ocr

リンク

日本語OCRライブラリNHocrを利用してみる - Qiita

NHocrは日本語用OCR(光学文字認識)用ライブラリ。割と世界的に有名なtesseract-ocrより日本語の性能は良いということで使ってみることにした。ちなみに、どちらもライセンスはApache License V2.0。性能を評価してくれているブログ( http://g86.dbcls.jp/~yag/wordpress/archives/1351 )を見つけたのだけれど、これにインストールできなかったとかいてあるとおり、すんなりとはインストールできなかったのでインストールの仕方を書いておく。 ./configureでのfailの解決 $ configure checking for a BSD-compatible install... /usr/bin/install -c checking whether build environment is sane... yes

Arahabica 2017/01/03

OCR

リンク

tesstrain.sh で Tesseract-OCR の言語データをカスタマイズする - Qiita

やりたいことオープンソースのOCRエンジン、Tesseract-OCR の日本語用言の言語データ（tessdata/jpn.traineddata）をカスタマイズする。 GitHubのWikiによると、必要な作業をコマンドでやる方法（Manual method）と、tesstrain.sh というシェルスクリプトを使う方法（Automated method）1が記載されている。というか前者を自動化したのが後者。公式Wikiを読めといえばそれまでですが、せっかくなのでまとめておきます。 TrainingTesseract · tesseract-ocr/tesseract Wiki · GitHub tesstrain.sh · tesseract-ocr/tesseract Wiki · GitHub 具体的には、未対応フォントを学習させる（実在する書体が前提2）未収録文字に対応させ

Arahabica 2017/01/03

OCR

リンク

比較2016' 現行の日本語OCRソフト3機種の性能とおすすめ：縦書き文章の論文、英語日本語混在論文における性能や価格：Panasonic：読取革命 ver.15、エプソン・メディアドライブ：e.Typist v.15.0 Ado

Top ＞研究道具（ソフトウェア）＞比較2024'【20年使用】OCRソフト29点の性能とおすすめ【日本語・外国語OCR】：資料・名刺・縦書き文書認識、英語日本語混在文書の精度【今回レビューする製品】2024年おすすめ日本語対応OCRソフトの認識精度と選び方：製品版・無料版・バンドル版対応：変換精度の違いやおすすめランキングやOCRフリーソフトとの違いについて【紹介するソフト一覧】ソースネクスト読取革命 ver.16 Panasonic 読取革命 ver.15 メディアドライブe.Typist v.15.0 Adobe Acrobat Standard Pro 透明PDF ソースネクスト本格読取 5 ABBYY FineReader for ScanSnap ファイル管理革命Lite 読んde!!ココパーソナルVer.4 読取革命Lite やさしく名刺ファイリング PRO

Arahabica 2017/01/03

OCR

リンク

はじめてのDeepLearning入門(Chainer) 日本語文字認識 1章[環境構築] - Qiita

こんにちはリヒトです。環境研究所で販売されている日本語文字認識データセットを入手したので、データセットを活用したDeepLearning初学者のためのチュートリアルを公開します。日本語の文字認識エンジンの開発にトライします。以下の画像を見てもわかる様に、ゲシュタルト崩壊請け合いなチュートリアルですが、めげずに頑張っていきたいと思います。なおこの記事は・DeepLearningをはじめたい！・mnistの数字認識以外のチュートリアルをやりたい！・DeepLearning関連技術について学びたい！・自分で日本語OCRの開発をしたい！という方々に向けて書いています。以下のアウトラインで説明します。章タイトル

Arahabica 2017/01/02

OCR

リンク

料金 | Cloud Vision API | Google Cloud

デジタルトランスフォーメーションを加速お客様がデジタルトランスフォーメーションに乗り出したばかりでも、あるいはすでに進めている場合でも、Google Cloud は困難な課題の解決を支援します。

Arahabica 2017/01/02

ocr

リンク

今更だけどGoogle Cloud Vision APIでOCR その1 - 今日も微速転進

今更だけどGoogle Cloud Vision API。そのうち試そうと思っているうちにGCPの仕様期間3ヶ月があっさりと終了……。毎月最初の1000リクエストはコストゼロだそうなので試してみます。 Google Cloud Platform Japan 公式ブログ: ついに Google Cloud Vision API のベータ版リリース！料金表（英語）：Pricing | Google Cloud Vision API | Google Cloud Platform 前置き実験テスト用スクリプトとりあえず試してみる。第二水準および第三水準の漢字テスト画像結果まとめ前置き日本語対応のOSSのOCRエンジンとしてはTesseract、NHocrが有名どころかと思います。 Tesseractは過去記事でもネタにしています。今回はいわゆるWeb API であ

Arahabica 2017/01/02

OCR

リンク

Pythonで日本語OCRを行うときのメモ - Qiita

フリーのtesseractというOCRを使って、pythonで日本語のOCRを行うまでに行った手順をまとめます。環境 Ubuntu 14.04 Python 2.7 インストール tesseractをインストールします。インストール方針インストールの方法には、 1. apt-getでインストール 2. ソースからビルド、インストールの二つがあります。 1のapt-getでインストールできるバージョンは3.0.3です。 tesseractで日本語を扱うには、日本語で訓練されたデータ(jpn.traindata)が必要です。これは自分でダウンロードしてくる必要があるのですが、ネット上で見つけられたものはver3.0.4のものだけです。3.03でこのデータを使おうとしても、うまくいかず、こんなエラーが出ます。こちらのかたのように、traindataを編集して3.0.3で使うこともでき

Arahabica 2016/12/29

OCR

リンク

スペル修正プログラムはどう書くか

Peter Norvig / 青木靖訳先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooやMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、別に彼らが知っているべき理由はないのだった。間違っていたのは彼らの知識ではなく、私の仮定の方だ。このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Googleの

Arahabica 2016/12/29

OCR

リンク

近似文字列アルゴリズムのgestalt pattern machingについてメモ

Google 検索でタイポをすると、意図したであろう綴りを教えてくれたり、意図通りの検索結果を返してくれる。このスペルチェック機能では、入力文字列が本来の文字列とどのくらい似ているのかを評価するアルゴリズムが肝で、編集距離のアルゴリズムはよくしられている。ふとしたことから、Ratcliff/Obershelp pattern recognition(gestalt pattern maching ともいう) という編集距離とは別のアルゴリズムに出くわした。このアルゴリズムは1980年代から存在するが、より利便性の良いアルゴリズムが発明されていったからなのか、wikipedia に載っていないくて、手元のアルゴリズム本にもみあたらない。まだこのアルゴリズムが輝いていた 1988 年に、 Dr. Dobb’s Journal に発表された次の記事(サンプル実装はアセンブリ言語!)を元に

Arahabica 2016/12/29

OCR

リンク

スペル修正プログラムの作り方 #pronama

2. 自己紹介・名前はとろとき・言語は P ython/ P erl/ Ja v a （ @t o r o t ki）・ A nd roid とか自然言語処理、機械学習などを勉強中。・中学生 3. はじめに {自然言語処理¦プロ生}初心者です色々とおかしなところがあればご指摘くださいスペルチェッカの実装はかなり簡単 - 今回作成したコードは約 180行（ Pyt h o n ） - 内、 50行はデータベースに単語を突っ込むため - 理論さえ分かればとっても簡単！ 4. はじめに・自然言語処理について・コンピュータでテキストを分析させる試み・ Micr o so ft の選ぶ、 10年後テクノロジー分野でホットな職業！・ The Top Thr

Arahabica 2016/12/29

ocr

リンク

Tesseract-OCRの日本語調教（1） - 日本語練習虫

HPで開発され、現在ではオープンソースとなっているOCRソフトウェア「Tesseract-OCR」の調教をしようと思って、Training Tesseract3のページを眺めている。日本語文書のOCRに利用する「jpn.traineddata」を無理やりテキストエディタで開いてみると、上記育成法解説から予想される通り、ファイルの最初の方に「認識させたい文字一覧」がユニコードテキストとして読み取れる状態で含まれている。ざっと眺めてみたところ、JIS X 0208（0213）の第一水準漢字のうち、次のものが含まれていない。穐袷吋蔚嬰盈穎謁掩鴛鴬禾恢劾浬蛎鈎劃廓鰍椛竃侃桓澗翰諌翫誼掬黍笈禦兇彊尭粁駈虞轡粂祁荊戟倹乎鈷梧佼肱砿壕甑忽坤艮孜鴫悉蔀屡蕊勺綬蒐輯酋藷

Arahabica 2016/12/29

OCR

リンク

tesseract-ocr - Google Code

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

Arahabica 2016/12/29

OCR

リンク

62言語超対応のOCR「tesseract.js」がJavaScriptに移植、機械学習にも対応【@maskin】 | TechWave（テックウェーブ）

1990年代初頭から記者としてまた起業家としてITスタートアップ業界のハードウェアからソフトウェアの事業創出に関わる。シリコンバレーやEU等でのスタートアップを経験。日本ではネットエイジ等に所属、大手企業の新規事業創出に協力。ブログやSNS、LINEなどの誕生から普及成長までを最前線で見てきた生き字引として注目される。通信キャリアのニュースポータルの創業デスクとして数億PV事業に。世界最大IT系メディア（スペイン）の元日本編集長、World Innovation Lab(WiL)などを経て、現在、スタートアップ支援側の取り組みに注力中。北米を中心に全世界でJavaScriptへの対応熱止まらない。今回も知る人ぞ知るオープンソースの文字認識エンジン「Tesseract-OCR」が、JavaScriptに移植され話題になっている。以下は「tesseract.jp」のデモ画像。ウェブ上で画

Arahabica 2016/12/29

OCR

リンク

Theanoによる雑音除去自己符号化器の実装 - 人工知能に関する断創録

この記事はDeep Learning Advent Calendar 2015の9日目です。 Theanoによる自己符号化器の実装（2015/12/3）の続き。今回は自己符号化器を継承して雑音除去自己符号化器（Denoising autoencoder）を実装した。ソースコード全体はここ。自己符号化器は入力をもとの入力に戻すような写像を学習する手法だったが、雑音除去自己符号化器はもっと過酷で雑音（ノイズ）を付与した入力を雑音のない状態に戻せという一見すると無茶な要求を最適化アルゴリズムにつきつける。MNISTの例だと左のようなノイズが入った画像（画像クリックで拡大）を右のようなノイズがない画像に戻す写像を学習させる。最適化アルゴリズムにこういう制約を課すだけでよりロバスト性の高い特徴が自動的に学習できるという。ノイズ付与ノイズ付与の方法はいろいろあるらしいがランダムにマスキングす

Arahabica 2016/12/29

ocr

リンク

Artificial Intelligence for Everyday Use: Coming Soon

Connecting decision makers to a dynamic network of information, people and ideas, Bloomberg quickly and accurately delivers business and financial information, news and insight around the world

Arahabica 2016/12/29

ocr

リンク

「こんちにはみさなん」文字の順序がでたらめになっていても読めてしまう文章のネタが明らかに！ケンブリッジ大学の研究は嘘でした : はちま起稿

人間ってすごい！！これ、ちゃんと読めた人RT pic.twitter.com/dGhoUkzZw7 — ついついワロス (@waranet48) November 9, 2013 ↓ 「読めてしまう」文章ネタの起源と歴史 http://www.kotono8.com/2009/05/10yometeshimau.html 一部抜粋ひらがなばかりで書かれた文章なのだが、文字の順序がでたらめになっていても読めてしまうという現象が話題を呼んでいる。中略「英国ケンブリッジ大学の研究結果」というのは都市伝説である。また、「語の中の文字の順序を変えても読める」というのは言語学において実証された科学的発言ではないことに注意（それっぽい実例は作れるが、それが成立する条件やメカニズムについては論証されていない）。ここでは2003年の記事をもとに再編集して新情報を追加し、この「読めてしまう」文章の起源

Arahabica 2016/12/29

OCR

リンク

『この文章読める？読めないのはあなたが日本人だから【パターン認識】』

公認心理師の『知って得する心理学＋α』現役心理カウンセラーによる ”ふざけている様で為になる話” を目指しています。知ってるようで以外と知らない心のメカニズムや、こんな心理学のあんな知識やそんな雑学、たまに規格外れの私情と偏見を明るく・楽しく・適当にお送り致しています。 ↑↑ 最近流行っているツイッターでこんな文字があります皆さんは、この文字何て書いているか読めますか？何とこの文字日本人には読めないらしい文字らしいですって幸い私は日本人であることを再確認できましたでは、何と書いてあるかこちらが正解です！！ ↓↓ HEY GUYS CAN`T YOU READ THIS SENTENSE? WAY CAN`T? CAUSE YOU ARE JAPANESE 【日本語訳】やあ皆この文章読める？読めないのはあなたが日本人だから（読めないって？それはあなたが日本人だからさ）

Arahabica 2016/12/29

OCR

リンク

本・資料を探す | 国文学研究資料館

人間文化研究機構国文学研究資料館は、研究・事業の一環として、国内外における国文学・歴史資料の調査、マイクロフィルム等による収集、資料保存活動を行っています。図書館では、研究資料と共にこれら資料の保存・利用サービスを行っており、当館の資料を必要としている方はどなたでも利用することができます。新型コロナウイルス感染症の拡大に伴い実施していた開室時間の制限を廃止します。令和6年4月1日からの開館時間は「お知らせ」をご確認ください。→お知らせ開館時間月～金　9:30-18:00 土　9:30-17:00 ※サービス受付時間は開館時間と異なります。ご注意ください。休館日第４水曜日、日曜日、国民の祝日、振替休日年末年始夏季一斉休業日蔵書点検期間（2月末の1週間） ※図書館カレンダーをご参照ください。 ※緊急時は以下のいずれかに当てはまる場合、臨時休館とします。午前7時時点で東京都に気象

Arahabica 2016/12/22

OCR

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

OCRに関するArahabicaのブックマーク (23)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス