打ち合わせの資料など、まだ印刷物をいただくケースが多いです。 WindowsであればWordやExcelなどで資料を作っていただけるので、そのデジタルデータをいただければまったくそれで問題ないんですが、なぜか印刷してお渡しいただけるんですよね。 それでも「デジタルデータをください」といって支給していただけるのがほとんどですが、いただけないケースもあります。中には、印刷物をスキャンしたり、携帯で撮影した写真を送ってくれたり、いろいろ試行錯誤してくれちゃったりします。 まぁ・・・迷惑なケースもありますが、いろんな理由があるのでしょうね。 そこで、OCRを利用してテキストデータとして作成しようという訳です。 Ubuntu 14.04 LTS を利用して作業を行います。 環境 PCの環境は良いとして、「tesseract-ocr」と「gImageReader」と「Googleドキュメント」をそれぞ
NHocrは日本語用OCR(光学文字認識)用ライブラリ。 割と世界的に有名なtesseract-ocrより日本語の性能は良いということで使ってみることにした。 ちなみに、どちらもライセンスはApache License V2.0。 性能を評価してくれているブログ( http://g86.dbcls.jp/~yag/wordpress/archives/1351 )を見つけたのだけれど、これにインストールできなかったとかいてあるとおり、すんなりとはインストールできなかったのでインストールの仕方を書いておく。 ./configureでのfailの解決 $ configure checking for a BSD-compatible install... /usr/bin/install -c checking whether build environment is sane... yes
やりたいこと オープンソースのOCRエンジン、Tesseract-OCR の日本語用言の言語データ(tessdata/jpn.traineddata)をカスタマイズする。 GitHubのWikiによると、必要な作業をコマンドでやる方法(Manual method)と、tesstrain.sh というシェルスクリプトを使う方法(Automated method)1が記載されている。というか前者を自動化したのが後者。公式Wikiを読めといえばそれまでですが、せっかくなのでまとめておきます。 TrainingTesseract · tesseract-ocr/tesseract Wiki · GitHub tesstrain.sh · tesseract-ocr/tesseract Wiki · GitHub 具体的には、 未対応フォントを学習させる(実在する書体が前提2) 未収録文字に対応させ
Top > 研究道具(ソフトウェア) > 比較2024'【20年使用】OCRソフト29点の性能とおすすめ【日本語・外国語OCR】:資料・名刺・縦書き文書認識、英語日本語混在文書の精度 【今回レビューする製品】2024年 おすすめ日本語対応OCRソフトの認識精度と選び方:製品版・無料版・バンドル版対応:変換精度の違いやおすすめランキング やOCRフリーソフトとの違いについて 【紹介するソフト一覧】ソースネクスト読取革命 ver.16 Panasonic 読取革命 ver.15 メディアドライブe.Typist v.15.0 Adobe Acrobat Standard Pro 透明PDF ソースネクスト本格読取 5 ABBYY FineReader for ScanSnap ファイル管理革命Lite 読んde!!ココ パーソナルVer.4 読取革命Lite やさしく名刺ファイリング PRO
こんにちはリヒトです。 環境研究所で販売されている日本語文字認識データセットを入手したので、データセットを活用したDeepLearning初学者のためのチュートリアルを公開します。 日本語の文字認識エンジンの開発にトライします。 以下の画像を見てもわかる様に、ゲシュタルト崩壊請け合いなチュートリアルですが、めげずに頑張っていきたいと思います。 なおこの記事は ・DeepLearningをはじめたい! ・mnistの数字認識以外のチュートリアルをやりたい! ・DeepLearning関連技術について学びたい! ・自分で日本語OCRの開発をしたい! という方々に向けて書いています。 以下のアウトラインで説明します。 章 タイトル
今更だけどGoogle Cloud Vision API。そのうち試そうと思っているうちにGCPの仕様期間3ヶ月があっさりと終了……。 毎月最初の1000リクエストはコストゼロだそうなので試してみます。 Google Cloud Platform Japan 公式ブログ: ついに Google Cloud Vision API のベータ版リリース! 料金表(英語):Pricing | Google Cloud Vision API | Google Cloud Platform 前置き 実験 テスト用スクリプト とりあえず試してみる。 第二水準および第三水準の漢字 テスト画像 結果 まとめ 前置き 日本語対応のOSSのOCRエンジンとしてはTesseract、NHocrが有名どころかと思います。 Tesseractは過去記事でもネタにしています。 今回はいわゆるWeb API であ
フリーのtesseractというOCRを使って、pythonで日本語のOCRを行うまでに行った手順をまとめます。 環境 Ubuntu 14.04 Python 2.7 インストール tesseractをインストールします。 インストール方針 インストールの方法には、 1. apt-getでインストール 2. ソースからビルド、インストール の二つがあります。 1のapt-getでインストールできるバージョンは3.0.3です。 tesseractで日本語を扱うには、日本語で訓練されたデータ(jpn.traindata)が必要です。 これは自分でダウンロードしてくる必要があるのですが、ネット上で見つけられたものはver3.0.4のものだけです。3.03でこのデータを使おうとしても、うまくいかず、こんなエラーが出ます。 こちらのかたのように、traindataを編集して3.0.3で使うこともでき
Peter Norvig / 青木靖 訳 先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooやMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、 別に彼らが知っているべき理由はないのだった。 間違っていたのは彼らの知識ではなく、私の仮定の方だ。 このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Googleの
Google 検索でタイポをすると、意図したであろう綴りを教えてくれたり、意図通りの検索結果を返してくれる。 このスペルチェック機能では、入力文字列が本来の文字列とどのくらい似ているのかを評価するアルゴリズムが肝で、編集距離のアルゴリズムはよくしられている。 ふとしたことから、Ratcliff/Obershelp pattern recognition(gestalt pattern maching ともいう) という編集距離とは別のアルゴリズムに出くわした。 このアルゴリズムは1980年代から存在するが、より利便性の良いアルゴリズムが発明されていったからなのか、wikipedia に載っていないくて、手元のアルゴリズム本にもみあたらない。 まだこのアルゴリズムが輝いていた 1988 年に、 Dr. Dobb’s Journal に発表された次の記事(サンプル実装はアセンブリ言語!)を元に
2. 自己紹介 ・名前は とろとき ・ 言 語 は P ython/ P erl/ Ja v a ( @t o r o t ki) ・ A nd roid と か 自 然 言 語 処 理 、 機械学習などを勉強中。 ・中学生 3. はじめに {自然言語処理¦プロ生}初心者です 色々とおかしなところがあればご指摘ください スペルチェッカの実装はかなり簡単 - 今 回 作 成 し た コ ー ド は 約 180行 ( Pyt h o n ) - 内 、 50行 は デ ー タ ベ ー ス に 単 語 を 突 っ 込 む た め - 理論さえ分かればとっても簡単! 4. はじめに ・自然言語処理について ・コンピュータでテキストを 分析 させる試み ・ Micr o so ft の 選 ぶ 、 10年 後 テ ク ノ ロ ジ ー 分 野 で ホ ッ ト な 職 業 ! ・ The Top Thr
HPで開発され、現在ではオープンソースとなっているOCRソフトウェア「Tesseract-OCR」の調教をしようと思って、Training Tesseract3のページを眺めている。 日本語文書のOCRに利用する「jpn.traineddata」を無理やりテキストエディタで開いてみると、上記育成法解説から予想される通り、ファイルの最初の方に「認識させたい文字一覧」がユニコードテキストとして読み取れる状態で含まれている。 ざっと眺めてみたところ、JIS X 0208(0213)の第一水準漢字のうち、次のものが含まれていない。 穐 袷 吋 蔚 嬰 盈 穎 謁 掩 鴛 鴬 禾 恢 劾 浬 蛎 鈎 劃 廓 鰍 椛 竃 侃 桓 澗 翰 諌 翫 誼 掬 黍 笈 禦 兇 彊 尭 粁 駈 虞 轡 粂 祁 荊 戟 倹 乎 鈷 梧 佼 肱 砿 壕 甑 忽 坤 艮 孜 鴫 悉 蔀 屡 蕊 勺 綬 蒐 輯 酋 藷
1990年代初頭から記者としてまた起業家としてITスタートアップ業界のハードウェアからソフトウェアの事業創出に関わる。シリコンバレーやEU等でのスタートアップを経験。日本ではネットエイジ等に所属、大手企業の新規事業創出に協力。ブログやSNS、LINEなどの誕生から普及成長までを最前線で見てきた生き字引として注目される。通信キャリアのニュースポータルの創業デスクとして数億PV事業に。世界最大IT系メディア(スペイン)の元日本編集長、World Innovation Lab(WiL)などを経て、現在、スタートアップ支援側の取り組みに注力中。 北米を中心に全世界でJavaScriptへの対応熱止まらない。 今回も知る人ぞ知るオープンソースの文字認識エンジン「Tesseract-OCR」が、JavaScriptに移植され話題になっている。 以下は「tesseract.jp」のデモ画像。ウェブ上で画
この記事はDeep Learning Advent Calendar 2015の9日目です。 Theanoによる自己符号化器の実装(2015/12/3)の続き。 今回は自己符号化器を継承して雑音除去自己符号化器(Denoising autoencoder)を実装した。 ソースコード全体はここ。 自己符号化器は入力をもとの入力に戻すような写像を学習する手法だったが、雑音除去自己符号化器はもっと過酷で雑音(ノイズ)を付与した入力を雑音のない状態に戻せという一見すると無茶な要求を最適化アルゴリズムにつきつける。MNISTの例だと左のようなノイズが入った画像(画像クリックで拡大)を右のようなノイズがない画像に戻す写像を学習させる。最適化アルゴリズムにこういう制約を課すだけでよりロバスト性の高い特徴が自動的に学習できるという。 ノイズ付与 ノイズ付与の方法はいろいろあるらしいがランダムにマスキングす
人間ってすごい!! これ、ちゃんと読めた人RT pic.twitter.com/dGhoUkzZw7 — ついついワロス (@waranet48) November 9, 2013 ↓ 「読めてしまう」文章ネタの起源と歴史 http://www.kotono8.com/2009/05/10yometeshimau.html 一部抜粋 ひらがなばかりで書かれた文章なのだが、文字の順序がでたらめになっていても読めてしまうという現象が話題を呼んでいる。 中略 「英国ケンブリッジ大学の研究結果」というのは都市伝説である。また、「語の中の文字の順序を変えても読める」というのは言語学において実証された科学的発言ではないことに注意(それっぽい実例は作れるが、それが成立する条件やメカニズムについては論証されていない)。ここでは2003年の記事をもとに再編集して新情報を追加し、この「読めてしまう」文章の起源
公認心理師の『知って得する心理学+α』 現役心理カウンセラーによる ”ふざけている様で為になる話” を目指しています。 知ってるようで以外と知らない心のメカニズムや、こんな心理学のあんな知識やそんな雑学、たまに規格外れの私情と偏見を明るく・楽しく・適当にお送り致しています。 ↑↑ 最近流行っているツイッターでこんな文字があります 皆さんは、この文字何て書いているか読めますか? 何とこの文字 日本人には読めないらしい文字らしいですって 幸い私は日本人であることを再確認できました では、何と書いてあるか こちらが正解です!! ↓↓ HEY GUYS CAN`T YOU READ THIS SENTENSE? WAY CAN`T? CAUSE YOU ARE JAPANESE 【日本語訳】 やあ皆 この文章読める? 読めないのはあなたが日本人だから (読めないって?それはあなたが日本人だからさ)
人間文化研究機構国文学研究資料館は、研究・事業の一環として、国内外における国文学・歴史資料の調査、マイクロフィルム等による収集、資料保存活動を行っています。 図書館では、研究資料と共にこれら資料の保存・利用サービスを行っており、当館の資料を必要としている方はどなたでも利用することができます。 新型コロナウイルス感染症の拡大に伴い実施していた開室時間の制限を廃止します。 令和6年4月1日からの開館時間は「お知らせ」をご確認ください。→お知らせ 開館時間 月~金 9:30-18:00 土 9:30-17:00 ※サービス受付時間は開館時間と異なります。ご注意ください。 休館日 第4水曜日、日曜日、国民の祝日、振替休日年末年始夏季一斉休業日蔵書点検期間(2月末の1週間) ※図書館カレンダーをご参照ください。 ※緊急時は以下のいずれかに当てはまる場合、臨時休館とします。 午前7時時点で東京都に気象
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く