このページでは、Google ドライブの OCR 機能を使い、画像や PDF 内の文字列を抽出する方法を紹介します。 PDF や写真のファイルをテキストに変換する - Google ドライブ ヘルプ 無料で使える OCR ソフト Google ドライブには、画像や PDF をテキストに変換する機能が付いています。 この機能を使うと、画像内に写っている文字列や、PDF 内の文字列を Google ドキュメントに抽出することができ、そのままコピーしたり編集したりすることが可能となります。 使用にあたり Google アカウントが必要になるものの、無料で使うことができ、操作も OCR 処理を行いたいファイルを、Google ドライブにアップロード アップロードしたファイルを、Google ドキュメントで開く だけなので超簡単。 画像や PDF 内のテキストを抜き出したい時にはもちろん、画像内に写
レポート より便利になったWindows 10・11用「PowerToys」- 阿久津良和のWindows Weekly Report 常に、WindowsとPowerToysは共に歩んできた。PowerToysはWindows単体では足りない機能を補うため、Microsoft自身が開発・利用していたツール群。その歴史はWindows 95の時代までさかのぼる。「PowerToys for Windows 95」は15種のツールを備えていたが、中でも人気だったのがTweakUIだ。 本来はレジストリエントリーの編集を必要とするカスタマイズをGUIから操作できるため、TweakUIは個人でWindows 95 PCを使用するユーザーに欠かせないものだった。当時のユーザーにとっては、キーボードの再割り当てなどを行う「Windows 95 Kernel Toys」も懐かしいだろう。なお、Wind
マイクロソフトは、Microsoft Azureの機械学習を用いた画像処理「Computer Vision API」の光学式文字認識(OCR)機能が日本語に対応したことを発表しました。 Computer VisionのOCR機能は、JPEG、PNG、BMP、TIFFなどの画像フォーマットもしくはPDFによるドキュメントファイルを入力することで、その内容からテキスト、手書きのテキスト(英語のみ)、数字、通貨記号などを読み取り、抽出することができます。 ファイルサイズは50MB未満(Freeレベルの場合は4MB)、寸法は50x50ピクセル以上 1万x1万ピクセル以下である必要があり、 PDFファイルとTIFFファイルの場合は最大2000ページ(Freeレベルの場合は最初の2ページのみ)が処理されます。 日本語への対応は最新の「Read 3.2」バージョンでパブリックプレビューとなりました。これ
This tool runs entirely in your browser. No files are uploaded to a server. It uses Tesseract.js for OCR and PDF.js to convert PDFs into images. Language: Drag and drop a PDF, JPG, PNG, or GIF file here or click to select a file
R&D チームの徳田(@dakuton)です。 過去何回か、Tech Blog記事にてPDFやOCR、自然言語処理に関する手法を紹介してきましたが、今回もそちらに関連する内容です。 過去記事 tech-blog.optim.co.jp tech-blog.optim.co.jp tech-blog.optim.co.jp やりたいこと PDFからテキストを抽出する際に含まれる、中途半端な位置にある改行を除去することが目的です。 シンプルな方法としては、句点(。)の位置をもとに改行する方法ですが、今回はspaCy(とGiNZA)を併用した場合にどうなるかを試してみることにします。 テストデータ 今回は、下記記事のPDFを使用しました。 財務省「ファイナンス」令和3年2月号 の「ポストコロナ時代を形作る、コロナ禍で生まれるDX(デジタルトランスフォーメーション)」 1 メディア掲載情報: 財務
日本語表示に非対応のゲームをプレイするとき、簡単なコマンド名や英単語であればなんとなくニュアンスをつかんだり、辞書を使って調べたりすることができますが、長いフレーズや文章単位になってくるとなかなか大変です。「PCOT」は、ゲーム画面をOCR(光学文字認識)で読み取ってくれるので、コピペできない文章でも翻訳してくれます。 ヌルポインターストライク http://www.gc-net.jp/s_54/ 「PCOT」は「ProcessConnectOcrTranslator」の略だとのこと。公式サイトの「『PCOT』のダウンロードはこちら →」の右にある「DL」をクリック。 OneDriveのページが開き、「PCOT.ZIP」が選択された状態になっていて、ちょっと待つとファイル保存ダイアログが開くので、「ファイルを保存する」にチェックを入れて「OK」をクリック。自動でダウンロードされない場合はP
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米Meta AIに所属する研究者らが発表した論文「Nougat: Neural Optical Understanding for Academic Documents」は、論文を記録したPDF内のテキストや数式を正確に読み取るモデルを提案した研究報告である。研究論文を機械が読めるテキストに変換することで、知識全体がより探しやすく、多くの人々がアクセスできるようになる。モデルのコードなどは全て公開されている。
今回は、前回に引き続き、小型ボードコンピュータの「Raspberry Pi(ラズベリーパイ、略してラズパイ)」と、機械学習などのAI(人工知能)技術を活用したOCR(光学的文字認識)である「AI-OCR」を組み合わせた事例として「生産日報の電子化」をどのように実現するかについて具体的に解説します。 ⇒連載「ラズパイで製造業のお手軽IoT活用」バックナンバー 生産日報の電子化は、以下の手順で進めます。 手書きで日報を記入する 手書き日報をラズパイで読み取り、テキストデータに変換する テキストデータに変換した日報データを現場画面に表示して内容の確認をする。誤認識している部分は手で修正する 修正した箇所を機械学習して認識率を向上させる 前回は1.と2.について説明しました。今回は3.と4.について解説します。 3.テキストデータに変換した日報データを現場画面に表示して内容の確認をする OCRは1
AdventCalender論文2日目担当のCurryです! 今回は画像の中の文字を見つける技術の昔と最新をまとめました。 意外と文字検出の論文紹介ってないんじゃね!?っていう 画像は参照サイト(各章の先頭のURL)、論文中から引っ張ってきてます 文字検出 画像の中の文字を見つけるのは 文字検出 と呼ばれます。英語では Text Detection とか Text Localization という。 つまりこんなタスク。オレンジ線が文字を囲めてるので、検出ができたと判断できる。 入力画像 出力 文字検出の難しさは、以下のようによく言われる。(いわゆる論文のイントロの謳い文句) 1. 文字の多様性 2. 文字の色 3. 文字のコントラストや背景との混同 4. 文字の大きさが違う 5. 文字の方向(いわゆるアルファベットが斜めになっていたり) ちなみに、、、 文字認識 は文字を判別することなの
本サービスは無料ですが、利用状況の把握と過度な利用の防止のために、ログインを必須としています。ログインサービスの実装には、Google社のFirebase認証を活用しており、Google、Facebook、Twitterのアカウントと連携するか、電子メールアドレスを入力することで、ログインが可能となります。 「KuroNetくずし認識ビューア」と「ダッシュボード」は、両方とも同じアカウントでログインする必要がありますのでご注意下さい。ログイン機能は、いずれの場合も画面の右上にあります。なお、アカウント連携はログイン機能の実現のみに利用し、取得した情報はそれ以外の目的には活用いたしません。 「KuroNetくずし認識ビューア」に、認識したい本のIIIFマニフェストをドラッグ&ドロップしてください(注意:IIIFの利用)。そして、ページ移動やサムネイル表示などを用いて、認識したい画像を表示して
iOS 13以降で、待望だった「文字認識」機能が使えるようになりました。カメラなどで撮影した画像内にある文字を読み取る [1] ことができます。 iOS 9からあった「文字検出」との違い 文字認識は、Visionフレームワークの一機能として追加されました。 一方、Core ImageのCIDetectorというクラスでは、CIDetectorTypeTextというタイプを指定でき、テキストを検出することができます。 このCIDetectorTypeTextやCIFeatureTypeTextはiOS 9からあるものです。 しかしこちらは文字の「領域」を検出する機能です。何が書いてあるか、までは認識できませんでした。 そこで今まではTesseract[2]というオープンソースのOCRエンジンや、SwiftOCR[3]という(おそらく個人がメンテしている)OSSしか選択肢がなかったのですが、つ
どうも!バクラクでOCRの開発を担当する高際 @shun_tak です! バクラクでは「圧倒的に使いやすいプロダクトを届け、ワクワクする働き方を。」というプロダクトビジョンを掲げて開発しています。 バクラクビジョン note.com そんなバクラクでは文書のデータ化を支援するため、文書の読み取り機能=OCR機能を提供しています。これにより、多様なレイアウト・大量の文書も瞬時にデータ化することができます。 以下、瞬時に読み取られる様子 youtu.be OCRで読み取ってデータ入力されるだけでも使いやすいプロダクトになっているかなと思いますが、この記事ではさらに一歩踏み込んで、「圧倒的に」使いやすくするための工夫の一端をお見せしたいと思います。 前提:請求書OCRで解きたい問題 請求書OCRは、経理に届く支払請求書を読み取ってデータ化します。データ化したい項目は、「いつまでに、だれに、いくら
明治期以降の書籍や雑誌といった「近代活字資料」のテキストデータを生成するために、AIを活用したOCR(光学的文字認識)を新たに開発する――こんな取り組みを国立国会図書館(NDL)が発表した。OCRはデジタル画像を解析し、画像内の文字をテキストデータに変換する技術だ。近代活字資料は書体が現代とは異なるうえ、旧字旧仮名遣いが中心なのでテキストデータ化は容易ではない。 国立国会図書館からの委託を受けてこの試みに挑戦したのが、AIを使った画像処理技術を開発しているモルフォAIソリューションズ(千代田区)だ。「かなり大変な開発作業になると感じました。しかしAIなら可能かもしれない、実現できれば国立国会図書館ユーザーの利便性を高められると確信していました」――こんな声がAI-OCR開発に携わったメンバーの口から出た。 そこで開発の舞台裏について、モルフォAIソリューションズのエンジニアたちを取材した。
こんにちは、2022年9月1日に LayerX にフルタイムの機械学習エンジニアとして入社した松村 優也(@yu__ya4)と申します。バクラク事業部の AI-OCRチームに所属しています。チーム名の通り、請求書や領収書といった帳票の画像データを読み取り、人間が手入力せずとも必要な項目を自動で抽出してデータ化する OCR 機能の開発をメインのミッションに持つチームです。 この note では、私がなぜ LayerX に機械学習エンジニアとして入社したのかを、転職のご報告に代えてお伝えします。めちゃくちゃ仲間を探していますので、少しでも気になった方は Meety や Twitter のDM からご連絡ください! 略歴 - LayerXに入社するまでまず簡単に、LayerX に入社するまでの私について紹介します。より詳しい経歴やこれまでのアウトプットは以下の Wantedly のプロフィールを
2023年3月7日 DEIM2023 (https://event.dbsj.org/deim2023/) における技術報告の資料です。 題目:『 LayerXにおける機械学習を活用した請求書OCR機能に関する取り組み』 日程:3/7(火)13:30-15:40(4a-8: 画像認識2) 発表者:松村 優也、吉田 陽祐 プログラムリンク:https://deim-management-system.github.io/deim2023_program/index.html#4a-8 LayerX は「働く」に関わる様々な業務プロセスが紙とハンコを中心としたアナログで非効率なものとなっているという課題を、テクノロジーをもとに解決するために複数のプロダクトを開発・運営している。その中のひとつ「バクラク請求書」では、アップロードされた請求書ファイルから自動で必要な情報を抽出しデータ化するOCR機
macOS 12 MontereyやiOS 15のSafari 15ではWebサイトやツイートに挿入されている画像内のテキストも「Live Text」で抽出可能になるそうです。詳細は以下から。 Appleは現地時間2021年06月07日に完全オンラインで開催したWWDC21の基調講演の中で、macOS 12 MontereyやiOS/iPadOS 15の新機能として「Live Text」という写真内にあるテキストを検出し、編集可能なテキストとしてコピー&ペーストできる機能を発表しました。 Live Text in photos Live Text intelligently unlocks rich and useful information in images, so you can make a call, send an email, or look up directions w
凸版印刷、くずし字解読支援システム「ふみのはゼミ」を開発高精度のくずし字AI-OCRを搭載し、古文書・古典籍をオンライン上で簡単に解読できるシステム。共同作業をサポートし、コロナ禍における学習や研究、イベントなどに活用可能 凸版印刷株式会社(本社:東京都千代田区、代表取締役社長:麿 秀晴、以下 凸版印刷)は、高精度のくずし字AI-OCRを搭載し、古文書・古典籍をオンライン上で簡単に解読できるシステム「ふみのはゼミ」を開発しました。 授業やイベントでの活用を想定したグループワーク支援機能により、歴史的資料のデジタルアーカイブ化を推進するとともに、コロナ禍における学習・研究の拡大に貢献します。 「ふみのはゼミ」を活用した共同解読作業のイメージ 本サービスは、凸版印刷が2015年から研究・実証試験を行ってきたくずし字OCRをさらに発展させ、凸版印刷総合研究所が開発したAI-OCRの導入による文字
情報管理LOGの@yoshinonです。 ここ最近では、日本語OCRが割と簡単にできるようになってきましたよね。 しかし、皆さんが日々使っているLINEでOCRできるようになったというのを知っている人は、まだ少ないのではないでしょうか? というわけで今回は、LINEでもOCRできるようになったことについてレポートします。 実は、あまり知られていないような気がするのですが、LINEのトーク画面にアップした画像をテキスト化することができるようになりました。 では、やってみます。 トーク画面で画像をアップしましょう。 ※他の人が、アップした画像でも可能です。 それをタップすると、このようになりますね? 右上の「T」とみたいなアイコンをタップ。 そうすると、このように文字の部分が認識されているのが分かります。 上の方に「日本語を検出」とあるのでタップすると、5カ国語から選べます。 テキストを抽出し
Mission: Expression » 2019 Examples to Compare OCR Services: Amazon Textract/Rekognition vs Google Vision vs Microsoft Cognitive Services 2019 Examples to Compare OCR Services: Amazon Textract/Rekognition vs Google Vision vs Microsoft Cognitive Services linkIntroductionWe're building a note app that will surface images+documents in full-text search, so it needs to do OCR as well as possible. Prefe
この記事は闇の魔術に対する防衛術 Advent Calendar 20192 日目の記事です。 ある日、会社で寿司打というタイピングの速度や正確さを競うゲームが流行った。 みんなやってるので私も挑戦してみたところ、結果は惨敗。全エンジニアの中でもっともスコアが低かった。もともとタイピングが早くも正確でもないことを自覚していたつもりだったが、現実を突きつけられ大人しく家に返って枕を濡らそうと思った。が、あまりの悔しさにまみれ「JSer ならタイピング速度ではなく JS で勝負すればいいんだ」とダークサイドに堕ち闇の力に手を染めてしまった。 本記事はムキになって寿司打(WebGL 版)のスコアを稼ぐ自動化 JavaScript の話。 なお動作確認には Ubuntu 19.04、Google Chrome 80.0.3955.4 を使用した。 寿司打 WebGL 版 http://typing
こんにちは、全ての経済活動をデジタル化したいTomoakiです。 推しのコンビニスイーツはセブンイレブンの草もちです。 今回は読み取りの精度の先の体験を追求するバクラクのAI-OCR機能について紹介します。 TL;DR バクラクでは国税関係書類に対してOCRを実行し、書類の内容の入力作業の負担を減らしている お客様の業務をラクにするには、帳票に記載されている値をそのままサジェストするのでは不十分 バクラクのAI-OCR機能では、読み取った帳票に記載の値を活用しつつ、お客様の業務に寄り添った形に変換してサジェストすることで、なめらかなプロダクト体験を提供している バクラクのOCR 会社の営みにはファイルが溢れています。 取引先から届く請求書、会食で利用したレストランの領収書、業務委託メンバーに毎月渡す支払通知書など、会社規模によっては毎月何十万、何百万という枚数の書類が扱われています。そして
従来技術で困難だった透明・黒色・金属製の物体も見た目を忠実に再現 Eコマース、ゲーム・映像制作、メタバース、文化財の保存等で利用可能 株式会社Preferred Networks(本社:東京都千代田区、代表取締役 最高経営責任者:西川徹、プリファードネットワークス、以下、PFN)は、様々な物品を高品質な3Dモデル*としてデジタル化する3Dスキャン代行サービス PFN 3D Scan(ピーエフエヌ・スリーディースキャン、公式サイト: https://pfn3d.com)を本日、日本国内の企業向けに提供開始しました。PFN 3D Scanは深層学習を利用したPFN独自の技術を用いることで、従来の3Dスキャン技術が苦手としていた透明・黒色・金属を含めた多様な材質の物品のメッシュ・テクスチャ・マテリアル(形状・色・質感)を忠実に再現することが可能です。提供する3Dモデルは、Eコマース、ゲーム・映像
iOS 15.4/iPadOS 15.4ではメモアプリが「Text from Camera」に対応し、カメラで英語などのテキストを瞬時にスキャンできるようになっています。詳細は以下から。 Appleは2021年09月にリリースしたiOS 15/iPadOS 15で、写真内にある文章を検出し、編集可能なテキストとしてコピー&ペーストできる「テキスト認識表示 (Live Text)」機能を実装し、このテキスト認識表示機能を応用した「カメラでテキスト認識表示 (Text from Camera)」も一部の言語で利用できるようになっていますが、iOS 15.4/iPadOS 15.4のメモアプリでは、このカメラでテキスト認識表示がサポートされています。
会計サービスをはじめ、バックオフィス向けクラウドソフトを提供するfreee。単純作業を効率化し、ユーザーが本質的な仕事に集中できる環境を提供するために、AI技術を駆使したさまざまな取り組みがなされている。 「ユーザーにとって本質的に価値があること(同社では「マジ価値」と呼ばれる)を届けきる」をコミットメントとして掲げる同社の、AI技術を使ったアプローチ方法を連載形式でお届けする。 第2回のテーマはOCR。紙の領収書や、請求書とにらめっこし、その扱いにうんざりしている経営者は少なくないだろう。 これら紙の文書をよりスムースに扱うため、freeeのサービスに実装されている独自のOCR機能を、同社機械学習エンジニアの田中浩之氏に紹介していただく。 はじめにfreeeでは「スモールビジネスを、世界の主役に。」をミッションに掲げ、「アイデアやパッションやスキルがあればだれでも、ビジネスを強くスマート
概要 VMインスタンスの作成 VMインスタンス内での操作 Nvidia driverのインストール dockerコンテナの起動 推論の実行 まとめ 追記 2022.04.28 概要 NDLが公開したNDLOCRアプリケーションについて、GCP(Google Cloud Platform)の仮想マシンを用いて実行してみましたので、その備忘録です。本アプリケーションの詳細については、以下のリポジトリをご確認ください。 https://github.com/ndl-lab/ndlocr_cli VMインスタンスの作成 GCPのCompute Engineにアクセスして、画面上部の「インスタンスを作成」ボタンをクリックします。 「マシンの構成」の「マシンファミリー」について、「GPU」を選択します。そして「GPUのタイプ」において、今回は最も安価な「NVIDIA T4」を選択します。「GPUの数」
凸版印刷は11月11日、明治期から昭和初期(以下、近代)の手書き文字に対応したAI-OCRを開発したと発表した。同社提供の江戸時代のくずし字を対象にした古文書解読サービス「ふみのは」のAI-OCRを近代の多様な筆跡の手書き文字にまで対応範囲を拡張させたもの。11月から実証実験を行い、2023年4月から正式サービスを開始する予定。 凸版印刷によると、近代の手書き文字は、書き手によるくずし方のバラつきが大きいという。原因は筆記用具の多様化や片仮名語の混在、旧字旧仮名遣い表記などがあるためで、解読は非常に困難としている。今回開発したAI-OCRではこれに対応するため、さまざまなパターンの文字をAIに学習させ、文字の解読精度を向上させた。
人文学オープンデータ共同利用センター(CODH)は8月30日、古文書に書かれた「くずし字」をAIで解読するスマートフォン(iOS/Android)向け無料アプリ「みを」を公開した。元のくずし字と変換後の文字を比較でき、古文書に慣れてない人の理解を手助けするという。 変換したい資料の写真や、ネットからダウンロードした画像などをアプリで読み込むと、くずし字を変換して元の文章の上に表示する。同じ文字を強調表示する機能や変換後の文章をメモ帳などにコピー&ペーストできる機能などを備える。 AIの学習には、国文学研究資料館の日本古典籍くずし字データセットを基に、CODHが開発したくずし字認識モデル「KuroNet」(クロネット)と、機械学習の精度を競い合うプラットフォーム「Kaggle」(カグル)のくずし字認識コンペティションで1位になったtascj氏の認識モデルを活用している。くずし字は江戸時代のデ
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く