並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 288件

新着順 人気順

ocrの検索結果121 - 160 件 / 288件

  • 機械学習チーム立ち上げ前夜とその後の話 #バクラク #LayerX|Shun Takagiwa

    こんにちは!バクラクエンジニアの高際です! LayerXでは現在AI-OCRチームのマネージャーを担当しています。 このnoteでは、機械学習チーム立ち上げ前夜の意思決定プロセスと、その後の進捗について報告したいと思います。 いきなり昔話をしますが、LayerXは実は去年(2021年)までは機械学習に積極的に取り組んでいませんでした。 クラウドコンピューティングと同様当然に利用する技術ではあるものの、自社のコア技術として積極投資するというよりは、あくまでツールのひとつとして利用するというスタンスでした。 それが一転して2022年にはCEO福島から「機械学習を本気でやります。チームを10倍に拡大させる」という宣言を出しました。 ML本気でやります。MLチームを10倍に拡大させることを決めました。MLエンジニアの皆様ぜひLayerXをよろしくおねがいします。(私も5年のブランクを超え勉強し始め

      機械学習チーム立ち上げ前夜とその後の話 #バクラク #LayerX|Shun Takagiwa
    • 「机の上にたまった書類をスマホアプリでPDF化したい」――急遽テレワークを導入した中小企業の顛末記(94)【急遽テレワーク導入!の顛末記】

        「机の上にたまった書類をスマホアプリでPDF化したい」――急遽テレワークを導入した中小企業の顛末記(94)【急遽テレワーク導入!の顛末記】
      • Google ドライブの OCR 機能を使い、画像や PDF 内の文字列を抽出する方法 - k本的に無料ソフト・フリーソフト

        このページでは、Google ドライブの OCR 機能を使い、画像や PDF 内の文字列を抽出する方法を紹介します。 PDF や写真のファイルをテキストに変換する - Google ドライブ ヘルプ 無料で使える OCR ソフト Google ドライブには、画像や PDF をテキストに変換する機能が付いています。 この機能を使うと、画像内に写っている文字列や、PDF 内の文字列を Google ドキュメントに抽出することができ、そのままコピーしたり編集したりすることが可能となります。 使用にあたり Google アカウントが必要になるものの、無料で使うことができ、操作も OCR 処理を行いたいファイルを、Google ドライブにアップロード アップロードしたファイルを、Google ドキュメントで開く だけなので超簡単。 画像や PDF 内のテキストを抜き出したい時にはもちろん、画像内に写

          Google ドライブの OCR 機能を使い、画像や PDF 内の文字列を抽出する方法 - k本的に無料ソフト・フリーソフト
        • spaCy(+GiNZA)でPDFテキスト抽出の改行位置をいい感じにする - OPTiM TECH BLOG

          R&D チームの徳田(@dakuton)です。 過去何回か、Tech Blog記事にてPDFやOCR、自然言語処理に関する手法を紹介してきましたが、今回もそちらに関連する内容です。 過去記事 tech-blog.optim.co.jp tech-blog.optim.co.jp tech-blog.optim.co.jp やりたいこと PDFからテキストを抽出する際に含まれる、中途半端な位置にある改行を除去することが目的です。 シンプルな方法としては、句点(。)の位置をもとに改行する方法ですが、今回はspaCy(とGiNZA)を併用した場合にどうなるかを試してみることにします。 テストデータ 今回は、下記記事のPDFを使用しました。 財務省「ファイナンス」令和3年2月号 の「ポストコロナ時代を形作る、コロナ禍で生まれるDX(デジタルトランスフォーメーション)」 1 メディア掲載情報: 財務

            spaCy(+GiNZA)でPDFテキスト抽出の改行位置をいい感じにする - OPTiM TECH BLOG
          • より便利になったWindows 10・11用「PowerToys」- 阿久津良和のWindows Weekly Report

            レポート より便利になったWindows 10・11用「PowerToys」- 阿久津良和のWindows Weekly Report 常に、WindowsとPowerToysは共に歩んできた。PowerToysはWindows単体では足りない機能を補うため、Microsoft自身が開発・利用していたツール群。その歴史はWindows 95の時代までさかのぼる。「PowerToys for Windows 95」は15種のツールを備えていたが、中でも人気だったのがTweakUIだ。 本来はレジストリエントリーの編集を必要とするカスタマイズをGUIから操作できるため、TweakUIは個人でWindows 95 PCを使用するユーザーに欠かせないものだった。当時のユーザーにとっては、キーボードの再割り当てなどを行う「Windows 95 Kernel Toys」も懐かしいだろう。なお、Wind

              より便利になったWindows 10・11用「PowerToys」- 阿久津良和のWindows Weekly Report
            • Microsoft Azure、「Computer Vision API」のOCR機能が日本語に対応、パブリックプレビューとして

              マイクロソフトは、Microsoft Azureの機械学習を用いた画像処理「Computer Vision API」の光学式文字認識(OCR)機能が日本語に対応したことを発表しました。 Computer VisionのOCR機能は、JPEG、PNG、BMP、TIFFなどの画像フォーマットもしくはPDFによるドキュメントファイルを入力することで、その内容からテキスト、手書きのテキスト(英語のみ)、数字、通貨記号などを読み取り、抽出することができます。 ファイルサイズは50MB未満(Freeレベルの場合は4MB)、寸法は50x50ピクセル以上 1万x1万ピクセル以下である必要があり、 PDFファイルとTIFFファイルの場合は最大2000ページ(Freeレベルの場合は最初の2ページのみ)が処理されます。 日本語への対応は最新の「Read 3.2」バージョンでパブリックプレビューとなりました。これ

                Microsoft Azure、「Computer Vision API」のOCR機能が日本語に対応、パブリックプレビューとして
              • OCR PDFs and images directly in your browser

                This tool runs entirely in your browser. No files are uploaded to a server. It uses Tesseract.js for OCR and PDF.js to convert PDFs into images. Language: Drag and drop a PDF, JPG, PNG, or GIF file here or click to select a file

                • GitHub - ndl-lab/ndlocr_cli: NDLOCRアプリケーションのリポジトリ(ソースコードを含む)

                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                    GitHub - ndl-lab/ndlocr_cli: NDLOCRアプリケーションのリポジトリ(ソースコードを含む)
                  • Windowsでもついに画像内のテキストコピーが可能に! | ライフハッカー・ジャパン

                    サンディスクのmicroSDカード 512GBが40%OFF。写真や動画のデータ置き場はこれで良くない?【Amazonセール】

                      Windowsでもついに画像内のテキストコピーが可能に! | ライフハッカー・ジャパン
                    • Windows版「OneNote」アプリに文字起こし機能 ~複数話者を識別、ペン入力と同期再生も/まずは「Office Insider」で。段階的に提供範囲を拡大

                        Windows版「OneNote」アプリに文字起こし機能 ~複数話者を識別、ペン入力と同期再生も/まずは「Office Insider」で。段階的に提供範囲を拡大
                      • Googleドキュメントを使って、2ステップで画像から文字起こしする方法【今日のワークハック】 | ライフハッカー・ジャパン

                        「これ、マストだわ」モニター購入して気づいた、あったほうがいい周辺機器4選 #Amazon新生活セール

                          Googleドキュメントを使って、2ステップで画像から文字起こしする方法【今日のワークハック】 | ライフハッカー・ジャパン
                        • 画面上の文字列をOCRで読み取り翻訳できる翻訳支援ツール「PCOT」

                          日本語表示に非対応のゲームをプレイするとき、簡単なコマンド名や英単語であればなんとなくニュアンスをつかんだり、辞書を使って調べたりすることができますが、長いフレーズや文章単位になってくるとなかなか大変です。「PCOT」は、ゲーム画面をOCR(光学文字認識)で読み取ってくれるので、コピペできない文章でも翻訳してくれます。 ヌルポインターストライク http://www.gc-net.jp/s_54/ 「PCOT」は「ProcessConnectOcrTranslator」の略だとのこと。公式サイトの「『PCOT』のダウンロードはこちら →」の右にある「DL」をクリック。 OneDriveのページが開き、「PCOT.ZIP」が選択された状態になっていて、ちょっと待つとファイル保存ダイアログが開くので、「ファイルを保存する」にチェックを入れて「OK」をクリック。自動でダウンロードされない場合はP

                            画面上の文字列をOCRで読み取り翻訳できる翻訳支援ツール「PCOT」
                          • OmniAI

                            Backed by   Combinator Automate complex document workflows.Omni turns documents, slide decks, websites and more into the data you need. You'll never need to copy + paste data into spreadsheets again.

                              OmniAI
                            • ラズパイとAI-OCRで生産日報を電子化する(後編)

                              今回は、前回に引き続き、小型ボードコンピュータの「Raspberry Pi(ラズベリーパイ、略してラズパイ)」と、機械学習などのAI(人工知能)技術を活用したOCR(光学的文字認識)である「AI-OCR」を組み合わせた事例として「生産日報の電子化」をどのように実現するかについて具体的に解説します。 ⇒連載「ラズパイで製造業のお手軽IoT活用」バックナンバー 生産日報の電子化は、以下の手順で進めます。 手書きで日報を記入する 手書き日報をラズパイで読み取り、テキストデータに変換する テキストデータに変換した日報データを現場画面に表示して内容の確認をする。誤認識している部分は手で修正する 修正した箇所を機械学習して認識率を向上させる 前回は1.と2.について説明しました。今回は3.と4.について解説します。 3.テキストデータに変換した日報データを現場画面に表示して内容の確認をする OCRは1

                                ラズパイとAI-OCRで生産日報を電子化する(後編)
                              • PowerToys、画像から文字を抽出できる機能を開発中

                                  PowerToys、画像から文字を抽出できる機能を開発中
                                • 画像の中の文字を見つけるのって今どんな感じなの?まとめてみたんご - Qiita

                                  AdventCalender論文2日目担当のCurryです! 今回は画像の中の文字を見つける技術の昔と最新をまとめました。 意外と文字検出の論文紹介ってないんじゃね!?っていう 画像は参照サイト(各章の先頭のURL)、論文中から引っ張ってきてます 文字検出 画像の中の文字を見つけるのは 文字検出 と呼ばれます。英語では Text Detection とか Text Localization という。 つまりこんなタスク。オレンジ線が文字を囲めてるので、検出ができたと判断できる。 入力画像 出力 文字検出の難しさは、以下のようによく言われる。(いわゆる論文のイントロの謳い文句) 1. 文字の多様性 2. 文字の色 3. 文字のコントラストや背景との混同 4. 文字の大きさが違う 5. 文字の方向(いわゆるアルファベットが斜めになっていたり) ちなみに、、、 文字認識 は文字を判別することなの

                                    画像の中の文字を見つけるのって今どんな感じなの?まとめてみたんご - Qiita
                                  • 【Excel】PDF上の表は手入力しなくても簡単に取り込める! 紙のスキャンデータでも大丈夫【いまさら聞けないExcelの使い方講座】

                                      【Excel】PDF上の表は手入力しなくても簡単に取り込める! 紙のスキャンデータでも大丈夫【いまさら聞けないExcelの使い方講座】
                                    • KuroNetくずし字認識サービス | ROIS-DS人文学オープンデータ共同利用センター

                                      本サービスは無料ですが、利用状況の把握と過度な利用の防止のために、ログインを必須としています。ログインサービスの実装には、Google社のFirebase認証を活用しており、Google、Facebook、Twitterのアカウントと連携するか、電子メールアドレスを入力することで、ログインが可能となります。 「KuroNetくずし認識ビューア」と「ダッシュボード」は、両方とも同じアカウントでログインする必要がありますのでご注意下さい。ログイン機能は、いずれの場合も画面の右上にあります。なお、アカウント連携はログイン機能の実現のみに利用し、取得した情報はそれ以外の目的には活用いたしません。 「KuroNetくずし認識ビューア」に、認識したい本のIIIFマニフェストをドラッグ&ドロップしてください(注意:IIIFの利用)。そして、ページ移動やサムネイル表示などを用いて、認識したい画像を表示して

                                        KuroNetくずし字認識サービス | ROIS-DS人文学オープンデータ共同利用センター
                                      • iOSで文字認識(Text Recognition)

                                        iOS 13以降で、待望だった「文字認識」機能が使えるようになりました。カメラなどで撮影した画像内にある文字を読み取る [1] ことができます。 iOS 9からあった「文字検出」との違い 文字認識は、Visionフレームワークの一機能として追加されました。 一方、Core ImageのCIDetectorというクラスでは、CIDetectorTypeTextというタイプを指定でき、テキストを検出することができます。 このCIDetectorTypeTextやCIFeatureTypeTextはiOS 9からあるものです。 しかしこちらは文字の「領域」を検出する機能です。何が書いてあるか、までは認識できませんでした。 そこで今まではTesseract[2]というオープンソースのOCRエンジンや、SwiftOCR[3]という(おそらく個人がメンテしている)OSSしか選択肢がなかったのですが、つ

                                          iOSで文字認識(Text Recognition)
                                        • 【Excel】PDFや画像を見ながら表を手入力する時代は終わった! 画像認識を活用しよう【再掲】【今すぐ読みたい!人気記事】

                                            【Excel】PDFや画像を見ながら表を手入力する時代は終わった! 画像認識を活用しよう【再掲】【今すぐ読みたい!人気記事】
                                          • 読み取り精度100%が不可能と認め、失敗に備えユーザー体験を磨き込む話 - LayerX エンジニアブログ

                                            どうも!バクラクでOCRの開発を担当する高際 @shun_tak です! バクラクでは「圧倒的に使いやすいプロダクトを届け、ワクワクする働き方を。」というプロダクトビジョンを掲げて開発しています。 バクラクビジョン note.com そんなバクラクでは文書のデータ化を支援するため、文書の読み取り機能=OCR機能を提供しています。これにより、多様なレイアウト・大量の文書も瞬時にデータ化することができます。 以下、瞬時に読み取られる様子 youtu.be OCRで読み取ってデータ入力されるだけでも使いやすいプロダクトになっているかなと思いますが、この記事ではさらに一歩踏み込んで、「圧倒的に」使いやすくするための工夫の一端をお見せしたいと思います。 前提:請求書OCRで解きたい問題 請求書OCRは、経理に届く支払請求書を読み取ってデータ化します。データ化したい項目は、「いつまでに、だれに、いくら

                                              読み取り精度100%が不可能と認め、失敗に備えユーザー体験を磨き込む話 - LayerX エンジニアブログ
                                            • AI-OCRで国立国会図書館の資料をテキスト化 約1300万文字のデータセットから開発 その舞台裏に迫る

                                              明治期以降の書籍や雑誌といった「近代活字資料」のテキストデータを生成するために、AIを活用したOCR(光学的文字認識)を新たに開発する――こんな取り組みを国立国会図書館(NDL)が発表した。OCRはデジタル画像を解析し、画像内の文字をテキストデータに変換する技術だ。近代活字資料は書体が現代とは異なるうえ、旧字旧仮名遣いが中心なのでテキストデータ化は容易ではない。 国立国会図書館からの委託を受けてこの試みに挑戦したのが、AIを使った画像処理技術を開発しているモルフォAIソリューションズ(千代田区)だ。「かなり大変な開発作業になると感じました。しかしAIなら可能かもしれない、実現できれば国立国会図書館ユーザーの利便性を高められると確信していました」――こんな声がAI-OCR開発に携わったメンバーの口から出た。 そこで開発の舞台裏について、モルフォAIソリューションズのエンジニアたちを取材した。

                                                AI-OCRで国立国会図書館の資料をテキスト化 約1300万文字のデータセットから開発 その舞台裏に迫る
                                              • 機械学習でハタラクをバクラクにするために LayerX に入社しました #LayerX|yu-ya4

                                                こんにちは、2022年9月1日に LayerX にフルタイムの機械学習エンジニアとして入社した松村 優也(@yu__ya4)と申します。バクラク事業部の AI-OCRチームに所属しています。チーム名の通り、請求書や領収書といった帳票の画像データを読み取り、人間が手入力せずとも必要な項目を自動で抽出してデータ化する OCR 機能の開発をメインのミッションに持つチームです。 この note では、私がなぜ LayerX に機械学習エンジニアとして入社したのかを、転職のご報告に代えてお伝えします。めちゃくちゃ仲間を探していますので、少しでも気になった方は Meety や Twitter のDM からご連絡ください! 略歴 - LayerXに入社するまでまず簡単に、LayerX に入社するまでの私について紹介します。より詳しい経歴やこれまでのアウトプットは以下の Wantedly のプロフィールを

                                                  機械学習でハタラクをバクラクにするために LayerX に入社しました #LayerX|yu-ya4
                                                • GitHub - schappim/macOCR: Get any text on your screen into your clipboard.

                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                    GitHub - schappim/macOCR: Get any text on your screen into your clipboard.
                                                  • 10万円給付の申請書をOCR対応に 異例の様式変更 - 日本経済新聞

                                                    新型コロナウイルス感染防止への対策として住民1人当たり一律10万円を給付する「特別定額給付金」の郵送による申請書について、総務省は光学式文字読み取り装置(OCR)を利用しやすい様式に変更する。27日までに自治体に通知した。国が示した実務様式が関係者による提案で変更されるのは珍しい。総務省が20日に公表した給付金を申請する方法は2つだ。郵送される世帯全員の氏名が印字された申請書を送り返す方式か、

                                                      10万円給付の申請書をOCR対応に 異例の様式変更 - 日本経済新聞
                                                    • LayerXにおける機械学習を活用した請求書OCR機能に関する取り組み / deim2023-layerx-ai-ocr

                                                      2023年3月7日 DEIM2023 (https://event.dbsj.org/deim2023/) における技術報告の資料です。 題目:『 LayerXにおける機械学習を活用した請求書OCR機能に関する取り組み』 日程:3/7(火)13:30-15:40(4a-8: 画像認識2) 発表…

                                                        LayerXにおける機械学習を活用した請求書OCR機能に関する取り組み / deim2023-layerx-ai-ocr
                                                      • macOS 12 MontereyやiOS 15のSafari 15ではWebサイトやツイートに挿入されている画像内のテキストも「Live Text」で抽出可能に。

                                                        macOS 12 MontereyやiOS 15のSafari 15ではWebサイトやツイートに挿入されている画像内のテキストも「Live Text」で抽出可能になるそうです。詳細は以下から。 Appleは現地時間2021年06月07日に完全オンラインで開催したWWDC21の基調講演の中で、macOS 12 MontereyやiOS/iPadOS 15の新機能として「Live Text」という写真内にあるテキストを検出し、編集可能なテキストとしてコピー&ペーストできる機能を発表しました。 Live Text in photos Live Text intelligently unlocks rich and useful information in images, so you can make a call, send an email, or look up directions w

                                                          macOS 12 MontereyやiOS 15のSafari 15ではWebサイトやツイートに挿入されている画像内のテキストも「Live Text」で抽出可能に。
                                                        • 凸版印刷、くずし字解読支援システム「ふみのはゼミ」を開発

                                                          凸版印刷株式会社(本社:東京都千代田区、代表取締役社長:麿 秀晴、以下 凸版印刷)は、高精度のくずし字AI-OCRを搭載し、古文書・古典籍をオンライン上で簡単に解読できるシステム「ふみのはゼミ」を開発しました。 授業やイベントでの活用を想定したグループワーク支援機能により、歴史的資料のデジタルアーカイブ化を推進するとともに、コロナ禍における学習・研究の拡大に貢献します。 「ふみのはゼミ」を活用した共同解読作業のイメージ 本サービスは、凸版印刷が2015年から研究・実証試験を行ってきたくずし字OCRをさらに発展させ、凸版印刷総合研究所が開発したAI-OCRの導入による文字認識精度の向上および、グループワーク支援機能や、解読効率を向上させるためのさまざまなノウハウが結集したシステムです。パソコンやタブレットなどのブラウザ上で動作し、複数人での同時解読作業が可能になります。 AI-OCR導入によ

                                                            凸版印刷、くずし字解読支援システム「ふみのはゼミ」を開発
                                                          • 寿司打の限界を目指して ~WebGLのOCR~

                                                            この記事は闇の魔術に対する防衛術 Advent Calendar 20192 日目の記事です。 ある日、会社で寿司打というタイピングの速度や正確さを競うゲームが流行った。 みんなやってるので私も挑戦してみたところ、結果は惨敗。全エンジニアの中でもっともスコアが低かった。もともとタイピングが早くも正確でもないことを自覚していたつもりだったが、現実を突きつけられ大人しく家に返って枕を濡らそうと思った。が、あまりの悔しさにまみれ「JSer ならタイピング速度ではなく JS で勝負すればいいんだ」とダークサイドに堕ち闇の力に手を染めてしまった。 本記事はムキになって寿司打(WebGL 版)のスコアを稼ぐ自動化 JavaScript の話。 なお動作確認には Ubuntu 19.04、Google Chrome 80.0.3955.4 を使用した。 寿司打 WebGL 版 http://typing

                                                              寿司打の限界を目指して ~WebGLのOCR~
                                                            • バクラクのAI-OCRを支える精度モニタリング -モニタリングドリブンの改善-

                                                              MLOps LT大会 2023/7月 登壇資料 https://mlops.connpass.com/event/286716/ バクラクのAI-OCRを支える精度モニタリングについて紹介します。OCR技術は、ビジネスプロセスを効率化する上で必要不可欠な技術の一つですが、その精度を維持するためには、常にモニタリングが必要です。バクラクのMLチームでは、AI-OCRの精度モニタリングに重点的に取り組んでおりその内容を紹介します。

                                                                バクラクのAI-OCRを支える精度モニタリング -モニタリングドリブンの改善-
                                                              • 読み取りの精度の先の体験を追求するバクラクのAI-OCR - LayerX エンジニアブログ

                                                                こんにちは、全ての経済活動をデジタル化したいTomoakiです。 推しのコンビニスイーツはセブンイレブンの草もちです。 今回は読み取りの精度の先の体験を追求するバクラクのAI-OCR機能について紹介します。 TL;DR バクラクでは国税関係書類に対してOCRを実行し、書類の内容の入力作業の負担を減らしている お客様の業務をラクにするには、帳票に記載されている値をそのままサジェストするのでは不十分 バクラクのAI-OCR機能では、読み取った帳票に記載の値を活用しつつ、お客様の業務に寄り添った形に変換してサジェストすることで、なめらかなプロダクト体験を提供している バクラクのOCR 会社の営みにはファイルが溢れています。 取引先から届く請求書、会食で利用したレストランの領収書、業務委託メンバーに毎月渡す支払通知書など、会社規模によっては毎月何十万、何百万という枚数の書類が扱われています。そして

                                                                  読み取りの精度の先の体験を追求するバクラクのAI-OCR - LayerX エンジニアブログ
                                                                • 「Google Chrome 126」が正式リリース ~PDFビューワーにAIを活用したOCR機能/セキュリティ関連の修正は全21件

                                                                    「Google Chrome 126」が正式リリース ~PDFビューワーにAIを活用したOCR機能/セキュリティ関連の修正は全21件
                                                                  • 深層学習を活用した高品質3Dスキャン代行サービス PFN 3D Scan を企業向けに提供開始 - 株式会社Preferred Networks

                                                                    従来技術で困難だった透明・黒色・金属製の物体も見た目を忠実に再現 Eコマース、ゲーム・映像制作、メタバース、文化財の保存等で利用可能 株式会社Preferred Networks(本社:東京都千代田区、代表取締役 最高経営責任者:西川徹、プリファードネットワークス、以下、PFN)は、様々な物品を高品質な3Dモデル*としてデジタル化する3Dスキャン代行サービス PFN 3D Scan(ピーエフエヌ・スリーディースキャン、公式サイト: https://pfn3d.com)を本日、日本国内の企業向けに提供開始しました。PFN 3D Scanは深層学習を利用したPFN独自の技術を用いることで、従来の3Dスキャン技術が苦手としていた透明・黒色・金属を含めた多様な材質の物品のメッシュ・テクスチャ・マテリアル(形状・色・質感)を忠実に再現することが可能です。提供する3Dモデルは、Eコマース、ゲーム・映像

                                                                      深層学習を活用した高品質3Dスキャン代行サービス PFN 3D Scan を企業向けに提供開始 - 株式会社Preferred Networks
                                                                    • iOS 15.4/iPadOS 15.4ではメモアプリが「Text from Camera」に対応し、英語などのテキストをカメラから瞬時に入力することが可能に。

                                                                      iOS 15.4/iPadOS 15.4ではメモアプリが「Text from Camera」に対応し、カメラで英語などのテキストを瞬時にスキャンできるようになっています。詳細は以下から。 Appleは2021年09月にリリースしたiOS 15/iPadOS 15で、写真内にある文章を検出し、編集可能なテキストとしてコピー&ペーストできる「テキスト認識表示 (Live Text)」機能を実装し、このテキスト認識表示機能を応用した「カメラでテキスト認識表示 (Text from Camera)」も一部の言語で利用できるようになっていますが、iOS 15.4/iPadOS 15.4のメモアプリでは、このカメラでテキスト認識表示がサポートされています。

                                                                        iOS 15.4/iPadOS 15.4ではメモアプリが「Text from Camera」に対応し、英語などのテキストをカメラから瞬時に入力することが可能に。
                                                                      • GitHub - clovaai/donut: Official Implementation of OCR-free Document Understanding Transformer (Donut) and Synthetic Document Generator (SynthDoG), ECCV 2022

                                                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                          GitHub - clovaai/donut: Official Implementation of OCR-free Document Understanding Transformer (Donut) and Synthetic Document Generator (SynthDoG), ECCV 2022
                                                                        • 「文字をきれいに読み取る」だけじゃないOCR――freeeに学ぶAI開発で本質的価値を提供する方法 | Ledge.ai

                                                                          会計サービスをはじめ、バックオフィス向けクラウドソフトを提供するfreee。単純作業を効率化し、ユーザーが本質的な仕事に集中できる環境を提供するために、AI技術を駆使したさまざまな取り組みがなされている。 「ユーザーにとって本質的に価値があること(同社では「マジ価値」と呼ばれる)を届けきる」をコミットメントとして掲げる同社の、AI技術を使ったアプローチ方法を連載形式でお届けする。 第2回のテーマはOCR。紙の領収書や、請求書とにらめっこし、その扱いにうんざりしている経営者は少なくないだろう。 これら紙の文書をよりスムースに扱うため、freeeのサービスに実装されている独自のOCR機能を、同社機械学習エンジニアの田中浩之氏に紹介していただく。 はじめにfreeeでは「スモールビジネスを、世界の主役に。」をミッションに掲げ、「アイデアやパッションやスキルがあればだれでも、ビジネスを強くスマート

                                                                            「文字をきれいに読み取る」だけじゃないOCR――freeeに学ぶAI開発で本質的価値を提供する方法 | Ledge.ai
                                                                          • Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行 - デジタルアーカイブシステムの技術ブログ

                                                                            概要 VMインスタンスの作成 VMインスタンス内での操作 Nvidia driverのインストール dockerコンテナの起動 推論の実行 まとめ 追記 2022.04.28 概要 NDLが公開したNDLOCRアプリケーションについて、GCP(Google Cloud Platform)の仮想マシンを用いて実行してみましたので、その備忘録です。本アプリケーションの詳細については、以下のリポジトリをご確認ください。 https://github.com/ndl-lab/ndlocr_cli VMインスタンスの作成 GCPのCompute Engineにアクセスして、画面上部の「インスタンスを作成」ボタンをクリックします。 「マシンの構成」の「マシンファミリー」について、「GPU」を選択します。そして「GPUのタイプ」において、今回は最も安価な「NVIDIA T4」を選択します。「GPUの数」

                                                                              Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行 - デジタルアーカイブシステムの技術ブログ
                                                                            • たまにウソつく生成AIに「契約書管理」は無理? 「40年の歴史」持つ言語解析AIが再評価されるワケ

                                                                              たまにウソつく生成AIに「契約書管理」は無理? 「40年の歴史」持つ言語解析AIが再評価されるワケ:万能ではないからこそ(1/5 ページ) 2022年末のChatGPTの登場以来、ビジネスの世界では生成AI技術の可能性に沸き立っている。多くの企業が競うように最新のAI技術を自社サービスに組み込み、イノベーションの波に乗ろうとしている。しかし、生成AIが万能かというとそんなことはない。 Sansanが2022年にリリースした契約書管理サービス「Contract One」は、最新の生成AI技術だけでなく、40年の歴史を持つルールベースの言語解析技術を中核に据えている。なぜSansanはこのような選択をしたのか。 契約書関連の業務をデジタル化する、いわゆるリーガルテック市場は活況だ。コロナ禍に急速に普及した電子契約を皮切りに、人間に代わりAIが契約書のレビューをサポートする契約書レビュー、締結し

                                                                                たまにウソつく生成AIに「契約書管理」は無理? 「40年の歴史」持つ言語解析AIが再評価されるワケ
                                                                              • 明治から昭和初期の文書を解読するサービス、凸版印刷が提供へ くずし字対応AI-OCRで

                                                                                凸版印刷は11月11日、明治期から昭和初期(以下、近代)の手書き文字に対応したAI-OCRを開発したと発表した。同社提供の江戸時代のくずし字を対象にした古文書解読サービス「ふみのは」のAI-OCRを近代の多様な筆跡の手書き文字にまで対応範囲を拡張させたもの。11月から実証実験を行い、2023年4月から正式サービスを開始する予定。 凸版印刷によると、近代の手書き文字は、書き手によるくずし方のバラつきが大きいという。原因は筆記用具の多様化や片仮名語の混在、旧字旧仮名遣い表記などがあるためで、解読は非常に困難としている。今回開発したAI-OCRではこれに対応するため、さまざまなパターンの文字をAIに学習させ、文字の解読精度を向上させた。

                                                                                  明治から昭和初期の文書を解読するサービス、凸版印刷が提供へ くずし字対応AI-OCRで
                                                                                • AIで“くずし字”を解読するスマホアプリが無料公開 コンペ1位の認識モデル採用

                                                                                  人文学オープンデータ共同利用センター(CODH)は8月30日、古文書に書かれた「くずし字」をAIで解読するスマートフォン(iOS/Android)向け無料アプリ「みを」を公開した。元のくずし字と変換後の文字を比較でき、古文書に慣れてない人の理解を手助けするという。 変換したい資料の写真や、ネットからダウンロードした画像などをアプリで読み込むと、くずし字を変換して元の文章の上に表示する。同じ文字を強調表示する機能や変換後の文章をメモ帳などにコピー&ペーストできる機能などを備える。 AIの学習には、国文学研究資料館の日本古典籍くずし字データセットを基に、CODHが開発したくずし字認識モデル「KuroNet」(クロネット)と、機械学習の精度を競い合うプラットフォーム「Kaggle」(カグル)のくずし字認識コンペティションで1位になったtascj氏の認識モデルを活用している。くずし字は江戸時代のデ

                                                                                    AIで“くずし字”を解読するスマホアプリが無料公開 コンペ1位の認識モデル採用

                                                                                  新着記事