並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 294件

新着順 人気順

ocrの検索結果121 - 160 件 / 294件

  • キャプチャー画像をOCRで素早くテキスト化 いざというとき便利なSnipping Toolの活用法【Windows 11】

    Snipping Toolの便利な機能を紹介 Windows 11の標準スクリーンキャプチャーツール「Snipping Tool」には、スクリーンキャプチャーや画面の録画をするだけでなく、ちょっとした編集も可能になっている。本Tech TIPSでは、いつの間にか追加された「OCR機能」と「墨消し機能」の2つの使い方を紹介しよう。 Windows 11でスクリーンキャプチャーを撮る場合、[Windows]+[Shift]+[S]キーを使っている人も多いのではないだろうか。[Windows]+[Shift]+[S]キーを押すと、Windows 11の標準スクリーンキャプチャーツール「Snipping Tool」が呼び出される。このツールは、着々と進化しており、単純にスクリーンキャプチャーや画面の録画をするだけでなく、ちょっとした編集も可能になっている。 本Tech TIPSでは、「Snippi

      キャプチャー画像をOCRで素早くテキスト化 いざというとき便利なSnipping Toolの活用法【Windows 11】
    • LLM時代におけるAI-OCR機能の開発戦略 / layerx-bakuraku-ocr-llm-lt-2024

      2024年1月24日 【オフライン限定開催】注目AIテックカンパニー4社が集うLT新年会〜LLM活用のリアルを語る〜(https://lapras.connpass.com/event/305577/) における発表資料です。

        LLM時代におけるAI-OCR機能の開発戦略 / layerx-bakuraku-ocr-llm-lt-2024
      • Google Colabを用いたNDLOCRアプリの実行(Google Driveを用いた画像の入力と結果の保存) - デジタルアーカイブシステムの技術ブログ

        概要 ノートブック 実行方法 入力フォルダの準備 ノートブックの実行:1.初期セットアップ ノートブックの実行:2.設定 ノートブックの実行:3.実行 まとめ 追記 2022.05.02 2022.04.30 概要 前回、Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行方法を共有しました。 nakamura196.hatenablog.com ただし、上記の方法は手続きが一部面倒で、かつ費用がかかる方法です。本番環境で使用するには適した方法ですが、小規模に、または試験的に使用するにはハードルが高い方法でした。 この課題に対して、 @blue0620 さんがGoogle Colabを用いたNDLOCRアプリの実行方法を作成されました。 https://twitter.com/blue0620/status/151929433215901

          Google Colabを用いたNDLOCRアプリの実行(Google Driveを用いた画像の入力と結果の保存) - デジタルアーカイブシステムの技術ブログ
        • 「OneNote」に統合された新しい「付箋」アプリ、すべてのユーザーが利用可能に/スクリーンショット、OCR(画像のテキスト認識)、ソースURLの自動追加などに対応

            「OneNote」に統合された新しい「付箋」アプリ、すべてのユーザーが利用可能に/スクリーンショット、OCR(画像のテキスト認識)、ソースURLの自動追加などに対応
          • スーパーのチラシをOCRで読み取らせてAIに献立を提案してもらう | IIJ Engineers Blog

            クラウド本部 クラウドソリューション部に所属(2024年入社) 主に社内向けのクラウド記事を書いてます。でかい鯉を見るのが好き。 はじめに どうもこんにちは、好きな料理漫画は「ミスター味っ子」、クラウドソリューション部の立木です。 ここ2か月間、おいしいので毎晩カレーを食べていましたが、流石に嫌気が刺してきたのでAIに献立を考えてもらうことにしました。 ただ、それだけだと面白味がないので、近所のスーパーのチラシを用いてOCRを行い、読み取った情報を元に献立を考えてもらいます。 それでは実際にやっていきましょう。 ※今回、たまたまいなげや様のチラシを使用していますが、本件はいなげや様とは無関係なのでお問い合わせされないようにお願いします。あくまで私個人が本ツールの検証として使用しただけです。 構成 今回の構成です。 まず、チラシをWebサイトから入手し、そのときの形式がPDFなのでjpegに

              スーパーのチラシをOCRで読み取らせてAIに献立を提案してもらう | IIJ Engineers Blog
            • [スタパ齋藤の「スタパトロニクスMobile」] 最新macOS「Ventura」にアップグレードし痛い目に遭うも神アプリ使用開始でハッピーになった話

                [スタパ齋藤の「スタパトロニクスMobile」] 最新macOS「Ventura」にアップグレードし痛い目に遭うも神アプリ使用開始でハッピーになった話
              • バクラクのAI-OCRが扱う問題の複雑さ - LayerX エンジニアブログ

                こんにちは。 LayerXのバクラク事業部 機械学習チームのテックリードを務めております機械学習エンジニアの島越(@nt_4o54)です。 最近、カジュアル面談や学会などで「AI-OCRってもうほぼ完成で、運用フェーズですよね」「やることあるんですか?」など頻繁に聞かれることがあります。 「いやいや課題が山のようにあるんです」という話をいつもしているので、今回は我々が作っているAI-OCRがどれだけ複雑で難しい問題を扱っているか、という部分についてお話しさせていただければなと思います。 少し、経理ドメインの話が多く恐縮ですが、お付き合いいただけると嬉しいです。 AI-OCRについて AI-OCRが扱う問題の複雑さ ドメインへの深い理解が必要 同じ書類であってもコンテキストによって抽出したい値が異なる まとめ 最後に AI-OCRについて まず、そもそも弊社のバクラクで提供しているAI-OC

                  バクラクのAI-OCRが扱う問題の複雑さ - LayerX エンジニアブログ
                • What is Image-to-Text? - Hugging Face

                  Image to text models output a text from a given image. Image captioning or optical character recognition can be considered as the most common applications of image to text. Use Cases Image Captioning Image Captioning is the process of generating textual description of an image. This can help the visually impaired people to understand what's happening in their surroundings. Optical Character Recogn

                    What is Image-to-Text? - Hugging Face
                  • アノテーションにおけるUIの工夫 - CADDi Tech Blog

                    こんにちは、MLOpsチームです。先日OCRモデルを学習するためのアノテーションにおいて、作業効率を検証するためのPoCとしてアノテーションUIを開発しました。本記事ではこのアノテーションUIにおける工夫について、試用によって得られた知見をまじえつつ紹介します。 はじめに アノテーションUIを開発することとなった背景について説明します。 アノテーションUIとは アノテーションUIは機械学習の学習データを作成するためのUIです。アノテーションUIはアノテーション作業の効率に強く影響し、アノテーション作業によって得られる学習データの量は機械学習の精度に大きく寄与します。したがって、アノテーションUIは機械学習において最も重要なコンポーネントのひとつといえます。 UIを開発した背景 キャディではOSSツールなどのUIを用いてアノテーションが行われていましたが、ここに独自の工夫を導入すれば入力効率

                      アノテーションにおけるUIの工夫 - CADDi Tech Blog
                    • Claude 3.5 Sonnet、PDFの画像や表も理解する「Visual PDFs」

                        Claude 3.5 Sonnet、PDFの画像や表も理解する「Visual PDFs」
                      • OCRは「マリオプラザーズ」の夢を見る | Colorful Pieces of Game

                        『ちょっとは正しいゲームの歴史』…というか、ともかく「ゲームの歴史」を批判するシリーズで困らされたのがOCRだった。 Kindle本からテキストで全部コピー出来ればいいのだけど、Kindleは出版社それぞれがコピーできる量を規制していて(当たり前だ)、それを超える量はコピーのしようがない。 そしていうまでもなく、ゲームの歴史批判シリーズは、死ぬほど引用するので、当然のことながら出版社の制限を超えることになる。 なお、この膨大な引用を「これはいいのか?」と言っていた人がいたらしいが、全く問題ない。 引用は認められた権利で、引用した内容ではなく、それを引用する意味があった本文があれば、なんの問題もない。 そうじゃないと「引用して批判する」ことが出来ないことになってしまうでしょ? といって、画像引用にすると縦書きになってしまい、ウェブでは読みづらい事、この上ないので以下の方法でテキスト化した。

                        • LINE、国⽴国会図書館のデジタル化資料247万点をテキストデータ化

                            LINE、国⽴国会図書館のデジタル化資料247万点をテキストデータ化
                          • 「Firefox 106」正式版リリース、画像内のテキスト抽出機能が追加

                            ウェブブラウザ「Firefox 106」の正式版が公開されました。記事作成時点ではmacOS限定ながら画像内のテキストを抽出する機能が追加されるなど、ユーザーが直接触れる機会が多くなりそうな数々の機能が導入されています。 Firefox 106.0, See All New Features, Updates and Fixes https://www.mozilla.org/en-US/firefox/106.0/releasenotes/ ◆画像内のテキスト抽出 macOS 10.15(Catalina)以降で、選択した画像からテキストを抽出できるようになります。テキストの抽出を行うには、テキストを含む画像を右クリックし、表示されるポップアップメニューから「Copy Text from Image」を選択します。 抽出されたテキストは共有・保存・検索するためにクリップボードにコピーされ

                              「Firefox 106」正式版リリース、画像内のテキスト抽出機能が追加
                            • ワクチン接種券の読み取りトラブル多発 政府、撮影用スタンドを自治体に配布へ

                              「接種券のバーコードが読み取れない」「(カメラの)ピントが合わない」――新型コロナワクチンの接種を担う自治体からこうした声が出ている。タブレット端末を使った接種券の読み取り作業でトラブルが多発しているためだ。読み取り方法に問題があるとして、内閣官房IT総合戦略室(IT室)は5月11日、タブレット端末を固定し、スムーズに接種券を読み取るための専用スタンドを全国の自治体に配布すると発表した。 各自治体では現在、高齢者や医療従事者を対象に接種券を配布し、接種を順次始めている。接種会場では接種券に記載された18桁の数字「OCRライン」をタブレット端末のカメラと専用アプリで読み取り、接種した回数や場所を識別するスキームだが、正しく読み取れないケースが相次いでいた。

                                ワクチン接種券の読み取りトラブル多発 政府、撮影用スタンドを自治体に配布へ
                              • 【マンガ】仕事が速い人と遅い人「超ムダなエクセル入力作業」への対応の差

                                エクセルがめんどくさいのでラクするコツをまとめてみた 「エクセルを使えば、仕事はこんなにラクになる」。今までめんどくさいけど我慢してやっていた事務作業、ミスしがちなポイントを解決するちょっとしたコツを、マンガとイラストでわかりやすく紹介します。 バックナンバー一覧 「自分は仕事が遅い……」「よくミスをする……」そんな悩みを抱える人ほど、実は“自己流”の仕事のやり方で損をしていることがあります。なかでも、知識がシェアされづらくブラックボックス化しがちなのが「エクセル」の使い方。この連載では、事務の仕事をよりラクに、よりミスなく進めるためのエクセルのちょっとしたコツを、事務職一筋の著者が、マンガでわかりやすくお伝えします。 今回は、事務職あるあるの「アナログ作業」についての解決策。アプリを知っているか知らないかで、作業時間が大きく変わります。(マンガ:あきのあこ) 【エクセルでラクするコツ:明

                                  【マンガ】仕事が速い人と遅い人「超ムダなエクセル入力作業」への対応の差
                                • 「ScanSnap Home」がライセンスフリー化、利用デバイスやユーザー数の上限を廃止

                                    「ScanSnap Home」がライセンスフリー化、利用デバイスやユーザー数の上限を廃止 
                                  • バクラクのドキュメント解析技術と実データにおける課題 / layerx-ccc-winter-2024

                                    cvpaper.challenge Conference winter 2024の技術紹介セッションで 「バクラクのドキュメント解析技術と実データにおける課題」 と題して発表させていただきました。 https://research-p.com/event/1972 概要: LayerXは、…

                                      バクラクのドキュメント解析技術と実データにおける課題 / layerx-ccc-winter-2024
                                    • 機械学習チーム立ち上げ前夜とその後の話 #バクラク #LayerX|Shun Takagiwa

                                      こんにちは!バクラクエンジニアの高際です! LayerXでは現在AI-OCRチームのマネージャーを担当しています。 このnoteでは、機械学習チーム立ち上げ前夜の意思決定プロセスと、その後の進捗について報告したいと思います。 いきなり昔話をしますが、LayerXは実は去年(2021年)までは機械学習に積極的に取り組んでいませんでした。 クラウドコンピューティングと同様当然に利用する技術ではあるものの、自社のコア技術として積極投資するというよりは、あくまでツールのひとつとして利用するというスタンスでした。 それが一転して2022年にはCEO福島から「機械学習を本気でやります。チームを10倍に拡大させる」という宣言を出しました。 ML本気でやります。MLチームを10倍に拡大させることを決めました。MLエンジニアの皆様ぜひLayerXをよろしくおねがいします。(私も5年のブランクを超え勉強し始め

                                        機械学習チーム立ち上げ前夜とその後の話 #バクラク #LayerX|Shun Takagiwa
                                      • 「机の上にたまった書類をスマホアプリでPDF化したい」――急遽テレワークを導入した中小企業の顛末記(94)【急遽テレワーク導入!の顛末記】

                                          「机の上にたまった書類をスマホアプリでPDF化したい」――急遽テレワークを導入した中小企業の顛末記(94)【急遽テレワーク導入!の顛末記】
                                        • GitHub - ndl-lab/ndlocr_cli: NDLOCRアプリケーションのリポジトリ(ソースコードを含む)

                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                            GitHub - ndl-lab/ndlocr_cli: NDLOCRアプリケーションのリポジトリ(ソースコードを含む)
                                          • iOSアプリで初めてテキスト画像認識で機密情報を読み取るマルウェアが発見される

                                            セキュリティ企業のKasperskyが、AndroidアプリとiOSアプリでテキスト画像認識機能を持つマルウェアを発見したと報告しています。「SparkCat」と呼ばれるこのマルウェアはユーザーが撮影したスクリーンショットの内容を読み取る機能を持っており、特に仮想通貨ウォレットのリカバリーフレーズを狙っていたとのことです。 SparkCat crypto stealer in Google Play and App Store | Securelist https://securelist.com/sparkcat-stealer-in-app-store-and-google-play/115385/ Malware With Screen Reading Code Found in iOS Apps for the First Time - MacRumors https://www.

                                              iOSアプリで初めてテキスト画像認識で機密情報を読み取るマルウェアが発見される
                                            • spaCy(+GiNZA)でPDFテキスト抽出の改行位置をいい感じにする - OPTiM TECH BLOG

                                              R&D チームの徳田(@dakuton)です。 過去何回か、Tech Blog記事にてPDFやOCR、自然言語処理に関する手法を紹介してきましたが、今回もそちらに関連する内容です。 過去記事 tech-blog.optim.co.jp tech-blog.optim.co.jp tech-blog.optim.co.jp やりたいこと PDFからテキストを抽出する際に含まれる、中途半端な位置にある改行を除去することが目的です。 シンプルな方法としては、句点(。)の位置をもとに改行する方法ですが、今回はspaCy(とGiNZA)を併用した場合にどうなるかを試してみることにします。 テストデータ 今回は、下記記事のPDFを使用しました。 財務省「ファイナンス」令和3年2月号 の「ポストコロナ時代を形作る、コロナ禍で生まれるDX(デジタルトランスフォーメーション)」 1 メディア掲載情報: 財務

                                                spaCy(+GiNZA)でPDFテキスト抽出の改行位置をいい感じにする - OPTiM TECH BLOG
                                              • より便利になったWindows 10・11用「PowerToys」- 阿久津良和のWindows Weekly Report

                                                レポート より便利になったWindows 10・11用「PowerToys」- 阿久津良和のWindows Weekly Report 常に、WindowsとPowerToysは共に歩んできた。PowerToysはWindows単体では足りない機能を補うため、Microsoft自身が開発・利用していたツール群。その歴史はWindows 95の時代までさかのぼる。「PowerToys for Windows 95」は15種のツールを備えていたが、中でも人気だったのがTweakUIだ。 本来はレジストリエントリーの編集を必要とするカスタマイズをGUIから操作できるため、TweakUIは個人でWindows 95 PCを使用するユーザーに欠かせないものだった。当時のユーザーにとっては、キーボードの再割り当てなどを行う「Windows 95 Kernel Toys」も懐かしいだろう。なお、Wind

                                                  より便利になったWindows 10・11用「PowerToys」- 阿久津良和のWindows Weekly Report
                                                • Microsoft Azure、「Computer Vision API」のOCR機能が日本語に対応、パブリックプレビューとして

                                                  マイクロソフトは、Microsoft Azureの機械学習を用いた画像処理「Computer Vision API」の光学式文字認識(OCR)機能が日本語に対応したことを発表しました。 Computer VisionのOCR機能は、JPEG、PNG、BMP、TIFFなどの画像フォーマットもしくはPDFによるドキュメントファイルを入力することで、その内容からテキスト、手書きのテキスト(英語のみ)、数字、通貨記号などを読み取り、抽出することができます。 ファイルサイズは50MB未満(Freeレベルの場合は4MB)、寸法は50x50ピクセル以上 1万x1万ピクセル以下である必要があり、 PDFファイルとTIFFファイルの場合は最大2000ページ(Freeレベルの場合は最初の2ページのみ)が処理されます。 日本語への対応は最新の「Read 3.2」バージョンでパブリックプレビューとなりました。これ

                                                    Microsoft Azure、「Computer Vision API」のOCR機能が日本語に対応、パブリックプレビューとして
                                                  • Windowsでもついに画像内のテキストコピーが可能に! | ライフハッカー・ジャパン

                                                    サンディスクのmicroSDカード 512GBが40%OFF。写真や動画のデータ置き場はこれで良くない?【Amazonセール】

                                                      Windowsでもついに画像内のテキストコピーが可能に! | ライフハッカー・ジャパン
                                                    • OCR PDFs and images directly in your browser

                                                      This tool runs entirely in your browser. No files are uploaded to a server. It uses Tesseract.js for OCR and PDF.js to convert PDFs into images. Language: Drag and drop a PDF, JPG, PNG, or GIF file here or click to select a file

                                                      • Windows版「OneNote」アプリに文字起こし機能 ~複数話者を識別、ペン入力と同期再生も/まずは「Office Insider」で。段階的に提供範囲を拡大

                                                          Windows版「OneNote」アプリに文字起こし機能 ~複数話者を識別、ペン入力と同期再生も/まずは「Office Insider」で。段階的に提供範囲を拡大
                                                        • 請求書から漫画まで!OCR+LLMで進化する文書データ構造化技術

                                                          はじめに こんにちは、株式会社松尾研究所シニアデータサイエンティストの大西です。本記事は、松尾研究所 Advent Calendar 2024の記事です。 松尾研究所では、多くの企業と協力し、AIの社会実装に向けた研究開発を行っています。本稿では、OCRとLLM技術を活用した文書データの構造化手法についてご紹介します。 企業が保有するデータの多くは紙や非構造データとして保管されており、これを構造化するのは困難です。また、LLMを用いたRAG(Retrieval-Augmented Generation)システムを構築する際、元データが適切に構造化されていないと、正確な検索や参照が難しくなります。 今回、最適な文章データ構造化を実現する方法を調査するため、複数のOCR, LLM手法を実験して性能を比較してみました。 従来技術の課題と提案手法 OCRは、文字を認識しテキスト情報を抽出する技術で

                                                            請求書から漫画まで!OCR+LLMで進化する文書データ構造化技術
                                                          • 画面上の文字列をOCRで読み取り翻訳できる翻訳支援ツール「PCOT」

                                                            日本語表示に非対応のゲームをプレイするとき、簡単なコマンド名や英単語であればなんとなくニュアンスをつかんだり、辞書を使って調べたりすることができますが、長いフレーズや文章単位になってくるとなかなか大変です。「PCOT」は、ゲーム画面をOCR(光学文字認識)で読み取ってくれるので、コピペできない文章でも翻訳してくれます。 ヌルポインターストライク http://www.gc-net.jp/s_54/ 「PCOT」は「ProcessConnectOcrTranslator」の略だとのこと。公式サイトの「『PCOT』のダウンロードはこちら →」の右にある「DL」をクリック。 OneDriveのページが開き、「PCOT.ZIP」が選択された状態になっていて、ちょっと待つとファイル保存ダイアログが開くので、「ファイルを保存する」にチェックを入れて「OK」をクリック。自動でダウンロードされない場合はP

                                                              画面上の文字列をOCRで読み取り翻訳できる翻訳支援ツール「PCOT」
                                                            • Mistral、PDF文書をマルチモーダルでAI対応ファイルに変換するOCRのAPI提供開始

                                                              仏AI企業のMistral AIは3月6日(現地時間)、PDFや画像から、マルチモーダルな要素を高精度で抽出し、構造化された形式で出力する新API「Mistral OCR」を発表した。有償で提供する他、AIチャットbot「Le Chat」で無料で試すこともできる。 生成AIの基盤となるLLMは、プレーンなテキストデータに特化しており、PDFに含まれる画像や複雑なレイアウトを十分に理解することができない。Mistral OCRがPDFのようなマルチモーダルドキュメントを抽出、出力することで、PDFを直接理解するのが困難なLLMでも、PDFに含まれる情報を効果的に活用できるようになる。 Mistral OCRは、PDFの内容を単にテキスト化するのではなく、Markdown(リンクやヘッダなどの書式設定要素を追加するための書式設定構文)でフォーマットする。 PDFからデータを抽出するサービスは既

                                                                Mistral、PDF文書をマルチモーダルでAI対応ファイルに変換するOCRのAPI提供開始
                                                              • ラズパイとAI-OCRで生産日報を電子化する(後編)

                                                                今回は、前回に引き続き、小型ボードコンピュータの「Raspberry Pi(ラズベリーパイ、略してラズパイ)」と、機械学習などのAI(人工知能)技術を活用したOCR(光学的文字認識)である「AI-OCR」を組み合わせた事例として「生産日報の電子化」をどのように実現するかについて具体的に解説します。 ⇒連載「ラズパイで製造業のお手軽IoT活用」バックナンバー 生産日報の電子化は、以下の手順で進めます。 手書きで日報を記入する 手書き日報をラズパイで読み取り、テキストデータに変換する テキストデータに変換した日報データを現場画面に表示して内容の確認をする。誤認識している部分は手で修正する 修正した箇所を機械学習して認識率を向上させる 前回は1.と2.について説明しました。今回は3.と4.について解説します。 3.テキストデータに変換した日報データを現場画面に表示して内容の確認をする OCRは1

                                                                  ラズパイとAI-OCRで生産日報を電子化する(後編)
                                                                • PowerToys、画像から文字を抽出できる機能を開発中

                                                                    PowerToys、画像から文字を抽出できる機能を開発中
                                                                  • Googleドキュメントを使って、2ステップで画像から文字起こしする方法【今日のワークハック】 | ライフハッカー・ジャパン

                                                                    仕事をしていると、いろいろな場面に出くわすものですが、“文書データ送りますね” と言われて届いたデータがPDFや画像だった、というようなことありますよね? もちろん目を通すだけでOKというものなら別に問題ないのですが、文書編集のベースに使う必要があったりすると、とりあえず “元データありませんか?” と聞きたくなるわけです。 今日のワークハック:Googleドキュメントで画像から必要な情報を文字起こしするScreenshot: 田中宏和 via Google Docsこんなときに便利なのがOCR(光学的文字認識)ソフト。でも実は、Googleアカウントを持っている人なら、特にパッケージソフトやWebアプリを導入する必要はないのです。 Googleドキュメントには、画像内に含まれている文字をテキストデータ化してくれる機能が搭載されています。

                                                                      Googleドキュメントを使って、2ステップで画像から文字起こしする方法【今日のワークハック】 | ライフハッカー・ジャパン
                                                                    • 【Excel】PDF上の表は手入力しなくても簡単に取り込める! 紙のスキャンデータでも大丈夫【いまさら聞けないExcelの使い方講座】

                                                                        【Excel】PDF上の表は手入力しなくても簡単に取り込める! 紙のスキャンデータでも大丈夫【いまさら聞けないExcelの使い方講座】
                                                                      • iOSで文字認識(Text Recognition)

                                                                        iOS 13以降で、待望だった「文字認識」機能が使えるようになりました。カメラなどで撮影した画像内にある文字を読み取る [1] ことができます。 「文字検出」との違い 文字認識は、Visionフレームワークの一機能として追加されました。 一方、Core ImageのCIDetectorというクラスでは、CIDetectorTypeTextというタイプを指定でき、テキストを検出することができます。 このCIDetectorTypeTextやCIFeatureTypeTextはiOS 9からあるものです。 しかしこちらは文字の「領域」を検出する機能です。何が書いてあるか、までは認識できませんでした。 またiOS 11で登場したVisionフレームワークでは VNDetectTextRectanglesRequest という文字領域を検出するクラスを当初から利用できましたが、これも文字の「領域」

                                                                          iOSで文字認識(Text Recognition)
                                                                        • 【Excel】PDFや画像を見ながら表を手入力する時代は終わった! 画像認識を活用しよう【再掲】【今すぐ読みたい!人気記事】

                                                                            【Excel】PDFや画像を見ながら表を手入力する時代は終わった! 画像認識を活用しよう【再掲】【今すぐ読みたい!人気記事】
                                                                          • 読み取り精度100%が不可能と認め、失敗に備えユーザー体験を磨き込む話 - LayerX エンジニアブログ

                                                                            どうも!バクラクでOCRの開発を担当する高際 @shun_tak です! バクラクでは「圧倒的に使いやすいプロダクトを届け、ワクワクする働き方を。」というプロダクトビジョンを掲げて開発しています。 バクラクビジョン note.com そんなバクラクでは文書のデータ化を支援するため、文書の読み取り機能=OCR機能を提供しています。これにより、多様なレイアウト・大量の文書も瞬時にデータ化することができます。 以下、瞬時に読み取られる様子 youtu.be OCRで読み取ってデータ入力されるだけでも使いやすいプロダクトになっているかなと思いますが、この記事ではさらに一歩踏み込んで、「圧倒的に」使いやすくするための工夫の一端をお見せしたいと思います。 前提:請求書OCRで解きたい問題 請求書OCRは、経理に届く支払請求書を読み取ってデータ化します。データ化したい項目は、「いつまでに、だれに、いくら

                                                                              読み取り精度100%が不可能と認め、失敗に備えユーザー体験を磨き込む話 - LayerX エンジニアブログ
                                                                            • AI-OCRで国立国会図書館の資料をテキスト化 約1300万文字のデータセットから開発 その舞台裏に迫る

                                                                              明治期以降の書籍や雑誌といった「近代活字資料」のテキストデータを生成するために、AIを活用したOCR(光学的文字認識)を新たに開発する――こんな取り組みを国立国会図書館(NDL)が発表した。OCRはデジタル画像を解析し、画像内の文字をテキストデータに変換する技術だ。近代活字資料は書体が現代とは異なるうえ、旧字旧仮名遣いが中心なのでテキストデータ化は容易ではない。 国立国会図書館からの委託を受けてこの試みに挑戦したのが、AIを使った画像処理技術を開発しているモルフォAIソリューションズ(千代田区)だ。「かなり大変な開発作業になると感じました。しかしAIなら可能かもしれない、実現できれば国立国会図書館ユーザーの利便性を高められると確信していました」――こんな声がAI-OCR開発に携わったメンバーの口から出た。 そこで開発の舞台裏について、モルフォAIソリューションズのエンジニアたちを取材した。

                                                                                AI-OCRで国立国会図書館の資料をテキスト化 約1300万文字のデータセットから開発 その舞台裏に迫る
                                                                              • 機械学習でハタラクをバクラクにするために LayerX に入社しました #LayerX|yu-ya4

                                                                                こんにちは、2022年9月1日に LayerX にフルタイムの機械学習エンジニアとして入社した松村 優也(@yu__ya4)と申します。バクラク事業部の AI-OCRチームに所属しています。チーム名の通り、請求書や領収書といった帳票の画像データを読み取り、人間が手入力せずとも必要な項目を自動で抽出してデータ化する OCR 機能の開発をメインのミッションに持つチームです。 この note では、私がなぜ LayerX に機械学習エンジニアとして入社したのかを、転職のご報告に代えてお伝えします。めちゃくちゃ仲間を探していますので、少しでも気になった方は Meety や Twitter のDM からご連絡ください! 略歴 - LayerXに入社するまでまず簡単に、LayerX に入社するまでの私について紹介します。より詳しい経歴やこれまでのアウトプットは以下の Wantedly のプロフィールを

                                                                                  機械学習でハタラクをバクラクにするために LayerX に入社しました #LayerX|yu-ya4
                                                                                • OmniAI

                                                                                  Backed by   Combinator Automate complex document workflows.Omni turns documents, slide decks, websites and more into the data you need. You'll never need to copy + paste data into spreadsheets again.

                                                                                    OmniAI

                                                                                  新着記事