並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 414件

新着順 人気順

OCRの検索結果81 - 120 件 / 414件

  • Google BardでOCR文字認識してみた【画像認識】 - Qiita

    まず、英語版のバードに行きます。 画像をアップロードしてほしい情報を入力すると教えていただけます。 生年月日について聞いてみました "平成元年3月31日生"と正しく認識できてます フォーマットも指定可能です 有効期限も聞きました "2025年3月31日まで有効"と正しく認識できてます 4桁の番号を教えて 何キロカロリーありますか? まとめ 言われたことしかできない人は、仕事がAIに取られるかもしれません。 信じるか信じないかはあなた次第です 引用 Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationYou can use dark themeWhat you ca

      Google BardでOCR文字認識してみた【画像認識】 - Qiita
    • GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics

      こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。 検証では、日本語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。 また、手書き・活字での違いも見ていきましょう。 一番簡単に試せるChatGPT(Web版)でOCRをさせようとするとエラーになることが多かったので、 ここではAPIを使っていくこととします。 APIを呼び出すプログラム 以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。 画像は個人のgithu

        GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
      • 国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ | Ledge.ai

        LINE株式会社は、国立国会図書館(東京都千代田区)のOCRテキストデータ化プロジェクトに、同社の「CLOVA OCR」が採用されたと発表した。昭和前期以前の資料を中心にした247万点、2億2300万枚を超えるデジタル化資料が2022年3月までにテキストデータ化される。 国立国会図書館では「ビジョン2021-2025 国立国会図書館のデジタルシフト」の一環として、デジタルで全ての国内出版物が読める未来をめざし、デジタル化資料をテキストデータ化する取り組みを進めている。 今回テキストデータ化するデジタル化資料の多くは昭和前期以前の資料で、紙面のレイアウトが複雑だという。そのため、処理に多くの時間かかるうえに、学習機能のない既存のOCRでは読み取り精度が低かった。 CLOVA OCRは文書解析と認識に関する国際会議ICDARで評価された実績を持ち、ルビ・割注・割書きといった特殊な文書や、文字領

          国立国会図書館、来春までに247万点・2億2300万枚超の資料を全文テキストデータ化へ | Ledge.ai
        • 無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する

          CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

            無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する
          • GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga

            Optical character recognition for Japanese text, with the main focus being Japanese manga. It uses a custom end-to-end model built with Transformers' Vision Encoder Decoder framework. Manga OCR can be used as a general purpose printed Japanese OCR, but its main goal was to provide a high quality text recognition, robust against various scenarios specific to manga: both vertical and horizontal text

              GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga
            • 表の画像からテーブルを自動で作成してくれる「Extract Table」

              インターネット上にはさまざまな情報があふれており、有益な情報が表やグラフとして表示されているケースが多々ありますが、画像のままだと検索性に乏しいのが問題点。そんな画像の表をテキストデータ形式に変換したい時に便利なのが、表の画像からテーブルを自動生成できる「Extract Table」です。Extract Tableは画像上に写り込んだテキストや手書き文字を認識し、これをテキストデータとして自動抽出することができるAmazonの機械学習サービス「Amazon Textract」を駆使しています。 Extract Table https://extract-table.com/ 使い方は簡単で、まずはトップページ上部にある「参照」をクリック。 PC内に保存されたテーブル化したい表の画像を選択して「開く」をクリック。 Extract Tableに戻って「Submit」をクリック。 すると、表画像

                表の画像からテーブルを自動で作成してくれる「Extract Table」
              • 自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog

                はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方 事前準備 AWS が提供しているコンテナイメージを拡張する方法 独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法 スクラッチでコンテナイメージを作成する方法 まとめ 学習ジョブの実行 学習結果の確認 終わりに はじめに こんにちは、研究開発部の石井です。 本エントリーでは、弊社の OCR エンジン「NineOCR」の開発フローに SageMaker Training を導入した話を紹介します。 NineOCR とは NineOCR は Sansan が独自に開発した名刺特化の OCR エンジンです。 名刺をデータ化するフローの中で実際に活用されており、タスクの高速化・高精

                  自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話 - Sansan Tech Blog
                • 精度の高い日本語OCRを実現する技術 LINE BRAIN OCRのパイプラインを解説

                  日本語におけるOCR Hwalsuk Lee氏:ここまでテキスト検出のお話をしてまいりました。これからは日本語におけるテキスト認識についてお話ししようと思います。 先ほど言いましたように、日本語というのはテキスト認識において、英語に比べると何百倍ものたくさんの文字を扱う必要があります。 そのため、たくさんのテキスト認識の論文を検証いたしました。 Scene Text Recognition(STR)とは何でしょうか? STRというのは、文字列を画像パッチ入力から認識するタスクです。 この場合は「UNITED」という文字列を認識するということになります。 STRについてはこれまでいろいろな研究がされてきました。ですが我々がその評価内容を見たとき、たくさんの問題を発見しました。STR手法の比較においてどんな問題があるのでしょうか。 こちらは先行研究の手法のリストです。このリストをご覧いただくと

                    精度の高い日本語OCRを実現する技術 LINE BRAIN OCRのパイプラインを解説
                  • Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ

                    初めまして。機械学習エンジニアの島越@nt_4o54です。現在はMLチームで日々、バクラクシリーズで用いられているAI-OCR機能の改善や新規機能の開発などを行なっています。 7月はLayerXエンジニアブログを活発にしよう月間ということで、自分からは表題にもある通り、「Document AI」と呼ばれる技術についての紹介と、またLayerXにおいてどういう応用先があるのかというお話をさせていただこうと思います。 ※ 同名のDocument AIというGCPのサービスがありますが、今回は一般的なDocument AIの話になります。 Document AIとは Document AIに用いられる技術 Optical Character Recognition (OCR) Document Classification Layout Analysis Document Parsing Tab

                      Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ
                    • ラズパイとAI-OCRで生産日報を電子化する(前編)

                      小型ボードコンピュータ「Raspberry Pi(ラズパイ)」を使って、低コストかつ現場レベルでIoT(モノのインターネット)を活用する手法について解説する本連載。第4回と第5回では、AI技術の活用事例として注目を集めるAI-OCRとラズパイの組み合わせによる生産日報の電子化について前後編に分けて解説します。 今回からは、小型ボードコンピュータの「Raspberry Pi(ラズベリーパイ、略してラズパイ)」と、機械学習などのAI(人工知能)技術を活用したOCR(光学的文字認識)である「AI-OCR」を組み合わせた事例となる「生産日報の電子化」をどのように実現するかについて、前後編に分けて解説します。 ⇒連載「ラズパイで製造業のお手軽IoT活用」バックナンバー 生産日報電子化の課題 生産日報は、全ての生産現場で、必ずといっていいほど記録されています。生産日報を記録することにより、生産現場の状

                        ラズパイとAI-OCRで生産日報を電子化する(前編)
                      • OCRの精度を担保するテスト基盤アーキテクチャ - LayerX エンジニアブログ

                        こんにちは!LayerXバクラク事業部 OCRチーム ソフトウェアエンジニアの秋野(@akino_1027)です。 この記事では、バクラクシリーズの機能であるOCRのテスト基盤について紹介していきます。 ※本記事は LayerX Tech Advent Calendar 2022 11日目の記事となります。 背景 バクラクでは手入力ゼロを目指すべく、 OCR機能(文書の読み取り機能)を提供しています。 以下、OCRで書類が読み取られる様子 www.youtube.com OCR機能は「手入力不要」という価値に直結するため、OCR精度を常に高い水準で保っておく必要があります。 安心してコード変更を取り込めるように 今まで読み取れてたのに読み取れなくなった書類はないか 新たに読み取れるようになった書類はどれか を確認する仕組みが必要でした。 OCRテスト基盤の開発 そこでOCR精度を担保するた

                          OCRの精度を担保するテスト基盤アーキテクチャ - LayerX エンジニアブログ
                        • 【検索雑談】Googleの画像文字認識の精度がいつの間にか高くなっていた話

                            【検索雑談】Googleの画像文字認識の精度がいつの間にか高くなっていた話
                          • くずし字OCR等の動向を踏まえて、研究者の方々に期待すること - digitalnagasakiのブログ

                            いま、日本近世研究、とくに文学研究のあたりがすごいことになっています。膨大な国費が投入されて数十万点の日本の歴史的典籍がデジタル化・公開されてしまっていますが、大半は江戸時代の版本のようですね。そして、さらに、そこに書かれたくずし字にOCRをかけたテキストが無料で公開されようとしており、一方で、グーグルが雇用している研究者が、フリーソフトでくずし字OCRソフトやアプリを開発・公開してくれています。さらに、お金があれば、凸版印刷もくずし字のテキスト化をしてくれるそうです。こういった流れを受けて、12月にはイギリスでもThe Digital Turn in Early Modern Japanese Studiesというシンポジウムが開催されるそうです。 実際のところ、そんなこと頼んでないのに…と思っておられる研究者の方々も多いのではないかと思います。が、他の周辺分野からみると、うらやましいと

                              くずし字OCR等の動向を踏まえて、研究者の方々に期待すること - digitalnagasakiのブログ
                            • goによるOCRエンジン実行のまとめ - freee Developers Hub

                              会計フリー周りのエンジニアをしているよーだ(@rtryoda)です。この記事は freee Developers Advent Calendar 2019 の11日目です。最近各ベンダーやOSSのOCRエンジンをgoで触る機会があったので、実行方法と結果をまとめました。 OCRとは OCRとは光学的文字認識(Optical Character Recognition)のことで、画像などに記されている文字を読み取りテキストデータに変換することです。例えば以下のような画像に対してOCRを実行すると"あいうえお 12345"と認識されることを期待します。 ※各OCRの実行にはこちらの画像を使用します。 今回試すOCRエンジン一覧 OCRエンジン 日本語対応 クライアントライブラリ(go) Google Cloud Vision API ○ googleapis/google-cloud-go A

                                goによるOCRエンジン実行のまとめ - freee Developers Hub
                              • AI-OCRを支える非同期処理アーキテクチャ - LayerX エンジニアブログ

                                こんにちは!LayerXエンジニアの高際 @shun_tak です! この記事では、LayerX インボイスの請求書AI-OCRを支える非同期処理の仕組みについて解説したいと思います。 いきなりサマリーですが、今回お伝えしたいのは以下の2点です。 請求書は突然大量にアップロードされるので(大歓迎です!)、Amazon SQSとGoの machinery を活用して非同期処理しているよ! AI-OCRの処理は重たいけど、AWS Lambdaを活用してシステム全体の負荷を分散し、スケーラビリティと可用性を確保し、コストも抑えることができたよ! では早速ですが、前回のブログ LayerX インボイスにおける請求書AI-OCRの概要 の復習です。LayerX インボイスの請求書AI-OCRは、以下の図のように複数の処理によって構成されています。 図にするとあっさりしてますが、前処理も後処理も複数の

                                  AI-OCRを支える非同期処理アーキテクチャ - LayerX エンジニアブログ
                                • アノテーションなのに手入力ゼロ!?バクラクのOCRを支えるアノテーション基盤(アプリケーション編) - LayerX エンジニアブログ

                                  こんにちは、全ての経済活動をデジタル化したいTomoakiです。 今回はバクラクで内製しているアノテーション基盤を紹介します。 バクラクのOCR バクラクでは請求書や領収書をはじめ、国税関係書類に対してOCRを実行し入力のサジェストを行うことで、ユーザーが書類の内容を手入力する手間を省いています。例えばこちらの領収書、日付、金額、支払先を自動で読み取ってユーザーにサジェストをしています。 チームでランチに行った時のレシート なぜアノテーション基盤が必要なのか バクラクのOCRでは自前で機械学習モデルを作成しているため、学習用・検証用のデータセットが必要になります。 OCRの処理の概要 OCRに必要なこれらのデータセットはどのようにして作るのが良いでしょうか。 お客様が最終的に入力した値を正解ラベルとするのはどうでしょうか? 例えば冒頭のレシートの場合、私は7010円として経費精算を申請した

                                    アノテーションなのに手入力ゼロ!?バクラクのOCRを支えるアノテーション基盤(アプリケーション編) - LayerX エンジニアブログ
                                  • 手書きOCR 無料 - 面倒なデータ入力をカンタン電子データ化

                                    無料ツールでございますが、高いセキュリティレベルにてデータは管理されています。 また、ご入力いただいたデータ、文字認識した情報を勝手に他の目的に二次利用することはございません。

                                      手書きOCR 無料 - 面倒なデータ入力をカンタン電子データ化
                                    • 機械学習で実現するヤフーのOCR(文字認識技術)〜 PayPayフリマ 本棚出品での活用事例

                                      ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。ヤフーで画像処理エンジニアをしている吉橋です。この記事ではヤフーのさまざまなサービスで使われている独自の画像文字認識(OCR)技術と、特に最近のPayPayフリマ「本棚一括持ち物追加機能」での活用事例をご紹介します。 画像文字認識とは 皆さん、ウェブサイトを見ていて「このキーワード気になるな……よしコピーしてヤフーで検索してみよう! と思ったらこれ画像じゃん、コピーできないよ……」なんて困ったことはありませんか? ウェブで私たちが目にする情報は“テキスト”と“画像”の2種類が主なものです。 テキスト: 文字列としての情報を保持したデータであり、コピーやウェブ検索に利用したり解析したり、容易に活用できます。 画像データ:

                                        機械学習で実現するヤフーのOCR(文字認識技術)〜 PayPayフリマ 本棚出品での活用事例
                                      • TrOCRでファインチューニング - Qiita

                                        from transformers import TrOCRProcessor processor = TrOCRProcessor.from_pretrained("microsoft/trocr-small-printed") TrOCRProcessorは、特徴抽出器とトークナイザをラップしただけです。任意の特徴抽出器とトークナイザを使えます。google/vit-base-patch16-224-in21k や cl-tohoku/bert-base-japaneseなど 事前学習モデルを選択 事前学習モデルが9種類ありますが、すべて10epochsほど試し一番いいので学習させるのがよいかもです。 from transformers import VisionEncoderDecoderModel import torch device = torch.device("cuda"

                                          TrOCRでファインチューニング - Qiita
                                        • 「PowerToys」のOCR機能が表(テーブル)の読み取りに対応 ~v0.74がリリース/Microsoftがパワーユーザー向けに提供している無償ツール集

                                            「PowerToys」のOCR機能が表(テーブル)の読み取りに対応 ~v0.74がリリース/Microsoftがパワーユーザー向けに提供している無償ツール集
                                          • タダで使える漫画翻訳システムをつくったよ - Qiita

                                            ー タダほど高いものはない                       まっくす おはようございま数理工学!どうも、まっくす(@minux302)というものです。 こちらは創作+機械学習 Advent Calendar 2021 の24日目の記事です。 漫画翻訳システム「MANGA GLOBAL」を作りました。ハッカソンクオリティなのであしからず。 でもいくつかの問題が改善できれば普通に使えそう、という印象です。 リポジトリはこちらです。 1. あらすじ 自分は趣味で漫画を描きます。下記は Deep Learning フレームワークを擬人化した漫画です。 読んでいただけたらもうこの記事で伝え残すことはありません。対戦ありがとうございました。 上記の漫画は予想以上の反応をいただき大変嬉しかったです。 多くの人に自分の作品を見てもらえることがこんなに嬉しいことだとは思いませんでした。 この漫画

                                              タダで使える漫画翻訳システムをつくったよ - Qiita
                                            • Document AI を使った請求書読み取り機能の検証 | yu-ya4 - LayerX エンジニアブログ

                                              LayerX で機械学習エンジニアとして働いている松村 @yu-ya4 です。現在はAI-OCRチームにて、バクラクシリーズのOCR機能の開発を主に行なっています。この記事は LayerX Tech Advent Calendar 2022 の18日目の記事です。 OCR機能とは、アップロードされた請求書や領収書などの帳票の画像データを読み取り、人間が手入力せずとも必要な項目を自動で抽出してデータ化する機能のことです。以下は請求書OCR機能のデモ動画です。 www.youtube.com このブログは、このようなOCR機能を誰でも簡単に実現してしまおうとしている Document AI というサービスを触って検証した際のメモ書きとなります。API を扱う Client ライブラリもいくつかの言語で公開されており、今回は Python を使いました。もしかしたら私の仕事がなくなるかもしれませ

                                                Document AI を使った請求書読み取り機能の検証 | yu-ya4 - LayerX エンジニアブログ
                                              • 最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you

                                                こんにちは。@shunk031 です。 普段は最先端の技術が大好きなパソコンのオタクですが、京都へ旅行して古き良き日本の文化に感化されました。 この記事は 法政大応情 Advent Calendar 2020 21 日目の記事です。 From http://codh.rois.ac.jp/ 今回は日本古典籍の分類タスクについて取り組んでみようと考え、近年の日本古典籍における「くずし字認識」に着目して調査をしました *1。 日本古典籍といった古文書に対して、OCR 等の文字認識技術によって文字情報をデジタル化し、それらの情報をもとに解析を行う流れは現代では自然だと考えています。 しかしながら、一般的に OCR は難しく、また古文書を機械に解析させることはさらなる困難があるのは容易に想像できます。 くずし字認識に対して、近年の取り組みでは ROIS-DS 人文学オープンデータ協働センターが K

                                                  最新の深層学習技術による古典くずし字認識の現状と今後の展望 - May the Neural Networks be with you
                                                • GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB

                                                  Googleは、非構造化文書(例えばレシートなど)から高精度にテキストを抽出するOCR(Optical Character Recognition)技術『LMDX(Language Model-based Document Information Extraction and Localization)』を発表しました。この技術は、特にGoogleの大規模な言語モデル「Bard」と、Google DriveやGmailなどのサービスとの連携をさらに強化する可能性もあります。 参照論文情報 タイトル:LMDX: Language Model-based Document Information Extraction and Localization 著者:Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ram

                                                    GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB
                                                  • LLM時代におけるAI-OCR機能の開発戦略 / layerx-bakuraku-ocr-llm-lt-2024

                                                    2024年1月24日 【オフライン限定開催】注目AIテックカンパニー4社が集うLT新年会〜LLM活用のリアルを語る〜(https://lapras.connpass.com/event/305577/) における発表資料です。

                                                      LLM時代におけるAI-OCR機能の開発戦略 / layerx-bakuraku-ocr-llm-lt-2024
                                                    • Google Colabを用いたNDLOCRアプリの実行(Google Driveを用いた画像の入力と結果の保存) - デジタルアーカイブシステムの技術ブログ

                                                      概要 ノートブック 実行方法 入力フォルダの準備 ノートブックの実行:1.初期セットアップ ノートブックの実行:2.設定 ノートブックの実行:3.実行 まとめ 追記 2022.05.02 2022.04.30 概要 前回、Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行方法を共有しました。 nakamura196.hatenablog.com ただし、上記の方法は手続きが一部面倒で、かつ費用がかかる方法です。本番環境で使用するには適した方法ですが、小規模に、または試験的に使用するにはハードルが高い方法でした。 この課題に対して、 @blue0620 さんがGoogle Colabを用いたNDLOCRアプリの実行方法を作成されました。 https://twitter.com/blue0620/status/151929433215901

                                                        Google Colabを用いたNDLOCRアプリの実行(Google Driveを用いた画像の入力と結果の保存) - デジタルアーカイブシステムの技術ブログ
                                                      • 「OneNote」に統合された新しい「付箋」アプリ、すべてのユーザーが利用可能に/スクリーンショット、OCR(画像のテキスト認識)、ソースURLの自動追加などに対応

                                                          「OneNote」に統合された新しい「付箋」アプリ、すべてのユーザーが利用可能に/スクリーンショット、OCR(画像のテキスト認識)、ソースURLの自動追加などに対応
                                                        • [スタパ齋藤の「スタパトロニクスMobile」] 最新macOS「Ventura」にアップグレードし痛い目に遭うも神アプリ使用開始でハッピーになった話

                                                            [スタパ齋藤の「スタパトロニクスMobile」] 最新macOS「Ventura」にアップグレードし痛い目に遭うも神アプリ使用開始でハッピーになった話
                                                          • What is Image-to-Text? - Hugging Face

                                                            Image to text models output a text from a given image. Image captioning or optical character recognition can be considered as the most common applications of image to text. Use Cases Image Captioning Image Captioning is the process of generating textual description of an image. This can help the visually impaired people to understand what's happening in their surroundings. Optical Character Recogn

                                                              What is Image-to-Text? - Hugging Face
                                                            • キャプチャー画像をOCRで素早くテキスト化 いざというとき便利なSnipping Toolの活用法【Windows 11】

                                                              Snipping Toolの便利な機能を紹介 Windows 11の標準スクリーンキャプチャーツール「Snipping Tool」には、スクリーンキャプチャーや画面の録画をするだけでなく、ちょっとした編集も可能になっている。本Tech TIPSでは、いつの間にか追加された「OCR機能」と「墨消し機能」の2つの使い方を紹介しよう。 Windows 11でスクリーンキャプチャーを撮る場合、[Windows]+[Shift]+[S]キーを使っている人も多いのではないだろうか。[Windows]+[Shift]+[S]キーを押すと、Windows 11の標準スクリーンキャプチャーツール「Snipping Tool」が呼び出される。このツールは、着々と進化しており、単純にスクリーンキャプチャーや画面の録画をするだけでなく、ちょっとした編集も可能になっている。 本Tech TIPSでは、「Snippi

                                                                キャプチャー画像をOCRで素早くテキスト化 いざというとき便利なSnipping Toolの活用法【Windows 11】
                                                              • バクラクのAI-OCRが扱う問題の複雑さ - LayerX エンジニアブログ

                                                                こんにちは。 LayerXのバクラク事業部 機械学習チームのテックリードを務めております機械学習エンジニアの島越(@nt_4o54)です。 最近、カジュアル面談や学会などで「AI-OCRってもうほぼ完成で、運用フェーズですよね」「やることあるんですか?」など頻繁に聞かれることがあります。 「いやいや課題が山のようにあるんです」という話をいつもしているので、今回は我々が作っているAI-OCRがどれだけ複雑で難しい問題を扱っているか、という部分についてお話しさせていただければなと思います。 少し、経理ドメインの話が多く恐縮ですが、お付き合いいただけると嬉しいです。 AI-OCRについて AI-OCRが扱う問題の複雑さ ドメインへの深い理解が必要 同じ書類であってもコンテキストによって抽出したい値が異なる まとめ 最後に AI-OCRについて まず、そもそも弊社のバクラクで提供しているAI-OC

                                                                  バクラクのAI-OCRが扱う問題の複雑さ - LayerX エンジニアブログ
                                                                • アノテーションにおけるUIの工夫 - CADDi Tech Blog

                                                                  こんにちは、MLOpsチームです。先日OCRモデルを学習するためのアノテーションにおいて、作業効率を検証するためのPoCとしてアノテーションUIを開発しました。本記事ではこのアノテーションUIにおける工夫について、試用によって得られた知見をまじえつつ紹介します。 はじめに アノテーションUIを開発することとなった背景について説明します。 アノテーションUIとは アノテーションUIは機械学習の学習データを作成するためのUIです。アノテーションUIはアノテーション作業の効率に強く影響し、アノテーション作業によって得られる学習データの量は機械学習の精度に大きく寄与します。したがって、アノテーションUIは機械学習において最も重要なコンポーネントのひとつといえます。 UIを開発した背景 キャディではOSSツールなどのUIを用いてアノテーションが行われていましたが、ここに独自の工夫を導入すれば入力効率

                                                                    アノテーションにおけるUIの工夫 - CADDi Tech Blog
                                                                  • OCRは「マリオプラザーズ」の夢を見る | Colorful Pieces of Game

                                                                    『ちょっとは正しいゲームの歴史』…というか、ともかく「ゲームの歴史」を批判するシリーズで困らされたのがOCRだった。 Kindle本からテキストで全部コピー出来ればいいのだけど、Kindleは出版社それぞれがコピーできる量を規制していて(当たり前だ)、それを超える量はコピーのしようがない。 そしていうまでもなく、ゲームの歴史批判シリーズは、死ぬほど引用するので、当然のことながら出版社の制限を超えることになる。 なお、この膨大な引用を「これはいいのか?」と言っていた人がいたらしいが、全く問題ない。 引用は認められた権利で、引用した内容ではなく、それを引用する意味があった本文があれば、なんの問題もない。 そうじゃないと「引用して批判する」ことが出来ないことになってしまうでしょ? といって、画像引用にすると縦書きになってしまい、ウェブでは読みづらい事、この上ないので以下の方法でテキスト化した。

                                                                    • LINE、国⽴国会図書館のデジタル化資料247万点をテキストデータ化

                                                                        LINE、国⽴国会図書館のデジタル化資料247万点をテキストデータ化
                                                                      • Googleレンズ!このアプリはすげーぞ? - ダメ親父伝

                                                                        Googleレンズ すげーぞ? ダメ親父伝 知らなかったこんな便利なアプリがあったとは その名もGoogleレンズ 僕はつい最近知りました(´;ω;`) せどりとかで使うバーコード読みとりアプリは知っていたけど、これは誰もが欲しかったアプリではなかろうか? Googleレンズとは 使い方 認識能力検証 サンプル1 照明リモコン サンプル2 リセットブラシ サンプル3 これ何かわからんけど? サンプル4 キティちゃんのキーホルダー サンプル5 100均鼻毛カッターどうや? サンプル6 マンホールカード(僕はマンホーラーです) サンプル7 これはむずいぞ!FRISKの1粒 サンプル8 愛犬ふくちゃん まとめ Googleレンズとは Google Lens(レンズ)は、カメラで撮影した被写体の情報を表示したり、読めない文字なども認識して、情報を教えてくれるアプリです。 アンドロイド、iPhone

                                                                          Googleレンズ!このアプリはすげーぞ? - ダメ親父伝
                                                                        • 「Firefox 106」正式版リリース、画像内のテキスト抽出機能が追加

                                                                          ウェブブラウザ「Firefox 106」の正式版が公開されました。記事作成時点ではmacOS限定ながら画像内のテキストを抽出する機能が追加されるなど、ユーザーが直接触れる機会が多くなりそうな数々の機能が導入されています。 Firefox 106.0, See All New Features, Updates and Fixes https://www.mozilla.org/en-US/firefox/106.0/releasenotes/ ◆画像内のテキスト抽出 macOS 10.15(Catalina)以降で、選択した画像からテキストを抽出できるようになります。テキストの抽出を行うには、テキストを含む画像を右クリックし、表示されるポップアップメニューから「Copy Text from Image」を選択します。 抽出されたテキストは共有・保存・検索するためにクリップボードにコピーされ

                                                                            「Firefox 106」正式版リリース、画像内のテキスト抽出機能が追加
                                                                          • ワクチン接種券の読み取りトラブル多発 政府、撮影用スタンドを自治体に配布へ

                                                                            「接種券のバーコードが読み取れない」「(カメラの)ピントが合わない」――新型コロナワクチンの接種を担う自治体からこうした声が出ている。タブレット端末を使った接種券の読み取り作業でトラブルが多発しているためだ。読み取り方法に問題があるとして、内閣官房IT総合戦略室(IT室)は5月11日、タブレット端末を固定し、スムーズに接種券を読み取るための専用スタンドを全国の自治体に配布すると発表した。 各自治体では現在、高齢者や医療従事者を対象に接種券を配布し、接種を順次始めている。接種会場では接種券に記載された18桁の数字「OCRライン」をタブレット端末のカメラと専用アプリで読み取り、接種した回数や場所を識別するスキームだが、正しく読み取れないケースが相次いでいた。

                                                                              ワクチン接種券の読み取りトラブル多発 政府、撮影用スタンドを自治体に配布へ
                                                                            • 【マンガ】仕事が速い人と遅い人「超ムダなエクセル入力作業」への対応の差

                                                                              エクセルがめんどくさいのでラクするコツをまとめてみた 「エクセルを使えば、仕事はこんなにラクになる」。今までめんどくさいけど我慢してやっていた事務作業、ミスしがちなポイントを解決するちょっとしたコツを、マンガとイラストでわかりやすく紹介します。 バックナンバー一覧 「自分は仕事が遅い……」「よくミスをする……」そんな悩みを抱える人ほど、実は“自己流”の仕事のやり方で損をしていることがあります。なかでも、知識がシェアされづらくブラックボックス化しがちなのが「エクセル」の使い方。この連載では、事務の仕事をよりラクに、よりミスなく進めるためのエクセルのちょっとしたコツを、事務職一筋の著者が、マンガでわかりやすくお伝えします。 今回は、事務職あるあるの「アナログ作業」についての解決策。アプリを知っているか知らないかで、作業時間が大きく変わります。(マンガ:あきのあこ) 【エクセルでラクするコツ:明

                                                                                【マンガ】仕事が速い人と遅い人「超ムダなエクセル入力作業」への対応の差
                                                                              • 「ScanSnap Home」がライセンスフリー化、利用デバイスやユーザー数の上限を廃止

                                                                                  「ScanSnap Home」がライセンスフリー化、利用デバイスやユーザー数の上限を廃止 
                                                                                • 機械学習チーム立ち上げ前夜とその後の話 #バクラク #LayerX|Shun Takagiwa

                                                                                  こんにちは!バクラクエンジニアの高際です! LayerXでは現在AI-OCRチームのマネージャーを担当しています。 このnoteでは、機械学習チーム立ち上げ前夜の意思決定プロセスと、その後の進捗について報告したいと思います。 いきなり昔話をしますが、LayerXは実は去年(2021年)までは機械学習に積極的に取り組んでいませんでした。 クラウドコンピューティングと同様当然に利用する技術ではあるものの、自社のコア技術として積極投資するというよりは、あくまでツールのひとつとして利用するというスタンスでした。 それが一転して2022年にはCEO福島から「機械学習を本気でやります。チームを10倍に拡大させる」という宣言を出しました。 ML本気でやります。MLチームを10倍に拡大させることを決めました。MLエンジニアの皆様ぜひLayerXをよろしくおねがいします。(私も5年のブランクを超え勉強し始め

                                                                                    機械学習チーム立ち上げ前夜とその後の話 #バクラク #LayerX|Shun Takagiwa