タグ

OCRに関するsakushahushouのブックマーク (5)

  • RAGの性能を改善するための8つの戦略 | Fintan

    近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル(Large Language Model:LLM)の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。 大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ

    RAGの性能を改善するための8つの戦略 | Fintan
  • JEPA|日本電子出版協会 OCRとは?

    OCRとは光学文字認識(Optical character recognition)の略語。印刷あるいは手書きの物理的な文字をイメージスキャナーなどで画像データとして取り込み、傾き・歪み・かすれなどの補正やレイアウト等の認識と併せ、画像データ内の文字の形状を元に文字を特定し、デジタルデータとして扱うことができるテキストデータに変換するソフトウェアである。取り込みのためのデバイスを含めて指す場合もある(光学式文字読取装置 Optical character reader)。なお、狭義では、物理的な文字を「光学」的な仕組みを通じてテキストデータとして認識するものといえるが、画像データ自体からのアルゴリズムによるデジタル文字認識も含みOCRと言われることが多い。 もっと詳しく! 出版関連での利用 Googleブックスや、Amazon.co.jpの「試し読み」などでは、スキャンされた図書からOCR

    JEPA|日本電子出版協会 OCRとは?
  • AIベンチャーが実現した“99.2%”手書き文字認識ソフトの重要性──日本企業がAIを導入できない理由とは

    AIベンチャーが実現した“99.2%”手書き文字認識ソフトの重要性──日企業がAIを導入できない理由とは(1/2 ページ) 「Tegaki」という日語の手書き文字認識(OCR)サービスがある。そのソフトはディープラーニングなど機械学習のアルゴリズムを用い、認識精度は99.22%という精度で、平仮名、片仮名、漢字、数字、アルファベット、記号を認識できる。申し込み用紙やアンケート用紙など、複雑な形式の紙からでも正確に手書き文字を読み取れるという。8月23日に企業向け提供を始め、有料ながら個人も使えるように調整中だ。 例として、公式サイトには江戸川乱歩『青銅の魔人』を複数人で手書きしたものをTegakiで認識したサンプルが公開されている。 「通り」が「通いり」に、「レール」の音引きが全角ハイフンになっているほかは手書き文字を正しく認識しているようだ。他社のOCRサービスでは約7割の認識精度に

    AIベンチャーが実現した“99.2%”手書き文字認識ソフトの重要性──日本企業がAIを導入できない理由とは
  • 認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた | Ledge.ai

    記事ネタを集めていたところ、代官山で日語の手書き認識ソフトウェアの開発に成功した外国人グループがいる。それもたった2か月で。という記事にあたりました。日語の手書き文字のOCRを外国人が開発しているという驚き。 気になりすぎたので、早速取材にいってみたところ、Reactive Inc.のデータサイエンティストのDavid MalkinさんとコアエンジニアのPhilip Irriさんにお話しを聞くことができたので、まとめてみました! 非エンジニアにもわかるようにと噛み砕いて、システムの内容や今後の拡張計画ディープラーニングの可能性についてまでいろいろ話してくださいました。

    認識率98.66%?!たった2ヶ月で手書き日本語のOCRを開発したノンジャパニーズに話を聞いてきた | Ledge.ai
  • javascript製のOCRライブラリ「tesseract.js」を試してみた

    Tesseract.jsはOCRとしては驚異的で、日語を含む62言語に対応しています。っということで、どれぐらいの精度があるのか試してみました! Tesseract.jsはnpmパッケージからインストールする方法と、ブラウザ上からはCDNも利用出来ます。 (ブラウザから使う場合はCDNを使うほうが手軽そうです) # npm npm install tesseract.js --save <!-- ブラウザ上でCDNで読み込む場合 --> <script src='https://cdn.rawgit.com/naptha/tesseract.js/1.0.7/dist/tesseract.js'></script> 下のスニペットがTesseract.jsの基的な使い方です。recognize関数の第一引数に読み込む画像、第二引数で言語を指定します。 ( * その他にもオプションが用意

    javascript製のOCRライブラリ「tesseract.js」を試してみた
  • 1