YomiToku-Client¶ 概要¶ YomiToku-Clientは、AWS SageMaker上で提供されるYomiToku-Pro APIの出力を扱うためのPythonクライアントライブラリです。OCR解析結果を構造化データへ変換し、CSV・JSON・Markdown・PDFなどの形式での保存や可視化を容易にします。YomiToku-Proの高精度OCRと、業務アプリケーションを結びつける「橋渡し」役を担います。 flowchart LR subgraph Local["ユーザー環境"] A["解析対象データ"] B["YomiToku-Client<br/>(Pythonライブラリ / CLI)"] end subgraph AWS["AWS アカウント内"] C["Amazon SageMaker Endpoint<br/>YomiToku-Pro Document Anal
はじめに 近年、生成AIの活用が広がるなかで、社内文書やFAQなどの独自の情報を活用したRAG(Retrieval-Augmented Generation) の需要が高まっています。RAGは、大規模言語モデル(LLM) が持つ汎用的な知識に加え、最新情報や社内データといったLLMが学習していない外部知識を検索対象として組み合わせることで、より正確かつ最新の情報に基づいた回答生成を可能にします。 私は以前から生成AIやLLM、RAGといった技術に強い関心を持っていました。そこで今回は、その中でも特に注目を集めている「RAG」に焦点を当てました。本検証では、RAGの発展的な手法であるHyDEやハイブリッド検索を導入し、通常のRAG手法との比較を行っています。また、以前の検証でOCR技術に興味を持ったことから、ドキュメントの読み込みには日本語文書画像解析に特化したPythonパッケージである
はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日本語ドキュメント特有のレイアウトに対処する必要があったりと日本語特有の難しさがあります。 ですが、今後、海外の開発者がこれらの課題に対処するため、日本のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。 もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ
オーリッドという日本のIT企業が注目を集めている。売上高は40億円規模。法人向けWebサービスを提供していたが、昨年から個人向けサービス「KYBER」を開始した。16日に発売した「KYBER Smartnote」(写真、3冊1500円)は、そのサービスの目玉だ。 見た目はごく普通のノート。メモをしたり、議事録をとったり、普通のノートとして使える。ノートをiPhone付属のカメラで撮影し、KYBERのWebサイトにアップロードすると、画像のデータがクラウドサーバー上で管理される(Androidには10月対応予定)。そこまではこれまでのクラウドサービスにもあったもの。「Evernote」を思い浮かべる人もいるだろう。 だが、話はここからだ。 しばらくすると、手書きのメモが文字データになって送られてくる。いわゆるOCR(画像からの文字起こし)だが、その精度は異様に高い。ほぼ完璧だ。納品までも最速
Googleは4月27日、Android用「Google Docs」公式アプリを公開しました。 このアプリでは、Google Docsの文書やスプレッドシート、プレゼンテーションのほか、アップロードした写真やPDFファイルなどの閲覧、ドキュメントの新規作成(文書、スプレッドシート、画像からOCR機能により文書化)、共有設定を行うことができます。 アプリトップページでは、Google Docsに保存したファイルをすべて(All)、ドキュメントのみ(Documents)、画像(Images)、ラベル別(Collections)、スター別(Starred)、タイプ別(文書、スプレッドシート、プレゼンテーション)に一覧表示することができます。 ファイルの一覧表示では、ファイルを名前別、更新時間別にソートできるほか、各ファイル名を長タップするかタイトル右の矢印アイコンをタップすると、ファイルに対して
Instagram fixed an issue that caused posting multiple Stories to tank your reachInstagram fixed a bug that made posting multiple Stories in a day hurt the reach of your Stories overall. Balatro's big 2025 update won't be coming out this year after allDeveloper LocalThunk just revealed that the Balatro 1.1 update will not be coming in 2025. It will, however, be free on all platforms.
「Evernote Japan Launch」ということで、日本法人設立の発表記者会見が東京駅側で行われていまして、そのレポートをお届けします。 CEOフィルよりプレゼンテーション。 ・エバーノートは記憶のプラットフォームである ・ツイッター、mixiなどは素晴らしいサービスだが全てソーシャルコミュニケーションのためのツールである ・エバーノートは友達のためでも同僚のためでもない自分自身の記憶が外部化するためのツールである ・ツイッターなどのソーシャルサービスに投稿された情報は友達が見ることを前提にしいる ・ところがエバーノートに入力された情報を見るのは自分自身だけである ・エバーノートは人間の外部の記憶を果たすので様々なバージョンがある ・Mac/Winのほかありとあらゆるスマートフォン版が用意されている ・最近になってiPad版が追加され急成長している ・iPadを始めとするタブレット
Microsoft Office をインストールすると、実は OCR ソフトがついてきます。C# からの利用も簡単です。下記のコードを、Visual C# Express 2005 または 2008 で作成し、参照設定に、 Microsoft Office Document Imaging 11.0 Type Library (MDIVWCTL.DLL) を追加してビルドしてください。 [:ボックス1:] ソースコードのダウンロード (Visual C# Express 2008 用) v1.0 (2008/07/21) using System; using System.Text; /// /// OCR with MicrosoftR Office By Martin Welker (CodeProject) /// に基づく Office 2003 に依存したOCR処理。 ///
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く