並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 341件

新着順 人気順

OCRの検索結果1 - 40 件 / 341件

OCRに関するエントリは341件あります。 AIツール画像 などが関連タグです。 人気エントリには 『中日新聞:自動車工場のガロア体 QRコードはどう動くか』などがあります。
  • 中日新聞:自動車工場のガロア体 QRコードはどう動くか

    その誕生を地元新聞も経済新聞も記事にしなかった。2年後、『コードの情報を白黒の点の組み合わせに置き換える』と最下段のベタ記事で初めて紹介された時、その形を思い浮かべることができる読者はいなかった。いま、説明の必要すらない。QRコードはなぜ開発され、どう動くのだろうか。 QRコードは、自動車生産ラインの切実な要請と非自動車部門の技術者の「世界標準の発明をしたい」という野心の微妙な混交の下、1990年代前半の日本電装(現デンソー)で開発された。 トヨタグループの生産現場では、部品名と数量の記された物理的なカンバンが発注書、納品書として行き来することで在庫を管理する。そのデータ入力を自動化するバーコード(NDコード)を開発したのがデンソーだ。 バブル全盛の1990年ごろ、空前の生産台数、多様な車種・オプションに応えるため、部品も納入業者も急激に増え、NDコードが限界を迎えていた。63桁の数字しか

    • さようなら、全てのエヴァーノート - 本しゃぶり

      2011年6月10日、Evernoteを使用開始。 2014年9月19日、有料プランに加入。 2024年3月23日、クソみたいなメールが届く。 プラン、廃止 いつも Evernote をご利用いただき、ありがとうございます。このたびは今後の Evernote 登録プランに関する変更についてご案内させていただきます。 お使いの Evernote アカウントは Plus から Personal に移行されました。Evernote Plus など、一般のお客様に数年間ご利用いただけなかった従来の登録プランが廃止となったためです。この変更により、Personal プランで利用可能な機能すべてをご利用いただけます。 今後はAnnualの登録プランが現在の Evernote Personal プランの料金 129.99 USD/Yearに合うように更新されます。この料金は次の更新日である2024/4/

        さようなら、全てのエヴァーノート - 本しゃぶり
      • 日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita

        はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日本語ドキュメント特有のレイアウトに対処する必要があったりと日本語特有の難しさがあります。 ですが、今後、海外の開発者がこれらの課題に対処するため、日本のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。 もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ

          日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita
        • GPUなしで動作する軽量なAI OCRツール「NDLOCR-Lite」、国会図書館のラボから無償公開/コマンドライン版に加えWindows/Mac/Linux対応のデスクトップ版を用意

            GPUなしで動作する軽量なAI OCRツール「NDLOCR-Lite」、国会図書館のラボから無償公開/コマンドライン版に加えWindows/Mac/Linux対応のデスクトップ版を用意
          • グーグルレンズの「パソコンにコピー」が地味に便利だという話 - 世界のねじを巻くブログ

            Google Lensでテキストをスキャン いきなりですが、グーグルクローム関連の小ネタを3つ紹介。 Google Lensでテキストをスキャン 二窓検索機能 タブ検索 まず一つ目は、 現実世界にある文字・テキストを スマホのGoogle Lensのアプリで読み取り文字起こしして、 PCのGoogle Chromeに飛ばすというライフハック。 パソコンで作業してるときけっこう使えます。 まずはグーグルレンズで文字を読み込み、 場所・範囲を選択。 そして 上記画像の下部に「パソコンにコピー」ってあるのわかりますかね?? これをタップすれば、Google Chromeにコピーされ、 あとは PC上でCtrl+V コピペできるようになります。 例として上記画像の、サンタナのアルバム『キャラバンサライ』ライナーノーツから。 肉体は溶けて宇宙に変わる 宇宙は溶けて静寂の音に変わる 音は溶けてまばゆい

              グーグルレンズの「パソコンにコピー」が地味に便利だという話 - 世界のねじを巻くブログ
            • スキャン書籍のPDFファイルを電子書籍並みにクリアで読みやすくするAI・高品質化・各種調整ツール「DN_SuperBook_PDF_Converter」

              書類や本を自分でスキャンしてPDFファイル化してPCやタブレットで読めるようにする時、画質が低かったり、スキャンの精度が低かったり、インクのにじみや裏写りがあったりして可読性が低下してしまうことがあります。自分で本を裁断してスキャンする「自炊」で用意したPDFファイルを読みやすくするためのツール「DN_SuperBook_PDF_Converter」を、研究者でプログラマーの登大遊氏がAGPL-3.0ライセンスの下で公開しました。 dnobori/DN_SuperBook_PDF_Converter: DN_SuperBook_PDF_Converter - スキャン書籍 PDF をデジタル書籍並みに大変クリアに読みやすくする AI PDF 高品質化・各種調整ツール https://github.com/dnobori/DN_SuperBook_PDF_Converter 登氏は「コンピュ

                スキャン書籍のPDFファイルを電子書籍並みにクリアで読みやすくするAI・高品質化・各種調整ツール「DN_SuperBook_PDF_Converter」
              • 国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) - Qiita

                はじめに 日本語OCR, 有料の業務用ソフトには色々と高性能なものがあるんですが、無料の場合の選択肢は意外に限られてます。最近ではGeminiなどにOCRさせることも試みてますが、縦書きに弱いのが欠点。加えて、私がやっているような著作権が切れた戦前の本のデジタル化の場合、認識率の低い旧字体が多いのが悩みの種。 そこで最近知ったのが、国立国会図書館が公開しているOCRライブラリ、NDLOCRです。国会図書館のデジタル資料(国立国会図書館デジタルコレクション)から全文テキストデータを作成するために開発されたとのこと。 NDLOCRは、現在ver2.1がGithubに公開されています。古い本が多い国会図書館の資料向けに作られているだけあって、旧字体でも高い精度で認識してくれます。今回は、このライブラリを試してみました。基本、Githubサイトに書いてある通りなんですが、いくつか注意すべき点をメモ

                  国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) - Qiita
                • GPTが人知れず既存の名刺管理アプリを抹殺していた話 - Qiita

                  名刺管理アプリ作ってほしいといわれた それは2/22のお話。 ことの発端は別の部署からかかってきた一本の電話でした。 新規事業の部署でいろいろな取引先様と付き合いがあるものの、紙の名刺が非常に多く管理に困っているとのことのことです。 私は小売業に勤務しているしがない一社員で、現在Eコマースの戦略立案に関する部署に所属しています。 電話先の方は、以前一緒の部署で勤務したことがある方です。現在新規事業のプロジェクト推進をしており、冒頭のような課題感を持っているため既存の名刺管理アプリ導入を考えたのですが、あまりのお値段の高さに卒倒して私に藁をもすがる思いで連絡されたようです。 これまでのアプリは名刺の識別専門のAI()を使っていた 話を聞いてみたところ、 名刺の写真を撮る 会社名、部署名、名前、…など項目別にスプレッドシートへ記載される スプレッドシートに次の打ち合わせ日を記載しておくと通知さ

                    GPTが人知れず既存の名刺管理アプリを抹殺していた話 - Qiita
                  • pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

                    これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード: for structure in pdf_elements: print(structure) 結果: 残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ

                      pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
                    • 【Python】Kindleの洋書1冊を1分で日本語PDFに変換するコードを書いた話 - Qiita

                      Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 動機 外資系のAmazonが展開している電子書籍Kindleでは比較的洋書の取り扱いが多いです。 Kindle Unlimitedに登録されている書籍も多く、Springerなんかも含まれているので活用しない手はありません。 そこでkindle-translatorをつくりました。 https://github.com/1plus1is3/kindle-translator これで一冊50万字あるKindleの洋書を1分で日本語PDFに変換できます。 キーボードの矢印キーでページ送りができるならKindleに限らずあらゆる電子書籍リーダ

                        【Python】Kindleの洋書1冊を1分で日本語PDFに変換するコードを書いた話 - Qiita
                      • 書類を撮影→テキストを抽出して「メモ」に保存。iPhoneの「ショートカット」便利レシピ。Apple Intelligenceのアクションを活用しよう– iPhone AI Hack 第3回

                        iOS 26で登場した、「ショートカット」のApple Intelligenceのアクション 病院の明細や荷物の送り状、買い物のレシートや領収書など、デジタル化が進んだ現代でも、まだ紙で受け取るものは少なくありません。きちんと保存している人もいる一方で、つい山積みにしてしまったり、受け取ってすぐ、あるいは一定期間が過ぎたあとに処分してしまったりする人も多いのではないでしょうか。 しかし、そのようにしていると、ふと「あれ、どこの病院だっけ? いつ送ったんだっけ? いくらだったっけ?」と思ったときに、確認に時間がかかったり、処分してしまってわからなくなることがあります。とはいえ、こうした事態を避けるために、紙の情報をいちいち書き留めたり、デジタル化して保存したりするのは面倒です。 そこでおすすめしたいのが、Apple Intelligenceの活用です。iPhoneに標準搭載されている「ショー

                          書類を撮影→テキストを抽出して「メモ」に保存。iPhoneの「ショートカット」便利レシピ。Apple Intelligenceのアクションを活用しよう– iPhone AI Hack 第3回
                        • Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python

                          ■イベント 
:第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要 タイトル:Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者: 
技術…

                            Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python
                          • 電子も紙も積読を消化する技術 - sasasin’s blog

                            以前の記事では主に電子書籍の積読を聴いて消化する技術を紹介しました。紙書籍の積読は Kindle 固定レイアウトと絡めて方向性を示した程度でした。 sasasin.hatenablog.com あれから日が経って、電子書籍の積読を消化する技術をもうちょっと整理できたのと、紙書籍の積読も聴き読書により消化する技術を整理できたので、ふたたび紹介します。前回同様「わたしはこうやってる」です。 2行まとめ 電子書籍は、Kindle アシストリーダー、 Android TalkBack、 Android 版 ReadEra Premium で聴く 紙書籍は、裁断してスキャンして画像化するか、非破壊ブックスキャナー vFlat Scan で画像化して、bunkoOCR でテキスト化して、テキストを ReadEra Premium で聴く 電子書籍 Kindle 固定レイアウト以外は読み上げ可能です。

                              電子も紙も積読を消化する技術 - sasasin’s blog
                            • 確定申告を自動化する Agent Skill "shinkoku" を OSS にした

                              確定申告、めんどくさくないですか? 年に1回しかやらないから毎年やり方を忘れる。レシートの山を前にしてうんざりする。帳簿をつけて、決算書を作って、税額を計算して、申告書を提出する――気が遠くなるほど長い道のりです。個人事業主やフリーランスの方なら、この苦しみに共感してもらえると思います。 「もう全部 AI にやらせたい」。そう思って作ったのが、確定申告を自動化する Agent Skill「shinkoku」です。この記事では、作った動機、できること、セットアップ方法、テストによる品質保証について紹介します。 作った動機 私は毎年、確定申告の時期になると憂鬱な気持ちになっていました。 年に1回しかやらないから、去年の記憶なんて綺麗さっぱり消えているんですよね。「去年どうやったっけ?」が毎年の恒例行事で、結局ゼロから調べ直す羽目になります。 そして1年分のレシートと領収書の山。1枚ずつ確認して

                                確定申告を自動化する Agent Skill "shinkoku" を OSS にした
                              • 岸本元 on X: "国会図書館デジタルコレクションで「ドラゴンクエスト」と検索すると、大正11年に刊行された『本居宣長稿本全集 』がヒットする。いくらなんでも大正時代の本居宣長の本にドラクエの話は書かれてないだろと驚いたが、何者かが原本に落書きしたのを読み取ったようだったhttps://t.co/t2DHCNuxgK https://t.co/3oMcKg6yvs"

                                  岸本元 on X: "国会図書館デジタルコレクションで「ドラゴンクエスト」と検索すると、大正11年に刊行された『本居宣長稿本全集 』がヒットする。いくらなんでも大正時代の本居宣長の本にドラクエの話は書かれてないだろと驚いたが、何者かが原本に落書きしたのを読み取ったようだったhttps://t.co/t2DHCNuxgK https://t.co/3oMcKg6yvs"
                                • PCの操作をすべて録画&文字起こしして過去の操作を丸ごと検索可能にするアプリ「Windrecorder」

                                  PCを使っていると、過去の操作内容やブラウザで閲覧していた情報を思い出したくなるタイミングが頻繁に発生します。そんな時に役立ちそうなPC操作記録アプリ「Windrecorder」がオープンソースで開発されています。 GitHub - yuka-friends/Windrecorder: Windrecorder is a memory search app by records everything on your screen in small size, to let you rewind what you have seen, query through OCR text or image description, and get activity statistics. https://github.com/yuka-friends/Windrecorder I made an o

                                    PCの操作をすべて録画&文字起こしして過去の操作を丸ごと検索可能にするアプリ「Windrecorder」
                                  • NotebookLMにKindleを取り込むスプリクトをChatGPTで書いてみた(コード全文)|SAGE

                                    2025/12/12 追記---------- たくさんの「いいね」ありがとうございます。 うれしいです。 本記事、公開してから1年半ほど経過します。 ご存知の通りLLMに関連する技術やサービスの進化の速度は凄まじく、18ヶ月も経つともうすっかり別物になっていたりします。 この記事はもはや古文書。(Cursorはまだ息を潜めていたし、ClaudeCodeもなかったかな...?) 最新の情報ではなく、昔の一事例として読んで頂けると幸いです。 (新しいAIの話もちょくちょく書いていきます) --------- こんにちは。ChatGPTでこんなもの作ってみましたっていう記事です。 できる事 ・Kindleを全ページ自動で画面スクショ ・スクショ画像からOCRで文字起こし ・ドキュメントにしてGoogleDriveに自動アップロード ・ついでにPDFファイルとTXTファイルも作成 ・スクショデー

                                      NotebookLMにKindleを取り込むスプリクトをChatGPTで書いてみた(コード全文)|SAGE
                                    • はまちや2 on Twitter: "これは東京証券取引所公式の代表の名前が入った一見まともな書類に見えるけど、GoogleはPDF内にある外から見えない注釈等も検索対象にしているらしくて、キャッシュでみると書類に埋め込まれた「うんこ」という文字が可視化される… https://t.co/HCMBx4yqsX"

                                      これは東京証券取引所公式の代表の名前が入った一見まともな書類に見えるけど、GoogleはPDF内にある外から見えない注釈等も検索対象にしているらしくて、キャッシュでみると書類に埋め込まれた「うんこ」という文字が可視化される… https://t.co/HCMBx4yqsX

                                        はまちや2 on Twitter: "これは東京証券取引所公式の代表の名前が入った一見まともな書類に見えるけど、GoogleはPDF内にある外から見えない注釈等も検索対象にしているらしくて、キャッシュでみると書類に埋め込まれた「うんこ」という文字が可視化される… https://t.co/HCMBx4yqsX"
                                      • Pythonで始める ドキュメント・インテリジェンス入門 / Introduction to Document Intelligence with Python

                                        ビジネス文書をデータ化し構造や内容を理解するアプリケーションはドキュメント・インテリジェンスと呼ばれ、画像処理や自然言語処理といった複数の要素技術を組み合わせて開発する必要があります。何が必要でどう実現すれば良いのかといった第一歩を、Pythonでの具体的な構築事例とともに紹介します。 https…

                                          Pythonで始める ドキュメント・インテリジェンス入門 / Introduction to Document Intelligence with Python
                                        • OCR処理プログラム及び学習用データセットの公開について | NDLラボ

                                          2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR処理プログラムです。 このプログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。なお、既存のライブラリ等を利用している部分については寛容型オープンライセンスのものを採用しているため、商用非商用を問わず自由な改変、利用が可能です。 機能ごとに7つのリポジトリに分かれていますが、下記リポジトリの手順に従うことで、Dockerコンテナとして構築・利用することができます。 リポジトリ : https://github.com/ndl-lab/

                                          • GPUなしローカルでも高速・高精度なOCRができるOnnxOCRが凄い

                                            from onnxocr.onnx_paddleocr import ONNXPaddleOcr def sample(): ocr = ONNXPaddleOcr(use_gpu=False, lang="japan") result = ocr.ocr("sample.png") for data in result: for box, (text, score) in data: print(f"text: {text}, score: {score}") ONNXとは OnnxOCRを紹介する上でONNXとは何ぞやということも軽く解説します。 ONNX(Open Neural Network Exchange)とは、機械学習モデルを異なるフレームワーク間で共有・運用するためのオープンなフォーマットです。 このフォーマットに従うことで、PyTorch、TensorFlow、Sciki

                                              GPUなしローカルでも高速・高精度なOCRができるOnnxOCRが凄い
                                            • 熊本大学とTOPPAN、くずし字AI-OCRで未解読だった「細川家文書」約5万枚の解読に成功。検索システムも構築

                                                熊本大学とTOPPAN、くずし字AI-OCRで未解読だった「細川家文書」約5万枚の解読に成功。検索システムも構築 
                                              • GPT-4oをOCRとして使う - Re:ゼロから始めるML生活

                                                OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか? さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。 普通にテキストでのやり取りをしつつも画像データを扱えるということで、「実はこれいい感じのOCRとして使えるんじゃね?」って思っちゃったわけです。 ということで、今回はChatGPT-4oを使ってOCRを使うとどんなもんなのかやってみたいと思います。 やりたいこと やってみる とりあえずやってみる 請求書 名刺 参考文献 感想 やりたいこと 今回やりたいことはOCRです。早い話が画像ファイルを突っ込んでテキストを読み取りたいって感じです。 ただ、当たり前のようにOCRって言葉を使用していますがOCRって結構奥が深いです。 mediadrive.jp 単純に画像から文字を見つけて対応するテ

                                                  GPT-4oをOCRとして使う - Re:ゼロから始めるML生活
                                                • macOS のデフォルト状態でコマンドラインからOCR処理を行う - TeX Alchemist Online

                                                  macOS 12 Monterey では,OSビルトインでのOCR機能が搭載されました。Preview.app で,画像やスキャンPDF(中身がスキャン画像のPDF)に対して,ただマウスでドラッグするだけで,中身の文字を認識して選択し,コピーできるようになっています。さらに,macOS 13 Ventura では,それが日本語にも対応しました。 たとえば,(今や入手困難となってしまった)The TeXbook のアスキーによる日本語版をスキャンしたものを Preview.app で開くと,何もしなくても,文字選択できます。 これをコピーして他のエディタにペーストすると, TEXの名称で気をつけなければならないことがほかにもある。Eの文字が不揃いになっていることだ。Eの文字を少し下げてあるのは、TeXが組版のためのシステムであることを印象づけるためであり、またほかのシステムの名称と区別するた

                                                    macOS のデフォルト状態でコマンドラインからOCR処理を行う - TeX Alchemist Online
                                                  • RAGの性能を改善するための8つの戦略 | Fintan

                                                    近年、OpenAIのGPT-4やGoogleのGemini、MetaのLLaMAをはじめとする大規模言語モデル(Large Language Model:LLM)の能力が大幅に向上し、自然言語処理において優れた結果を収めています[1][2][3]。これらのLLMは、膨大な量のテキストデータで学習されており、さまざまな自然言語処理タスクにおいて、タスクに固有なデータを用いてモデルをファインチューニングすることなく、より正確で自然なテキスト生成や、複雑な質問への回答が可能となっています。 LLM-jp-eval[4]およびMT-bench-jp[5]を用いた日本語LLMの評価結果。Nejumi LLMリーダーボード Neoより取得。 大規模言語モデルは近年急速な進歩を遂げていますが、これらの進歩にもかかわらず、裏付けのない情報や矛盾した内容を生成する点においては依然として課題があります。たとえ

                                                      RAGの性能を改善するための8つの戦略 | Fintan
                                                    • GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.

                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                        GitHub - microsoft/markitdown: Python tool for converting files and office documents to Markdown.
                                                      • 画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena

                                                        おとといくらいにDeepSeek-OCRというのが出てました。 https://github.com/deepseek-ai/DeepSeek-OCR ただのOCRじゃなくて、「テキストを画像にしたほうがトークンサイズを小さくできるのでは?」というのをやっていて、テキストを画像にしてトークン化したものをテキストトークンに戻すというのをやってたらOCRになったという感じですね。 LLMの開発効率化に革新? 中国DeepSeekが「DeepSeek-OCR」発表 “テキストを画像化”でデータ圧縮:Innovative Tech(AI+) - ITmedia AI+ 中身的には、3Bでアクティブパラメータが0.6BのMoEモデルに0.4Bの画像エンコーダーを載せた画像言語モデルです。 導入や使い方は、モデルのページに書いてあります。 何も考えずに最新のTransformers 4.57.1を入れ

                                                          画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena
                                                        • ミスが許されない領域にAIを溶け込ませるプロダクトマネジメントの裏側|Shohei Yoneda

                                                          このnoteは、2024年12月5日にpmconfで登壇させていただいた内容を再編したものです。 イベントの登壇テーマとしては、少し早くてニッチかもしれないと思ったのですが、登壇のスライドは本日時点で1万回以上見ていただいており、思いの外関心を持っていただけたのではないかと思っております。 概要私がLayerXで開発に携わっているバックオフィスAI SaaS「バクラク」では、「AIによって業務自体をなくす」という信念の元、開発を行なっています。 これは、2040年までに約20%にもなる日本の労働受給ギャップを技術によって解決するためです。 一方、AI機能の開発は容易ではありません。生成AIを始めとする技術革新により、デモ開発までの速度は驚くほど向上しましたが、顧客が価値を感じられる機能に至るまでは大きなギャップが存在します。 例えば、バックオフィス業務はミスなく完遂することが求められる一方

                                                            ミスが許されない領域にAIを溶け込ませるプロダクトマネジメントの裏側|Shohei Yoneda
                                                          • ウェブブラウザ単体でOCR処理を実行してAIで校正までできる「NDLOCR-Lite Web AI」レビュー、国立国会図書館のNDLOCR-Liteを簡単に利用可能にしたウェブアプリ

                                                            書類の写真や古文書の画像データを入力するだけでテキストデータとして文字起こしできるウェブアプリが「NDLOCR-Lite Web AI」です。NDLOCR-Lite Web AIは2026年2月に国立国会図書館のNDLラボが公開して話題となった「NDLOCR-Lite」の派生アプリで、インストール操作不要でウェブブラウザからアクセスするだけで使用可能。さらに、各種AIのAPIキーを登録することでAIを用いた校正作業も実行できます。 NDLOCR-Lite Web AI https://cozy-starburst-e4f699.netlify.app/ 上記のリンクをクリックしてNDLOCR-Lite Web AIにアクセスすると、最初に必要なOCRモデルのダウンロードが始まります。 ダウンロードが完了すると画像データの入力待ち画面が表示されます。入力できる画像形式は「JPEG」「PNG」

                                                              ウェブブラウザ単体でOCR処理を実行してAIで校正までできる「NDLOCR-Lite Web AI」レビュー、国立国会図書館のNDLOCR-Liteを簡単に利用可能にしたウェブアプリ
                                                            • GitHub - dnobori/DN_SuperBook_PDF_Converter: DN_SuperBook_PDF_Converter - スキャン書籍 PDF をデジタル書籍並みに大変クリアに読みやすくする AI PDF 高品質化・各種調整ツール

                                                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                GitHub - dnobori/DN_SuperBook_PDF_Converter: DN_SuperBook_PDF_Converter - スキャン書籍 PDF をデジタル書籍並みに大変クリアに読みやすくする AI PDF 高品質化・各種調整ツール
                                                              • ブラウザ上で完結するAI校正付き無料OCRツール「NDLOCR-Lite Web AI」登場。国立国会図書館「NDLOCR-Lite」を活用(生成AIクローズアップ) | テクノエッジ TechnoEdge

                                                                1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。 今回は、Webブラウザだけで日本語OCR(光学文字認識)が完結するツール「NDLOCR-Lite Web AI」(MITライセンス)を取り上げます。 国立国会図書館が開発したOCRエンジン「NDLOCR-Lite」をベースに、橋本雄太氏(国立歴史民俗博物館)がWeb移植した「ndlocrlite-web」を、小形克宏氏(一般社団法人ビブリオスタイル)がフォークしてAI校正機能を追加しました。宮川創氏(筑波大学)によるダークモードや画像前処理などのUI拡張も統合されています。 ▲NDLOCR-Lite Web AIの画面。左パネルに元画像(芥川龍之介『蜘蛛の糸』)、右パネルにOCR結果が表示されている

                                                                  ブラウザ上で完結するAI校正付き無料OCRツール「NDLOCR-Lite Web AI」登場。国立国会図書館「NDLOCR-Lite」を活用(生成AIクローズアップ) | テクノエッジ TechnoEdge
                                                                • 「〇〇は戦前には存在しなかった」系のデマは今はコレのおかげで簡単に否定できるようになった、って話

                                                                  乾杯 乾杯(かんぱい)は、盃を飲み干すこと //スペインが起源 家庭内から宴席に至るまで広く行われている。場の主催者、またはその指名者が音頭を取り、酒などを注いだ盃やコップを掲げ、「乾杯」と唱和したのち口にする。 晩餐会のように改まった会食から酒宴に至るまで、参加者全員が揃った事を契機に、食事や飲み物に手をつけるきっかけとして行われることが多い。遅れて来る者が居る場合、定刻に行ったうえで到着後も改めて行ったり、定刻前に練習と称して飲み始めることもある。基本的にしきたりなので、地域差(都道府県から社内部署に至るま 3 users 3 Wikipedia

                                                                    「〇〇は戦前には存在しなかった」系のデマは今はコレのおかげで簡単に否定できるようになった、って話
                                                                  • 古文書を解読できるスマホアプリ 凸版印刷が開発 くずし字対応AI-OCRを活用

                                                                    凸版印刷ではこの課題を解決するため、2015年から国文学研究資料館と共同研究を開始。古文書対応のAI-OCRの開発に取り組んできた。その中で「手元の古文書を手軽に読みたい」という一般利用者向けのサービスに対する多数の要望があり、今回のアプリ開発に至ったとしている。 凸版印刷は今後、2025年度までにAPI提供や関連事業を含め、一般利用者や教育機関、博物館・資料館、地方自治体などのサービス提供を拡大し、約3億円の売り上げを目指す。 関連記事 ライトを当てると文字や絵が現れるホログラム 凸版が開発 スマホライトで真贋判定 強い光(点光源)を当てると、立体的な画像が現れる新たなホログラム「イルミグラム」を凸版が開発。スマートフォンのライトなどで誰でも簡単・正確に真贋判定できる。 メタバースでのなりすましを防ぐ 3Dアバターの本人証明ができるセキュリティ基盤 凸版印刷が開発 凸版印刷が、メタバース

                                                                      古文書を解読できるスマホアプリ 凸版印刷が開発 くずし字対応AI-OCRを活用
                                                                    • Claude.aiをつかって画像内の文字を正確に抽出する方法を見つけました - Qiita

                                                                      例えば、こちらのブログですが、グラフィカルな解説部分が、画像になっています。 Claudeはマルチモーダルに対応しているので、画像を添付した状態で「文字を抽出して」というと文字を抽出してくれますが、日本語で要約して回答したり、元の文章を正確に抽出する のは、意外と難しいと感じていました。 以下は、Claude.aiを使って「添付画像から文字を抽出して」と依頼した際の結果です。 原文そのままを正確に抽出したいときってありますよね?それを解決する方法を編み出しました。 方法は、「 HTMLで再現させる 」です! 本投稿の先頭の画像を添付して「添付画像をHTMLで再現して」と依頼した際の結果がこちらです。 感動!!! (注:右側が画像をもとに生成したHTMLを、プレビューした状態です。Claude.aiのArtifactsという機能です) アイコンがちょっと違うとか省略されてるとかはありますが、

                                                                        Claude.aiをつかって画像内の文字を正確に抽出する方法を見つけました - Qiita
                                                                      • ドキュメントをMarkdownやJSONに変換してくれる「Docling」を試す

                                                                        ここで知った。 試しに、神戸市が公開している観光に関する統計・調査資料のうち、「令和5年度 神戸市観光動向調査結果について」のPDFで一度試していたのだけども: (出典) 神戸市Webサイトの「観光に関する統計・調査」のページ 上記にある「令和5年度 神戸市観光動向調査結果について」のPDF 日本語でも、概ね問題なく、表などもきれいにパースされる ただし、表が画像 になってる場合に、うまく解釈されない(表は解釈されるが、中の文字が化ける) OCRが正しくできていない可能性 というのがあって、ドキュメント読んだけどわからなくて、それ以上深追いしてなかった。 ただ、X界隈を見る限りは評判は良さそうで、いろいろ記事も出てきたみたいなので、改めて試してみる。 GitHubレポジトリ ドキュメント Docling Doclingは、ドキュメントを解析し、簡単かつ迅速に希望の形式にエクスポートします。

                                                                          ドキュメントをMarkdownやJSONに変換してくれる「Docling」を試す
                                                                        • 日本語の手書きメモを書き起こせるOCRを探すために23モデルを片っ端から試した話

                                                                          こんにちは!逆瀬川ちゃん (@gyakuse) です! 今日は日本語の手書きメモをいい感じに書き起こしてくれるOCRを探して、23モデルを片っ端から比較してみた話をまとめていきたいと思います。 手書きメモは楽しいが電子化がつらい わたしはいまだに手書きメモをよく書きます。打ち合わせの最中にさっと書いたり、アイデアを整理するときにペンで図を描いたり。手を動かしながら考えるのはとても楽しいし、タイピングとは違う思考の広がり方があります。 ただ問題は電子化です。ノートに書いたメモをあとからSlackやNotionに転記するのがとにかくつらい。自分の字を自分で読み返す作業がすでにつらいのに、それを打ち直すのは二重苦です。 OCRで自動化したいのですが、日本語の手書き文字って既存のOCRモデルにとってはかなり難しいタスクです。活字ならどのモデルでも高精度ですが、手書きとなると精度がガクッと落ちます。

                                                                            日本語の手書きメモを書き起こせるOCRを探すために23モデルを片っ端から試した話
                                                                          • 国立国会図書館のOCR技術を使って、完全オフラインOCRのChrome拡張を作ってみた

                                                                            はじめに 画像やPDFのテキストをコピーしたいとき、オンラインのOCRサービスに画像を送るのはちょっと抵抗がありませんか? 特に社外秘の資料や個人情報が写っている場合。 通信ゼロ、ブラウザの中だけで完結するOCR があれば安心して使えるのに — そう思って、Chrome拡張機能を作りました。 以前からいくつかの日本語OCRを試してきて、ブラウザ内でも実用レベルで動くことがわかっていたので、それを誰でも気軽に使える形にしたかったのが動機です。 yomitokuで作る日本語OCR Webアプリ — サーバーサイドで高精度な日本語OCR Tesseract.jsでカスタムモデルのトレーニング — ブラウザOCRの可能性と限界 ブラウザだけで完結する日本語OCR+透視変換 — NDLOCRをブラウザで動かす Chrome Web Store で「オフラインOCR」と検索してもヒットします。 これま

                                                                              国立国会図書館のOCR技術を使って、完全オフラインOCRのChrome拡張を作ってみた
                                                                            • 画像からテキストを抽出、ファイル名を一括変更…Windowsを快適にする公式無料ツール「PowerToys」おすすめ機能7選 | 文春オンライン

                                                                              「PowerToys」という無料ツールをご存知でしょうか。Windowsをさらに使いやすくする十数個の機能をまとめた、Microsoftの公式ツールです。カユイところに手が届く数々の機能はいちど使うと手が放せなくなるほどで、どうしてこれがWindowsに最初から組み込まれていないのだろうと首をひねってしまうほどです。 そんな「PowerToys」は、今年9月に入って登場した最新版の「0.62.0」で、これまでなかった新機能がいくつか追加され、より充実したツールへと生まれ変わりました。 今回は最新の「0.62.0」で追加された機能も含め、筆者が「これは特に便利」と感じたPowerToysの便利機能を厳選して紹介します。ピンと来る機能があれば、ぜひこの機会にインストールして試してみてください。ダウンロードはMicrosoftストア、もしくはこちらから行えます。

                                                                                画像からテキストを抽出、ファイル名を一括変更…Windowsを快適にする公式無料ツール「PowerToys」おすすめ機能7選 | 文春オンライン
                                                                              • [速報]マイクロソフト、手書きのスケッチをAIでアプリ画面に手軽に変換できる「Power Apps Express design」発表。Microsoft Build 2022

                                                                                [速報]マイクロソフト、手書きのスケッチをAIでアプリ画面に手軽に変換できる「Power Apps Express design」発表。Microsoft Build 2022 マイクロソフトは現在開催中の開発者向けイベント「Microsoft Build 2022」で、ローコード/ノーコード開発ツール「Power Apps」の新機能として、手書きのスケッチやPDFのフォーム画面、Figmaのデザインファイルなどを元に、AIがアプリケーションの画面作成を支援してくれる「Power Apps Express design」を発表しました。 公開された動画を元に、Power Apps Express designの機能を見ていきましょう。 Power Apps Express designでは、画面スケッチをキャプチャするとAIがUIコンポーネントを認識します。

                                                                                  [速報]マイクロソフト、手書きのスケッチをAIでアプリ画面に手軽に変換できる「Power Apps Express design」発表。Microsoft Build 2022
                                                                                • 紙書籍を「自炊」している人に福音? スキャンデータを徹底的に読みやすくする最強ツール/作者は「SoftEther VPN」などで知られる登大遊氏【やじうまの杜】

                                                                                    紙書籍を「自炊」している人に福音? スキャンデータを徹底的に読みやすくする最強ツール/作者は「SoftEther VPN」などで知られる登大遊氏【やじうまの杜】

                                                                                  新着記事