並び順

ブックマーク数

期間指定

  • から
  • まで

161 - 200 件 / 309件

新着順 人気順

OCRの検索結果161 - 200 件 / 309件

  • NDLOCR ver.2の公開について | NDLラボ

    2023年07月12日 NDLラボ公式GitHubから、OCR処理プログラム「NDLOCR」のver.2を公開しました。 NDLOCRは、国立国会図書館(以下「当館」といいます。)がデジタル化した資料から、全文テキストデータを作成することを目的に開発したものです。 令和4年4月に公開したver.1が全文検索用途を主目的に開発したもの(令和3年度OCR処理プログラム開発事業参照)であるのに対して、ver.2では、視覚障害者等の読み上げ用途にも利用できるよう、機能の追加及び認識性能の改善を行っています。 ver.1からの追加機能として、①出力テキストデータの読み上げ順序の推定機能、②漢字の読み方の付与機能、③読み上げ上不要な要素(柱・ノンブル)の除去機能、④広告領域内の文字の読み取り機能を有しています。 合わせて、当館が今後デジタル化及びテキスト化をする資料の出版年代を考慮し、特に1960年代

    • 再生ノートパソコンNEC VersaProへの引っ越しの途中自分用メモ - 🍉しいたげられたしいたけ

      機会あるたびに弊ブログの主目的は自分用備忘メモであると書いていますが、今回の拙エントリーはいつに増して読んでいただいている方には申し訳ないが他人には全く関係ない内容です。 2台持ちしているノートパソコンの1台が逝ったため、Amazonで再生品(整備済み品)のNEC VersaProを購入し、メインマシンの引っ越し作業をしている。前回の関連拙記事はこちら。 www.watto.nagoya 購入した商品のブログカードも、また貼ろう。 【整備済み品】NEC ノートPC VK23/15.6型/Win 11 Pro/MS Office H&B 2019/Core i5-6200U/wajunのWIFI/Bluetooth/HDMI/16GB/512GB SSD wajun Amazon 今さら何を言ってるんだと言われること確実だが、SSDええわ~(;Д;) 電源入れてから使用可能になるまでの時間差

        再生ノートパソコンNEC VersaProへの引っ越しの途中自分用メモ - 🍉しいたげられたしいたけ
      • Azure のGPT-4 Turbo with Visionを使ってみた - 電通総研 テックブログ

        こんにちは。XI 本部 AI トランスフォーメンションセンター所属の後藤です。 本記事は「 電通国際情報サービス Advent Calendar 2023 」の12月20日(水)の回の記事になります。 本記事では、つい先日利用が可能となったAzureの「GPT-4 Turbo with Vision」の紹介と使い方の解説をします。 使ってみた所感として、今回のAzure版GPT-4 Turbo with Visionは単なるOpenAIの機能の追随に留まらず、Azure固有の追加機能である「Vision enhancement」が印象的でした。特に、画像や動画の扱いにおいて、OpenAIのモデルよりも応用範囲が大きく広がっていることが感じられました。 OpenAIのGPT-4Vに関してはTechBlogの以下の記事でも紹介されていますので、ぜひご参照ください。 参考:https://tec

          Azure のGPT-4 Turbo with Visionを使ってみた - 電通総研 テックブログ
        • LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog

          こんにちは。Algomatic NEO(x) カンパニー機械学習エンジニアの宮脇(@catshun_)です。 本記事ではブラウザやモバイル画面を操作する LLM エージェントとその周辺技術について超ざっくりと紹介します。 社内に向けたキャッチアップ資料として作成しており、加筆修正する可能性がありますが、本記事を読んだ方の議論のネタ程度になってくれれば幸いです。 以前 AI ソフトウェアエンジニアについて紹介しているので、こちらもご覧いただけたら幸いです。 おことわり 本記事では対象とする研究棟の 詳細な解説は含みません。詳細は元の論文を参照ください。 不十分また不適切な言及内容がありましたらご指摘いただけますと幸いです。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 本記事の目次 Google I/O '24 での Gemini Nano × Android の発表

            LLM でブラウザを操作する WEB エージェントと周辺技術のざっくり紹介 - Algomatic Tech Blog
          • Vertex AI PaLM APIを触ってみる

            LayerX で機械学習エンジニアとして働いている松村 @yu-ya4 です。現在はMLチームにて、バクラクシリーズのAI-OCR機能の開発をはじめとした機械学習技術の活用を推進しています。7月はLayerXエンジニアブログを活発にしよう月間 とのことですのでブログを執筆しております。今日は誰がなんと言おうと7/26です。 今回は、2023年5月にプレビューとなり先月から今月にかけてGAとなったVertex AI PaLM APIを触ってみたので紹介します。なお、このブログを執筆している2023年7月26日時点では英語やスペイン語など5つの言語への対応のみがGAであり、日本語は対応しておりませんのでご注意ください。最新のリリース情報については以下のリリースノートなどをご参照ください。 PaLM自体は日本語を含む多数の言語からなるデータセットで学習されているので入力を受け付けること自体は問題

              Vertex AI PaLM APIを触ってみる
            • Claude 3 Opusの画像認識性能をお試し

              Claude 3 Opus課金への道 最近、周りでClaude 3(特に最上位モデルのopus)の性能が凄いと話題です。 「どうせOpen AIからまた凄いの出るでしょ」 と静観していたのですが、しばらくは出なさそうな雰囲気がするのと、周りのプレッシャー(?)に耐えられなくなり課金してしまいました。AI依存&AI破産まっしぐらですね。 Claude 3 Opusの画像認識を試してみた ファイルアップロードできると聞いていたので、拙作「面倒なことはChatGPTにやらせよう」のタスクを色々やらせてみようかなと思ったのですが、完全な私の勘違い(調査不足)で、アップロードできるのはドキュメントと画像だけでした。他のファイルを読み込ませるには、APIを使って自分でプログラムを組む必要がありそうです。 というわけで、かろうじて試せそうな画像認識を試してみることにしました。画像の題材は、書籍のサポート

                Claude 3 Opusの画像認識性能をお試し
              • 今週のはてなブログランキング〔2023年7月第1週〕 - 週刊はてなブログ

                はてなブログ独自の集計による人気記事のランキング。6月25日(日)から7月1日(土)〔2023年7月第1週〕のトップ30です*1。 # タイトル/著者とブックマーク 1 10年ブログ書いてたらTBSラジオで冠番組やることになりました助けてくれ - kansou by id:ikdhkr 2 リモート開発を助ける「思いやりのある文章」の書き方 - ROUTE06 Tech Blog by id:route06 3 何年も前に書かれたソースコードを読むときの頭の中 - Mitsuyuki.Shiiba by id:bufferings 4 画像生成AIで獣頭人身グラビアアイドル - 本しゃぶり by id:honeshabri 5 漫画におけるサプレッサー銃の銃声表現サンプル - #AQM by id:AQM 6 Steam で遊べるメタフィクションなインディーゲーム入門 - 名馬であれば馬の

                  今週のはてなブログランキング〔2023年7月第1週〕 - 週刊はてなブログ
                • Dataikuを使って完全ノーコードで、1時間でRAG作成→AIチャットボットを作ってみた(自動車保険の約款編) - Qiita

                  Dataikuを使って完全ノーコードで、1時間でRAG作成→AIチャットボットを作ってみた(自動車保険の約款編)chatbotragDataikunocodeLLM 目次 1.はじめに 2.完成形のご紹介 3.環境準備 4.PDF読み込み 5.PDF文字起こし 6.RAG作成 7.AIチャットボット作成 8.おわりに 1. はじめに 4/25に下記の通りプレスリリースでDataiku Answers発表しました。 Dataikuが、企業全体で生成AIチャットを可能に Dataiku Answersは安全でカスタマイズされた拡大可能な対話型AIを企業に提供 Dataiku Answersは、データチームがエンタープライズ規模で検索拡張生成(RAG)を使用して生成AIを搭載したチャット機能を構築するための新しい方法です。Dataiku Answersを使用することで、指定した大規模言語モデル(

                    Dataikuを使って完全ノーコードで、1時間でRAG作成→AIチャットボットを作ってみた(自動車保険の約款編) - Qiita
                  • 研究・批評のための文献管理の方法|北村匡平

                    今回は前回予告したとおり、文献の管理の仕方について紹介していきたいと思います。といっても文献管理ソフトは何がいいとか、そういう話ではありません(ちなみに学生時代、使っていたのはEndNoteです)。主に文献をPDF化して管理する方法についてです。僕は「研究・批評のための資料整理の方法」で紹介したように、所有している映像データについては細かく管理していますが、もっている書籍まではエクセルに入力して整理していません。だから間違って同じ本を買うことは、ある。いままで3冊までは5回くらいやってしまいました。本当は書籍も細かく管理できればいいのですが、さすがにそこまで時間は使えない。ただ、本というものは物理的に場所を使うので、管理の方法は工夫しなければなりません。また、すべての本を購入するわけにはいきません。学生のときは困窮していたので、ほとんど大学の図書館の本を借りていました。 これも前の記事で書

                      研究・批評のための文献管理の方法|北村匡平
                    • 画像内の文章を簡単に文字起こし!「EzOCR」使用でブラウザから無料で登録も不要です - 【磐田,浜松,袋井】パソコンサポートと出張修理 はてな版

                      パソコンやスマホを使っていると、画像の中の文章(テキスト)をコピーして、エクセルやメモ帳に貼り付けたい!ということがあるかと思います。 画像内の文章はコピーできませんので、基本的にはその画像を見ながら手入力が一般的ですが、下記のような便利なサイトがあるのでご紹介します。 ezocr.net 無料のオンラインOCR  EzOCR。ユーザー登録不要、ログイン不要、フリーのオンライン多言語OCR。Online OCRでPDFやスキャン画像などから文字を読み取ります(画像 文字起こし)。Web上のOCRサイトなので、スマホからも利用可能。便利機能を使ってPDF分割、PDF結合、PDFのWord変換も可能です。 インターネット上で調べれば、この手のサイトはたくさん出てきますが(Chromeの右クリックの画像検索などもあり)、無料で使えてブラウザから使用可能、各種の登録も不要ですぐ簡単に使えるというこ

                        画像内の文章を簡単に文字起こし!「EzOCR」使用でブラウザから無料で登録も不要です - 【磐田,浜松,袋井】パソコンサポートと出張修理 はてな版
                      • GPT-4V(ision) System Cardをざっくり訳した - Qiita

                        はじめに OpenAIが3月に発表していたものの実装していなかった、画像および音声を取り扱うことのできるマルチモーダルモデル「GPT4-V」のdeployが発表されました。本当に全部この会社がやればいいんじゃないか? ChatGPTのPlus/Enterpriseユーザーに2週間かけて提供するそうです。最近ChatGPTのほうの処理能力が落ちつつあってGPT-4のAPIばっかり使ってるんですが、ChatGPT Plusは解約できそうにないですね。 GPT4-Vを中心としたV&LのLLMはDocumentUnderstandingの文脈での活用が期待されており、先日Googleを中心としたグループもLMDX: Language Model-based Document Information Extraction and Localizationという論文を発表していました。Geminiなん

                          GPT-4V(ision) System Cardをざっくり訳した - Qiita
                        • 【一目瞭然】年末調整の提出先は?パッとわかる早見表つき解説 - 縄文会計税理士事務所のブログ

                          基本的に毎年必ず行う必要がある年末調整ですが、1年に1回しかないためやり方を忘れてしまうことは、最早あるあるです。 必要な書類も多く、正直面倒くさいと感じている担当者も少なくないでしょう。 しかも年末調整に関する書類は、社内で保管すればいいものと、税務署や市区町村に提出するものに分けられます。 つくったのに、出すべきところに出さないと、懲役や罰金を課せられてしまう可能性もあるため注意が必要です。 ということで、本記事では、年末調整の提出先や提出書類の種類・注意点などに関して、詳しく解説していきます。 【早見表】年末調整の提出先。何をどこにいつまでに提出する? 従業員より社内の年末調整担当者へ提出された書類については、会社の担当者が取りまとめて処理を行います。 その後、社内で保管すべき書類、それをもとに新たに作成して税務署や市区町村に提出が必要な書類など、いくつか分かれています。 ざっくり表

                          • 大葉入りチーズささみフライとオールドクロウで! - 私生活を楽しむ日記

                            昨夜も、簡単調理の大葉入りチーズささみフライとグリーンサラダを肴に、松田優作気取って、バーボンウイスキー「オールド・クロウ」のハイボールで晩酌を楽しみました・・・・ ほろ苦で始まり+チョコのような甘味で終わる、オールドクロウは癖になりそうです(^^)/ 大葉とチーズってお酒の肴のためにあるような組み合わせなので、、、グビグビ飲めちゃいます・・・ そして、昨夜も締めは腸内の善良菌を育てるため、、、超大好きな麦ごはんを頂きました・・・ またまた酔い(良い)仕事納めのディナータイムが過ごせました! オールド クロウ 40度 箱なし 700ml 正規 shibazaki_OCR 価格:1276円 (2023/12/14 20:15時点) 感想(45件) 【12/15はウイスキーくじ】バーボン ウイスキー オールド クロウ 40% 700ml[ウイスキー][御歳暮 贈り物 御礼 母の日 父の日 御中

                              大葉入りチーズささみフライとオールドクロウで! - 私生活を楽しむ日記
                            • バクラクのAI-OCR機能を支えるアノテーションの仕組み

                              2021年のプロダクトリリースから約2年半、導入者数は6000社を突破しデータ数も急速に増える中、AI-OCR機能の精度を担保をするために様々な取り組みをしてきました。今回はデータのアノテーションという観点でリリース前から現在までの取り組みの変遷を紹介します。

                                バクラクのAI-OCR機能を支えるアノテーションの仕組み
                              • OCR+AIでPDFの画像に説明文を追加 「ChromeOS 116」が公開 ~「Chrome」へも導入予定/「ファイル」アプリの操作性が大きく向上

                                  OCR+AIでPDFの画像に説明文を追加 「ChromeOS 116」が公開 ~「Chrome」へも導入予定/「ファイル」アプリの操作性が大きく向上
                                • SaaSはキャズムを超えて次のステージに|Next SaaS Media Primary | 運営 早船 明夫

                                  「企業データが使えるノート」をリニューアル Next SaaS Media「Primary」 過去記事が閲覧可能なメンバーシップも開設! *     *      * データでみる「オワコン」ではないSaaSの現在地は? 2020年3月、Primary(旧:企業データが使えるノート)は、SaaS企業のデータ集計・コンテンツ制作を開始した。 当時、国内上場SaaS企業でARR100億円を超える企業はSansanのわずか1社。 それから3年が経った2023年、Sansan、ラクス、サイボウズ、freee、マネーフォワードなどトップ水準にある企業はARR200億円の時代に突入している。 オンプレミス型からクラウドへの転換、コロナ禍におけるリモートワーク対応、インボイス制度や電子帳簿保存法などの法令対応、そして、労働力減少に向けた効率化など多様な要因が後押しとなり、SaaSの普及が進んでいる。 A

                                    SaaSはキャズムを超えて次のステージに|Next SaaS Media Primary | 運営 早船 明夫
                                  • 第770回 UbuntuとOCRmyPDFでスキャンした内容に対して自動的にOCRを実行する | gihyo.jp

                                    今回はブラザーのスキャナーでスキャンした結果を自動的にOCRを実行します。SambaやOCRmyPDF、Tesseract OCRなど、オープンソースソフトウェアだけで構成します。 紙の書類をなんとかしたい ペーパーレスなんて言葉はもう聞き飽きてしまいましたが、実際にペーパーレスが達成されたかというとそういうわけでもないことはみなさんも日々感じていることでしょう。 なにかのサービスに契約したらユーザー名とパスワードは郵送されてくるなんてことはむしろ最近増えています。本人確認のためには致し方ないところではありますが。 昔のWi-Fiルーターはメーカーによって初期ユーザー名とパスワードが決まっていましたが、セキュリティ的には問題しかありません。そのため最近はWi-Fiルーターの箱にユーザー名とパスワードが書かれた紙(某社だとシール)が入っています。たしかにこれだと安心ですが、こんなの失くすに決

                                      第770回 UbuntuとOCRmyPDFでスキャンした内容に対して自動的にOCRを実行する | gihyo.jp
                                    • URLからテキストを抽出する自作APIアプリケーションの構築|youtube, PDF

                                      1. はじめに Webページや動画からテキスト情報を抽出することは、情報収集やデータ分析など、様々なタスクにおいて重要です。この記事では、DockerとFastAPIを用いて、URLからテキストを抽出するアプリケーションを構築する方法について解説します。Dockerは、アプリケーションの実行環境をコンテナ化することで、環境依存の問題を解消し、デプロイを容易にする技術です。FastAPIは、Python製のWebフレームワークであり、高速で効率的なAPI開発を可能にします。 この記事を活用するとできること youtubeから字幕(transcript)を取得して、Difyで要約させる WebサイトのURLから、テキストを出力して、Difyのワークフローに流し込む Web上のPDFからテキストを抽出して、DifyでQAチャットボットを構築する 2. 環境構築 2.1 Dockerfile 以下

                                        URLからテキストを抽出する自作APIアプリケーションの構築|youtube, PDF
                                      • freee 会計ソフト iOS のレシート撮影カメラをリニューアルしました - freee Developers Hub

                                        Hello, world. 会計ソフト iOS チームで開発をしている Kirk(カーク)です。 みなさまとのご縁で生きながら、コントラバスを弾くためにコードを書いています。 今回、恐らくユーザーからは念願であったであろう、レシート撮影で使用するカメラのリニューアル構想、設計、実装を担当したのでその内容を共有します。 リニューアルされたカメラ📱📸 百聞は一見にしかず、でございます。 こちらのデモ動画をご覧ください 💁‍♂️ < ミテネ www.youtube.com おわかりだろうか…このデモ動画内では、撮影者は手動でシャッターは押していないのです!そう、自動でレシートを認識して撮影する、自動撮影を新しく機能追加しました 😎 さらにカメラ画面自体も一新しました! 新カメラ 旧カメラ SwiftUI、UIKit、AVFoundation、Vision Framework、Concur

                                          freee 会計ソフト iOS のレシート撮影カメラをリニューアルしました - freee Developers Hub
                                        • 堀口くんの潰瘍性大腸炎の臨床調査個人票について|____twitte____

                                          堀口英利くんは2023年6月13日、ツイッターで潰瘍性大腸炎の患者である証拠として臨床調査個人票を公開した。この臨床調査個人票が証拠として適正なものなのかどうかを検証する。 ※ 2024年2月24日に堀口くんから「地方公共団体から特定医療費助成制度の支給認定を受けてました。」との声明を受け、『過去に認定されたという特定医療費受給者証』を追記しました。 ※ 2024年3月1日に『自己免疫性膵炎(IgG4関連疾患)を併発』を追記しました。 臨床調査個人票とは難病法により、指定難病患者と診断され重症度分類が一定程度以上の場合、医療費助成の対象となる。申請者は難病指定医を受診し臨床調査個人票の交付を受け、都道府県・指定都市へ申請を行い、特定医療費受給者証の交付を受けることになる。 特定医療費受給者証は1年ごとに更新され、都度臨床調査個人票が必要となる。 公開された臨床調査個人票堀口 英利 | Ho

                                            堀口くんの潰瘍性大腸炎の臨床調査個人票について|____twitte____
                                          • 独特な「請求書」「領収書」などの文書を理解する言語モデル「DocLLM」 JPモルガンが開発

                                            このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 米JPMorgan AI Researchに所属する研究者らが発表した論文「DocLLM: A layout-aware generative language model for multimodal document understanding」は、複雑なレイアウトを持つ文書(請求書、領収書、契約書、注文書、フォームなど)の自動解析を行う大規模言語モデル(LLM)を提案した研究報告である。 これらの文書は複雑なレイアウト、テンプレート、フォーマットなどにおいて多様性を示している。文書AI(DocAI)は、情報抽出、分類、質問応答など多岐

                                              独特な「請求書」「領収書」などの文書を理解する言語モデル「DocLLM」 JPモルガンが開発
                                            • 中学生の間に流行る丸文字、クジラ文字などのオリジナル書体。教師たちはOCRで対策 - 中華IT最新事情

                                              手書きを重視する中国の教育現場では、中学生の間にオリジナル書体が流行をしている。丸文字など、どの国にもある現象だ。しかし、判読が不能な書体も登場し、教師たちはOCRが認識できるかどうかをひとつの基準にしていると薇薇教育説が報じた。 ICT教育が進んでいるからこそ、手書きを重視する 中国でもICT教育は進んでいるが、特徴的なのは手書きも重視されていることだ。特に中学生までは、手書きによる文字習得が徹底される。授業のノートも手書きであり、試験も手書きだ。現実の社会では、文字を手で書く機会はほとんどなくなっている。そのため、10代前半ぐらいまでの間に、手で文字を書く経験を大量に積ませないと、文字文化の理解ができなくなると考えられている。 独自の書体を編み出す中学生たち 文字をほぼ習得した中学生の間では、誰もが独自の手書き書体を開発しようとし、書体の流行がたびたび起きる。 広く流行したのが「鯨落書

                                                中学生の間に流行る丸文字、クジラ文字などのオリジナル書体。教師たちはOCRで対策 - 中華IT最新事情
                                              • 【AIツール一覧】最新のAIツール55選!無料おすすめランキング比較

                                                Creative DriveCreative Driveは、SEOに強いAI記事作成ツールです。このツールは、時間や予算の制約、専門性を表現する知識の不足など、Web集客におけるよくある課題を解決することができます。 AIテクノロジー とSEOノウハウを掛け合わせることで、誰でもSEOライティングを短時間で可能にします。 Chatbase|AIチャットボット(作成)Chatbaseは、AIチャットボットを作れます。ChatGPTをあなたのデータでトレーニングし、ウェブサイトにチャットウィジェットを追加できます。ドキュメントをアップロードするか、ウェブサイトにリンクを追加するだけで、コンテンツに関する質問に答えることができるチャットボットを取得できます。提供したデータ(テキスト、ファイル、ウェブサイト)に基づいて、専用のチャットボットを生成してくれるAIサービスです。有料プランでは、APIア

                                                • 愛知県犬山市宮山 大縣神社(前編) - 松村かえるの「かえるのねどこ」

                                                  大きい地図・ルート検索  ( powered by ゼンリン地図 いつもNAVI ) 尾張二宮とされている神社です。はじめて訪問しました。 たいへん境内がひろく、画像は麓にある神社の入口で、本宮山という標高293mの山に奥宮があります。 大県神社 大縣神社 社伝によれば、当初本宮山(一名真霊山)の頂に鎮座。 垂仁天皇27年8月、山頂に荒魂を鎮め置き、麓に新宮を造営して、和魂を遷座されたという。 祭神は大縣大神。で、大縣大神とはという疑問。 寛文元年(1661)の棟札には、国狭槌尊となっているらしい。 一説には、大縣主の祖神である天津彦根命とも。 また、少彦名命とする説もある。 各地の一宮は大己貴命を祀ることが多く、二宮に少彦名命が祀られる例が多いため。 播磨二宮である荒田神社も少彦名命を祀り、大荒田ゆかりの当社も、尾張二宮だからという考え。 以前、「玄松子の記憶」でこの神社についての記述を

                                                    愛知県犬山市宮山 大縣神社(前編) - 松村かえるの「かえるのねどこ」
                                                  • Translumo - k本的に無料ソフト・フリーソフト

                                                    特定の領域内に次々と写し出される字幕のようなテキストを、リアルタイムに翻訳してくれるソフト。 マウスドラッグで指定した矩形領域内に写し出されるテキストを、リアルタイムに翻訳&翻訳結果を半透明のウインドウ内に随時表示していけるようにしてくれます。 翻訳結果ウインドウの配色 / 透明度 を変更する機能や、翻訳テキストの文字色 / フォントサイズ を変更する機能、操作のホットキーを変更する機能 などが付いています。 「Translumo」は、特定の領域内に写し出されるテキストをリアルタイムに翻訳してくれるソフトです。 マウスドラッグで指定した矩形領域内のテキストを OCR &翻訳してくれるソフトで、選択した領域内のテキストが変わるたびに、その都度翻訳を自動実行してくれるところが最大の特徴。 字幕のように、特定領域内のテキストが次々と変わり続けるテキストを翻訳したい時に最適です。 翻訳結果のテキス

                                                      Translumo - k本的に無料ソフト・フリーソフト
                                                    • 文書画像を対象にしたAIのタスクとSOTAモデルの紹介 - RAKUS Developers Blog | ラクス エンジニアブログ

                                                      はじめに ラクスのサービスでは請求書や領収書をはじめ、様々な文書を取り扱っています。 例えば楽楽精算では領収書の読み取り機能を有しており、この機能にはAIを用いた画像認識を活用しています。 このように文書画像を対象としたAI(以下、本記事では文書画像読解AIと呼びます)は、様々なタスクに応用できます。 そこで今回の記事では、文書画像読解AIではどのようなタスクを解くことができるか、代表的なものを紹介します。 また各タスクに適用できるモデルについて、本記事執筆時点でのSOTAモデル*1をいくつか簡単に紹介します。 文書画像を扱うタスクやモデルにどのようなものがあるか、概要を知りたい方に向けた内容となっております。 目次 はじめに 目次 サマリー 文書画像読解AIのタスク OCR(Optical Character Recognition、光学文字認識) レイアウト解析 (Document L

                                                        文書画像を対象にしたAIのタスクとSOTAモデルの紹介 - RAKUS Developers Blog | ラクス エンジニアブログ
                                                      • OCRの読み取りミスを修正する手作業をAIに代わりにやってもらってみた | DevelopersIO

                                                        はじめに 新規事業部 Passregiチームの山本です。 先日、CX事業本部の平内さん(SINさん)が、FAXで受信した紙の帳票をOCRで読み取ってCSVファイルにする方法に関して、ブログを公開されました。 https://dev.classmethod.jp/articles/computer-vision-read-api/ 上記のページの最後に、課題としてOCRが読み取りをミスすることがあり、そのミスを手動で修正する必要がありそう、と分析されていました。 このページでは、OCRの読み取りミスを自動で修正するために、AIを使って試してみた内容について記載します。 問題点と解決方法 問題点の整理 上のページの取り組みで残った問題点は、以下のような状況した。 文字の読み取り自体はできていた 読み取りを行う範囲(単位)がズレてしまった(複数のセルを1つとして認識してしまっている)。その結果、

                                                          OCRの読み取りミスを修正する手作業をAIに代わりにやってもらってみた | DevelopersIO
                                                        • Amazonの倉庫で出荷前に製品が破損・欠損しているかどうかを自動チェックするAI「Project P.I.」の仕組み

                                                          Amazonは生成AIと画像認識を使って、発送前の製品に破損したものや色・サイズが間違っているものがないかをチェックするシステム「Project P.I.」を発表しました。Project P.I.はすでにアメリカの一部フルフィルメントセンターで導入されているとのことです。 Amazon: AI spots product defects, reduces waste https://www.aboutamazon.com/news/innovation-at-amazon/amazon-ai-sustainability-carbon-footprint-product-defects How Project P.I. helps Amazon remove imperfect products - Amazon Science https://www.amazon.science/new

                                                            Amazonの倉庫で出荷前に製品が破損・欠損しているかどうかを自動チェックするAI「Project P.I.」の仕組み
                                                          • E2612 – 日本古典籍を身近にする「国書データベース」

                                                            日本古典籍を身近にする「国書データベース」 国文学研究資料館・片岡真(かたおかしん)、飯沼邦恵(いいぬまくにえ) 2023年3月1日、国文学研究資料館は「国書データベース」を公開した。国内外の機関や個人が所蔵する、江戸時代以前の日本の書籍(古典籍)を中心とした資料の書誌情報と全冊デジタル画像を無料で公開する総合データベースである。収録されているのは、約580の機関・個人が所蔵する資料の書誌80万件と、うち約200の機関・個人が所蔵する資料22万5,000点のデジタル画像であり、画像データの撮影枚数は2,400万枚である(2023年4月末日現在)。あらゆる分野の日本の古典籍を収録対象としている。 ●概要 1963年の刊行以来、古典籍を調査する研究者を中心に長く愛用されてきた『国書総目録』(岩波書店)は、国内で所蔵される日本の古典籍に関する大規模調査の成果として生み出された画期的な目録であった

                                                              E2612 – 日本古典籍を身近にする「国書データベース」
                                                            • microsoft/Phi-3-vision-128k-instruct · Hugging Face

                                                              Intended Uses Primary use cases The model is intended for broad commercial and research use in English. The model provides uses for general purpose AI systems and applications with visual and text input capabilities which require memory/compute constrained environments; latency bound scenarios; general image understanding; OCR; chart and table understanding. Our model is designed to accelerate res

                                                                microsoft/Phi-3-vision-128k-instruct · Hugging Face
                                                              • 鈴鹿大学裁判メールニュース「第五回ツイッターデモにご協力くださり、ありがとうございました。」を転載します - 🍉しいたげられたしいたけ

                                                                私が加入する地域労組が原告側を全面支援し、私自身も個人的立場から原告を全力応援している鈴鹿大学裁判の関連記事です。 弊ブログにも転載した「第五回」ツイッターデモに関して… www.watto.nagoya 原告側支援団体から以下のようなメールニュースが発信されましたので、転載します。 ツイッターデモにご参加、ご協力いただいた方々には、私からもお礼申し上げます。ありがとうございました。 第五回ツイッターデモ、ありがとうございました。 みなさま 第五回ツイッターデモにご協力くださり、ありがとうございました。 20時から21時までの1時間でいただけたオンライン署名数は2筆で、850筆となりました。 原因はよくわからないのですが、ツイッターの閲覧数が制限されたことが影響しているのか、途中から更新が止まってしまったように見えたのですが、21時以降、再確認させていただいたところ、これまでにもデモにご協

                                                                  鈴鹿大学裁判メールニュース「第五回ツイッターデモにご協力くださり、ありがとうございました。」を転載します - 🍉しいたげられたしいたけ
                                                                • 再生ノートパソコンに不定期WindowsUpdateを適用したらSnippingToolのOCR機能が有効になった - 🍉しいたげられたしいたけ

                                                                  朗報である! 再生ノートパソコン(整備済ノートパソコン)VersaProを購入して初めてのWindows Updateを適用したところ、SnippingToolのOCR機能が利用可能になった。 再生ノーパソネタ何度やるんだ? という気もするが、個人的には重要情報なのでネタがある限り何度でもやる。 【整備済み品】NEC ノートPC VK23/15.6型/Win 11 Pro/MS Office H&B 2019/Core i5-6200U/wajunのWIFI/Bluetooth/HDMI/16GB/512GB SSD wajun Amazon 1月24日に不定期のWindows Updateがあった。発行されたのはもっと以前だったかもしれないが、私が気付いたのはこの日だった。 「設定」→「Windows Update」→「更新の履歴」によると… 2024-01x64 ベース システム用 W

                                                                    再生ノートパソコンに不定期WindowsUpdateを適用したらSnippingToolのOCR機能が有効になった - 🍉しいたげられたしいたけ
                                                                  • 東奔西走キャッシュレス(51) SIMスワップの対策と対面でのJPKI

                                                                    この連載でこれまで何度か取り上げてきた本人確認の問題(第43回、第47回)。eKYCを悪用した銀行口座の問題に続いて、店頭での本人確認を回避した携帯電話の機種変更が話題になりました。いかに本人確認を確実にするのか、改めて確認したいと思います。 スマートフォンに挿入するICカードが、今回問題になったSIMカードです 勝手に機種変更されて携帯を乗っ取られる「SIMスワップ」 今回の問題は、東京都の風間ゆたか都議と大阪府八尾市の松田憲幸市議が相次いで被害に遭い、それをXに投稿したことで明るみに出ました。 2人とも、政治家として有権者の声を聞くために携帯電話番号を公開していたところ、その携帯電話の機種変更が他人の手によって行われ、SIMカードが交換されたことで「携帯電話の乗っ取り」が発生したという経緯のようです。 SIMカードは、携帯電話の契約情報が書き込まれたICチップです。SIMカードを入れ替

                                                                      東奔西走キャッシュレス(51) SIMスワップの対策と対面でのJPKI
                                                                    • ChatGPT新機能「GPT-4V」とは?使い方・料金などを解説

                                                                      2022年11月にOpenAI社のChatGPTがリリースされて以来、ChatGPTは世界中のさまざまな分野に大きな影響を与えました。 たとえば、SEOに強いAIライティングツール「トランスコープ」は、OpenAI社のGPT-4を搭載したを搭載しており、SEOに強い文章作成が可能なAIツールです。ChatGPTはさまざまなビジネスに応用され、業務効率化・サービス改善と活用の幅が広いです。 そして、2023年9月25日、OpenAI社は新機能として「GPT-4V」の導入を発表し、世間から注目を集めています。 リリース以降も進化し続けるChatGPTのおかげで、私たちの生活や仕事はたった1年で便利になりました。 本記事では、ChatGPT有料版ユーザーの皆様に向けて、新機能であるGPT-4Vの概要や活用事例10選をご紹介します。 ネット上では「ChatGPTに目ができた」と表現されており、新た

                                                                        ChatGPT新機能「GPT-4V」とは?使い方・料金などを解説
                                                                      • Microsoft、Snipping ToolにOCR機能を追加。スクショや画像から文字起こしが可能に。まずはWindows11 Inisider Previewにて | ニッチなPCゲーマーの環境構築Z

                                                                        Microsoftは、Windows11 Insider PreviewのSinipping ToolにOCR機能を追加したことを発表しました。 OCR機能とは、画像から文字を抽出(文字起こし)してくれる機能。Snipping Toolでスクリーンショットを撮ったり、画像を開いて、新たに追加された『テキスト アクション』というボタンを押すと、画像内の文字が選択されます。 Snipping Tool - 画像内の文字が選択される その後、『すべてのテキストをコピーする』を選択すればクリップボードに画像内の文字が保存されます。 保存されたテキストをメモ帳に貼り付けると以下のような具合。 Sinipping Toolで文字起こしした内容 精度は悪くなく、しっかりと文字起こしされています。 ただ、英語は問題ないのですが、日本語だとなぜか文字と文字の間にスペースが入ります。 日本語だと文字の間に空白

                                                                          Microsoft、Snipping ToolにOCR機能を追加。スクショや画像から文字起こしが可能に。まずはWindows11 Inisider Previewにて | ニッチなPCゲーマーの環境構築Z
                                                                        • なぜバクラク申請・経費精算はFlutterでアプリの作り直しをしているのか - LayerX エンジニアブログ

                                                                          バクラク申請・経費精算チームでモバイルエンジニアをしている id:kikuchy です。 埼玉県民として翔んで埼玉の2作目を履修してきました。埼玉県民が東京の池袋に集まって会議しているところや、県民の日にみんなが夢の国に行ってしまうあたりがリアリティあって良かったです。今作も笑わせてもらいました。 この記事はLayerXテックアドカレ2023の30日目の記事です。 前回はチームメイトの @_chocoyama さんによる 【特別対談】 Flutterエンジニアの今オレ x iOSエンジニアの過去オレ でした。chocoさんの時空を超える能力が最大限活かされた、Flutter開発の現場に対する不安が払拭される素敵な記事でしたね! 次回はカードチームエンジニアの Omoriさんの記事になります。楽しみ! 本日は、現在Flutterを使用して再開発しているバクラク申請・経費精算のモバイルアプリに

                                                                            なぜバクラク申請・経費精算はFlutterでアプリの作り直しをしているのか - LayerX エンジニアブログ
                                                                          • ChatGPT、更に進化をしてしまう : 哲学ニュースnwk

                                                                            2024年05月14日16:01 ChatGPT、更に進化をしてしまう Tweet 1: 名無しさん@おーぷん 24/05/14(火) 15:22:38 ID:u4QT これは凄い 津山三十人殺し←これ、インパクトあるよね 2: 名無しさん@おーぷん 24/05/14(火) 15:23:15 ID:eMqu もう人いらんやん 3: 名無しさん@おーぷん 24/05/14(火) 15:23:55 ID:Ie1z 底辺プログラマはもう職失うだろうね 4: 名無しさん@おーぷん 24/05/14(火) 15:24:08 ID:suDg はえーすっごい これgpt4.0なん? 6: 名無しさん@おーぷん 24/05/14(火) 15:24:29 ID:u4QT >>4 正確にはGPT4oってやつ 5: 名無しさん@おーぷん 24/05/14(火) 15:24:11 ID:u4QT 26: 名無しさ

                                                                              ChatGPT、更に進化をしてしまう : 哲学ニュースnwk
                                                                            • 平和公園くらしの森@名古屋市千種区を仕事の空き時間に散策したが目ぼしいものはなかった - 🍉しいたげられたしいたけ

                                                                              散策ネタの連投になります。前回10月28日付拙記事 は裁判傍聴のついでだったが、今回は出先での仕事の合間にぽっかりできた空き時間の穴埋めである。たまにそういうことがある。仕事の内容自体はブログに書かないことにしているのは、何日か前にも書いた通り。 きっかけは千種区役所のそばだったか、こんな看板を見たことだった。 ちょうど庇の影になって読みづらいが、「平和公園一万歩コース 案内図」と書いてあった。 平和公園というのは名古屋市屈指の広さを持つ公園だが、大部分は墓地という認識つか先入観があったため、近隣の市の住人としてはあえて足を向けようという気は起こしたことがなかった。 だが墓地以外の空間もそれなりに広いようだったので、せっかく近くまで来たのだからちょっとだけ中を覗いてみようと考えた。 弊ブログはアフィリエイト広告を利用しています 街路樹の紅葉が始まっていた。もし公園内も紅葉が多ければめっけも

                                                                                平和公園くらしの森@名古屋市千種区を仕事の空き時間に散策したが目ぼしいものはなかった - 🍉しいたげられたしいたけ
                                                                              • 木曽三川公園138タワーパークでコスモスと秋の花そして展望台(後編:展望台編) - 🍉しいたげられたしいたけ

                                                                                昨日付け拙エントリーの続きです。 www.watto.nagoya いっぱい花を見たことだし、これで帰ろうとツインアーチ138の足元を通り過ぎて駐車場に戻ろうとした。 身内に「上ってみます?」と声を掛けてみた。 こういうとき、あんまり乗りのよくない人だから、断られることを期待してであった。 そうしたら、意外にも乗ってきたではないか! たびたび書いているように、身内は足弱なので階段が苦手である。 ぜってー階段なんてないことを予感したからかも知れない。 逆にもし階段しかなかったら、私だって嫌だけど。 入館料、大人一人500円。各種割引の適用なし。 チケットをスキャナーでスキャンした。 実物がなきゃ撮れない裏側もスキャンした。 弊ブログ勝手に恒例、OCRによる文字起こし。改行位置、変更しています。欧文&ルビある場合は省略します。以下同じ。 ・当日限りです。再入館はできません。 ・禁煙です。 ・指

                                                                                  木曽三川公園138タワーパークでコスモスと秋の花そして展望台(後編:展望台編) - 🍉しいたげられたしいたけ
                                                                                • ChatGPTならOCRから翻訳まで一気にこなす!やることは「スマホで撮って送るだけ」 | ライフハッカー・ジャパン

                                                                                  ChatGPTの画像解析の性能がいまいちだったのはもう過去の話。 GPT-4oへのアップデートにより、画像を読み込ませて回答を生成する活用の幅が大きく広がりました。この記事では、主にスマホで写真をとって活用できる方法を紹介します。 「これ何? どうやって使うの?」を写真を送るだけで解決するキーワード検索では、そもそも入力する言葉がわからないと調べられませんよね。現在は画像検索もできるようになりましたが、答えが1つ出たらさらに検索をかけたり、関連サイトをチェックしたりする必要があります。 ChatGPTなら、追加の質問を投げかけることで、分析や問題の解決方法まで得ることができます。 以前筆者は、昔使っていたPCに内蔵されていたSSDからデータを取り出すため、現在使っているPCへの接続を試みたことがあります。 そのSSDは以前使っていたPCが故障したため取り出したままだったのですが、改めて見る

                                                                                    ChatGPTならOCRから翻訳まで一気にこなす!やることは「スマホで撮って送るだけ」 | ライフハッカー・ジャパン