並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 301件

新着順 人気順

OCRの検索結果121 - 160 件 / 301件

  • アノテーションの研究事例からLayerXにおける改善案を考える - LayerX エンジニアブログ

    こんにちは! LayerXで機械学習エンジニアをしている伊藤 (@sbrf248) です。直近はOCRモデルの学習・評価に使うデータセット周りの改善に取り組んでいます。 今回は、データセット作成におけるアノテーションに注目し、関連する研究分野や、LayerXにおける改善にどう繋げられそうかを紹介したいと思います。 アノテーションに関する研究分野 アノテーションは、機械学習に利用する教師付きデータの正解ラベルを人間が付与する作業を指します。 高い精度のモデルを作るためには高品質かつ大量のデータセットが用意できると理想ですが、人間が作業する以上一定の時間的・金銭的コストは必要になるため、品質を高めつつ効率を上げるための工夫が必要になります。 アノテーション品質・効率を高めるための研究分野は、大きくサンプリングと品質管理と効率化の2つに分けられます。 以下では、それぞれについての代表的な手法や最

      アノテーションの研究事例からLayerXにおける改善案を考える - LayerX エンジニアブログ
    • 機械学習とビジネスゴールのはざまで - LayerX エンジニアブログ

      機械学習をプロダクトに取り入れて磨き上げているいるみなさん。機械学習モデルのオフライン評価とビジネス上のKPIとを近づける難しさを感じてませんか? はじめに 深澤 (@qluto) です。 LayerXという会社で、経理業務をはじめとした業務支援を行うバクラクシリーズの開発に携わっています。私はその中でも、非定型の書類から的確に情報を読み取るAI-OCR機能の開発を担当しています。 私は、機械学習を根幹に据えつつ、ビジネス上や直接的なユーザーの課題解決のために複合的な問題に対処してきたソフトウェアエンジニアです。 今回は、機械学習とビジネスゴールの狭間で生じがちな問題を俯瞰し、バクラクのAI-OCR機能において直面した問題とその解決方法についてご紹介します。 機械学習とビジネスゴールとの間にギャップが生まれてしまうのはどういう時か? まずは、機械学習とビジネスゴールとの結び付けが難しくなり

        機械学習とビジネスゴールのはざまで - LayerX エンジニアブログ
      • GitHub - xavctn/img2table: img2table is a table identification and extraction Python Library for PDF and images, based on OpenCV image processing

        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

          GitHub - xavctn/img2table: img2table is a table identification and extraction Python Library for PDF and images, based on OpenCV image processing
        • NDL Ngram Viewerで近代語の経時的変化を眺めて遊ぼう - kzhr's diary

          この記事は「言語学な人々Advent Calender 2023」の18日目の記事です。 adventar.org はじめに 国立国会図書館(以下NDL)では、大規模デジタル化予算を用いて所蔵資料のデジタル化を格段に進めましたが、そのOCRテキスト化も近年おおはばに進んでいます。その具体的な内容は公式記事をご覧いただければと思いますが、とにもかくにも言語資源が格段に増えたわけで、思いつくままに使ってみようというのが今回の内容です。なお、この内容はNDLのウェビナーでお話しした内容といちぶ重なるところもありますが、もうすこし言語学(技術)向けです。 OCRテキストは、公式記事からダウンロードの方法なども示されていますが、手っ取り早くは、国立国会図書館デジタルコレクション(以下NDC)で検索することができます。それだけではなく、n-gramという考え方を用いてテキストデータを単語単位で細分化し

            NDL Ngram Viewerで近代語の経時的変化を眺めて遊ぼう - kzhr's diary
          • 米国におけるファクシミリの利用調査結果を公開 ~米国では今でも7割の方がファクスを利用!~ | CIAJ 一般社団法人 情報通信ネットワーク産業協会

            ホーム > お知らせ > プレスリリース > バックナンバー > プレスリリース 2023 > 米国におけるファクシミリの利用調査結果を公開 ~米国では今でも7割の方がファクスを利用!~ お知らせ CIAJ画像情報ファクシミリ委員会では、2020年度より国内でのファクシミリ利用調査を行っておりますが、この度、海外市場調査にも目を向け、米国での調査を行いました。 米国は国別において多くのファクス機を購入している国であり、その利用方法や用途などを調査することとしました。 その結果、日本では6割の方が日常の業務フローの中で利用されているファクシミリ(以下ファクス)ですが、米国でも7割の方がファクスを利用されているとの調査結果となりました。 また、利用率、使用頻度、使う理由などでは、日本とは違った傾向が見受けられました。 海外においても継続してファクシミリを活用頂けるよう努めてまいります。 1.

            • 非破壊ブックスキャナCZUR「ET24 Pro」をオーバーヘッドカメラとして使う。2400万画素CMOSセンサ搭載機の実力は?(本田雅一) | テクノエッジ TechnoEdge

              ネット社会、スマホなどテック製品のトレンドを分析、コラムを執筆するネット/デジタルトレンド分析家。ネットやテックデバイスの普及を背景にした、現代のさまざまな社会問題やトレンドについて、テクノロジ、ビジネス、コンシューマなど多様な視点から森羅万象さまざまなジャンルを分析。 CZURはオーバーヘッド型カメラを用いたブックスキャナのメーカーとしては草分けのメーカーだそうだ。上方からカメラで書籍のページを捉えるため、本を裁断せずに電子化できる"非破壊型ブックスキャナ"であることが一番の魅力だ。 筆者は"ブックスキャナ"というジャンルをほとんど追いかけていなかったため、このメーカーのことを全く知らなかったのだが、確かに歴史あるメーカーである。 電子書籍デバイス黎明期に大きな話題になった"本の電子化"、いわゆる"電子書籍の自炊"だが、その後、電子書籍の流通が当たり前になってきたことで光の当たる機会が減

                非破壊ブックスキャナCZUR「ET24 Pro」をオーバーヘッドカメラとして使う。2400万画素CMOSセンサ搭載機の実力は?(本田雅一) | テクノエッジ TechnoEdge
              • ここまで調べた 持将棋と千日手【1】「持将棋」編|将棋史学同人

                〈著〉けんゆう 〈監修〉将棋史学同人 はじめに はじめまして。私は普段、将棋棋士成績DBというサイトを作ったり棋士の成績を眺めてニヤニヤしながら生きています。そして、対局規定の変遷について体系的にまとまった資料が見つからないためずっと困っています。 というのも対局データをまとめる際にどうなってこっちが勝ちになったのか、反則は、持ち時間は等々、のような取り扱いを正確に行うには対局当時の規定がわからないと判断できないこともあるからです。日本将棋連盟は「規定が変わりました!今まではこうだったけどこれからはこうです!」みたいに公告してくれるわけでもないので変更がいつ起きたのかを調べるのは困難でした。 そういう状況で国立国会図書館デジタルコレクションに全文検索が追加されました。これはかなり画期的なもので、調べたいことがどこにあるのかわからない場合でも検索をかければこの本のここにあるよと教えてくれるの

                  ここまで調べた 持将棋と千日手【1】「持将棋」編|将棋史学同人
                • AndroidにOCR機能で画像や写真からパスワードを盗むマルウェアが発見される

                  セキュリティ対策として長いパスワードを使うと覚えておくのが大変なため、パスワードが表示された画面を画像として保存している人もいます。このような画像から、パスワードをテキストデータに変換して認証情報を窃取するマルウェアが見つかったことが報告されました。 Related CherryBlos and FakeTrade Android Malware Involved in Scam Campaigns https://www.trendmicro.com/en_us/research/23/g/cherryblos-and-faketrade-android-malware-involved-in-scam-campai.html New Android malware uses OCR to steal credentials from images https://www.bleepin

                    AndroidにOCR機能で画像や写真からパスワードを盗むマルウェアが発見される
                  • Gemini 1.5 Proを使って自分の強みを分析してみた - G-gen Tech Blog

                    G-gen の神谷です。今回、Gemini 1.5 Pro を活用して、ビジネス心理テストであるストレングスファインダーで自身の強みを分析し、AI によるマネジメントやメンタリングが可能か、試してみました。本記事では、その取り組みの詳細をご紹介します。 ストレングスファインダーとは Strength Mentor Bot の作成 Gemini 1.5 Pro を使った実装 34の資質を JSON 形式で抽出 BigQuery への保存と分析 チームビルディングへの応用 ストレングスファインダーとは まず、ストレングスファインダーについて説明します。 ストレングスファインダーは、個人の強みを特定し、それを活かすための評価ツールです。クリフトンという心理学者によって開発され、現在はギャラップ社が提供しています。 34の資質(強み)を測定し、個人の弱みではなく強みに焦点を当てることで、より良いパ

                      Gemini 1.5 Proを使って自分の強みを分析してみた - G-gen Tech Blog
                    • IIIF[トリプルアイエフ]で拓くデジタルアーカイブ 一般財団法人人文情報学研究所(監修) - 文学通信

                      紹介 「デジタルアーカイブ」をより多くの人に使ってもらえる、よりよいものにしたい―― それを目指した世界中の人々が集まって創られ、広まってきている枠組み、IIIF(トリプルアイエフ : International Image Interoperability Framework)を紹介し、その概要、構築方法、活用例を紹介・解説する初の書。 第1部ではIIIFの概要の紹介、第2部ではIIIFに対応したデジタルアーカイブの構築手法、第3部では、具体的なIIIFの活用例を扱う。加えて、インタビューやいくつかのコラムも掲載。 コンテンツのよりよい在り方やさらなる利活用を考える方に。公共図書館、大学図書館、ほかデジタルアーカイブに関わる方必携の書。 執筆は、大向一輝、永崎研宣、西岡千文、橋本雄太、吉賀夏子、本間淳、鈴木親彦、三原鉄也、高橋洋成。 【IIIFの素晴らしいことの一つは、「自分の(ここでは

                        IIIF[トリプルアイエフ]で拓くデジタルアーカイブ 一般財団法人人文情報学研究所(監修) - 文学通信
                      • Android の新機能と最新ロゴのご紹介

                        本日は、 Android 端末の新機能やGoogle アプリのアップデートにより、毎日の外出先でのタスク管理がどのように簡単になるかをご紹介します。 AI があなたをサポートGoogle アシスタントによる新しい スナップショット 機能は、AI 技術を活用し、高精度の天気予報アラートや旅行情報、今後の予定のリマインダーなど、役立つ情報を必要な時にすぐ見れるようホーム画面に表示します。 また、このたび視覚に障がいをお持ちの方を対象とした Android アプリの Lookout が、日本語でもご利用いただけるようになりました。Lookout は、Android 端末のカメラと 最先端の AI 技術を使用して、周囲の物体や画像、テキストを認識し、音声でリアルタイムに伝えてくれるアプリです。 現在のバージョンでは以下の 3 つのモードを、日本語の他、英語、韓国語、中国語を含む合計 34 の言語で

                          Android の新機能と最新ロゴのご紹介
                        • LLMが与えた「インターフェイス」と「開発」に対するインパクト 開発者として向き合って感じる“考え方が変わる”可能性

                          Qiita Conferenceは、ソフトウェア開発者が集まり、最新の技術や最先端の挑戦・ソフトウェアの未来についての考えや知見を共有し、つながる場を創出する、「Qiita」が開催するオンライン技術カンファレンスです。ここで松本勇気氏が登壇。まずは、大規模言語モデルが与えたインパクトについて話します。 松本氏の自己紹介 松本勇気氏:本日は基調講演の場をいただき、ありがとうございます。日本CTO協会(理事)およびLayerXという会社のCTOを務めている松本と申します。みなさま、よろしくお願いします。 何か気になることがあればチャットでワイワイしてもらえると、話している側的にはちょっと楽しくなってくるので、ぜひよろしくお願いします。 今日は「エンジニアキャリアとLLMによって変わっていく開発とその未来」。ちょっとタイトルが長かったので「ChatGPT」から「LLM」(という書き方)になってい

                            LLMが与えた「インターフェイス」と「開発」に対するインパクト 開発者として向き合って感じる“考え方が変わる”可能性
                          • 「ドメインにディープダイブする」「最速でループを回す」 LayerX・榎本氏が考える、価値を生むエンジニアになるために必要なこと

                            「ドメインにディープダイブする」「最速でループを回す」 LayerX・榎本氏が考える、価値を生むエンジニアになるために必要なこと LayerX創業CTOが語る、本気でプロダクトに向き合うCTOになる為に必要な事 #1/4 LayerX・榎本悠介氏の自己紹介 榎本悠介氏:よろしくお願いします。LayerXの今CPOで、取締役CTOの榎本と申します。「mosa」と呼ばれています。技育祭に出るのが初めてなので、楽しみにしていました。よろしくお願いします。 さっそくなんですけど、僕の自己紹介から始めます。ちなみにLayerXっていう会社を知っている人はいますか? さっそくチャット欄を……(コメントを見て)あっ、ありがとうございます。ありがとうございます! うれしいです。聞いたことだけある。いや、うれしいです。ありがとうございます。 あとから会社紹介するんですけれども、LayerXはいくつか事業をや

                              「ドメインにディープダイブする」「最速でループを回す」 LayerX・榎本氏が考える、価値を生むエンジニアになるために必要なこと
                            • NVIDIA Triton Inference Server の性能検証 - LayerX エンジニアブログ

                              機械学習エンジニアの吉田です。今回は機械学習モデルの推論サーバとして NVIDIA Triton Inference Server の性能を検証した話です。 背景 バクラクでは請求書OCRをはじめとした機械学習モデルを開発していますが、これらの機械学習モデルは基本的にリアルタイムで推論結果を返す必要があります。 請求書OCRを例にとると、お客様が請求書をアップロードした際にその内容を解析し、請求書の金額や日付などを抽出します。 このような推論用のAPIサーバはNginx, Gunicorn/Uvicorn, FastAPIで実装し、PyTorchモデルをGPUで推論する構成となっており、SageMaker Endpointを使ってサービングしています。 バクラクの推論APIはこのような構成でリリース以降特に問題なく稼働してきていますが、ご利用いただくお客様が増えるにつれてリクエストも増加し

                                NVIDIA Triton Inference Server の性能検証 - LayerX エンジニアブログ
                              • 信心はネズミ経ヘルニアには効かないがそのうち効くようになる。 - 小学校笑いぐさ日記

                                「鼠経」という昔話があるんですよ。「おんちょろちょろ、穴のぞきそうろう」ってやつ。 nihon.syoukoukai.com しかし、先日ふとそのタイトルでググったところ、まったく検索結果に出てこないことが判明。 鼠経 - Google 検索 Google先生が「もしかして: 鼠径」とサジェストしてくるのはまあ仕方がない。 「鼠径ヘルニア」って書いてあるページを検索結果に出してくるのももう仕方ない。 しかし、サイト自体にばっちり「鼠経ヘルニア」って書いてあるのどうなの。 www.hosp.hyo-med.ac.jp www.med-junseikai.or.jp www.inouemh.or.jp kimura-hospital.jp osaka.jcho.go.jp sk-kumamoto.jp 他多数。 以前、NATROM先生が、 「『マコモが肝炎、腎炎、月琴炎に効く!』って主張してる

                                  信心はネズミ経ヘルニアには効かないがそのうち効くようになる。 - 小学校笑いぐさ日記
                                • メモの作成やタスク管理、共同作業を効率化!Evernoteから乗り換えるべきメモアプリ8選(ライフハッカー・ジャパン) - Yahoo!ニュース

                                  2010年代、生産性向上を追求する多くの人たちにとって「Evernote」はの必須のメモアプリでした。 メモの作成やタスク管理、共同作業を効率化!Evernoteから乗り換えるべきメモアプリ8選 メモや画像、さらにはToDoを使ったノートブックの作成が高速で可能に。また、誰とでも簡単に共有して共同作業ができるようになり、ワンクリックでウェブから何でもインポートできる便利なツールも備えていました。しかも、これがほぼ無料だったのです。 しかし、ここ5年間で状況は悪い方向に変化し続けました。Evernoteは、「それほど高くはない」有料プランを広めようと、無料プランの制限をはじめたのです。 そしてその後、価格は上がり続けました。2023年現在、個人用の基本プランはなんと月額14.99ドル、年間129.99ドルで、プロフェッショナルのプランは月額17.99ドル。これは、OneNoteを含めてOff

                                    メモの作成やタスク管理、共同作業を効率化!Evernoteから乗り換えるべきメモアプリ8選(ライフハッカー・ジャパン) - Yahoo!ニュース
                                  • 世界5400万ユーザー超え! 日本発のプロダクト「TimeTree」を支える、エンジニアとしての総合力

                                    日本発の共有カレンダーサービスとしてグローバル展開しているTimeTree。今ではユーザー数が5400万人にも広がっている。これほどまでの大規模データを扱いながらもパフォーマンスを落とさない工夫や開発の醍醐味について、TimeTree CTO 河野洋志氏とSREチームを率いている金井栄喜氏に訊いた。 株式会社TimeTree CTO 河野洋志氏 世界に5400万ユーザーを抱える日本発のプロダクト「TimeTree」 ──自己紹介をお願いします。 河野洋志氏(以下、河野):CTOの河野洋志、ニックネームはScottです。TimeTreeの創業メンバーが新卒入社時の同期だった縁で、「TimeTree」がプロダクトとしてリリースされてから半年ほどで入社しました。それまではサーバーサイドやデータベースに携わっていました。2023年からはCTOとなり、エンジニアのマネジメントやスクラム開発導入などを

                                      世界5400万ユーザー超え! 日本発のプロダクト「TimeTree」を支える、エンジニアとしての総合力
                                    • GPT-4VでiPhoneの画面を操作するシステム 米Microsoftなどの研究者らが開発

                                      このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 最近の研究では、スマートフォンのタスク自動化に着目している。方法の一つとして、画面画像をテキストで説明し、大規模言語モデル(LLM)で処理するアプローチがある。今回は、大規模マルチモーダルモデル(LMM)の効果を生かし、GPT-4Vを使用したゼロショットのスマートフォンGUIナビゲーションシステム「MM-Navigator」を提案する。 MM-Navigatorは、人間のユーザーと同様にスマートフォンの画面と対話し、与えられた指示を遂行するための次の行動を決定できる。 LMMを使用したGUIナビゲーションには、2つの主要な課題がある。これら

                                        GPT-4VでiPhoneの画面を操作するシステム 米Microsoftなどの研究者らが開発
                                      • Azure OpenAI Service で GPT-4 Turbo with Vision を使う

                                        Microsoft Ignite 2023 にて、これらのモデルが近いうちに Azure OpenAI Service でも利用可能になることが発表されていましたが、このたびマルチモーダル入力対応の GPT-4 Turbo with Vision のプレビューが開始しました。(テキスト入力のみを受け付ける無印 GPT-4 Turbo は一足先にプレビュー開始していました。) 参考 New models and developer products announced at DevDay (本家 OpenAI) Azure OpenAI Service Launches GPT-4 Turbo and GPT-3.5-Turbo-1106 Models GPT-4 および GPT-4 Turbo プレビュー モデル 利用可能なリージョン 執筆時点で GPT-4 Turbo with Visi

                                          Azure OpenAI Service で GPT-4 Turbo with Vision を使う
                                        • 【特別対談】 Flutterエンジニアの今オレ x iOSエンジニアの過去オレ - LayerX エンジニアブログ

                                          こんにちは。バクラク申請・経費精算チームでモバイルエンジニアをしている @_chocoyama です。社内のラジオ好きコミュニティに属しているのですが、自分の推し番組を紹介したところ誰にも刺さらず、コミュニティに属しているのにソロ活動している今日このごろです。 この記事はLayerXテックアドカレ2023の29日目の記事です、前回は Tomoaki さんが「バクラクのAI-OCRを支える性能モニタリングの仕組み #LayerXテックアドカレ - LayerX エンジニアブログ」を書いてくれました。 本日の記事では、Flutterアプリを開発している現在の私(以降、今オレ)と、iOSネイティブアプリを開発をしていた過去の私(以降、過去オレ)が対談した内容となっています。 Flutterに対してふわっとしたイメージしかないネイティブアプリエンジニアの皆さんの参考になると幸いです。 ご挨拶 過去

                                            【特別対談】 Flutterエンジニアの今オレ x iOSエンジニアの過去オレ - LayerX エンジニアブログ
                                          • 数式やイラストを含む画像をOCRやLLMを使ってテキスト化した話

                                            こんにちは!株式会社 COMPASS でエンジニアをしている安齋です。私はシステム開発部というエンジニアリングの組織に所属をしており、現在はLLMを利活用するための研究開発の一環で様々な取り組みを行っています。 今回は、画像で表現された問題データをOCRやLLMを使ってテキストデータとして扱えるようにした取り組みについて、技術選定から実際の解決アプローチまでをご紹介します。 この記事はこんな方におすすめ 株式会社COMPASSの技術的な取り組みについて知りたい方 OCRサービスを使った開発の事例を知りたい方 LLMの活用事例を探されている方 背景と解決したかった課題 COMPASSでは、AIが子どもたち一人ひとりに合った問題を出題する公教育向けのデジタル教材「Qubena(キュビナ)」を開発、提供しています。Qubenaは公教育での学びに必要な小学校、中学校向けの国語、算数・数学、理科、社

                                              数式やイラストを含む画像をOCRやLLMを使ってテキスト化した話
                                            • [解決!Python]PDFファイルからテキストや画像を抽出するには

                                              pdfminer.sixパッケージを用いて、PDFファイルからテキストや画像を抽出する方法を紹介する。 from pdfminer.high_level import extract_text from pathlib import Path # PDFファイルからテキストを抽出 source = Path('atmarkit_ebook116.pdf') text = extract_text(source) print(text) # extract_text_to_fp関数を使う from pdfminer.high_level import extract_text_to_fp dest = Path('out.txt') with open(source, 'rb') as fp_in, open(dest, 'wb') as fp_out: extract_text_to_fp

                                                [解決!Python]PDFファイルからテキストや画像を抽出するには
                                              • バクラクのデータセットを用いたLayoutLMv3による事前学習 - LayerX エンジニアブログ

                                                機械学習エンジニアの吉田です。本記事では、LayoutLMv3*1というモデルをバクラクで取り扱っている帳票で事前学習を行い、それをファインチューニングして項目推定タスクに取り組んでいる話をご紹介します。 背景 LayerXで提供しているバクラクでは帳票をアップロードするだけで支払金額や支払期日などを自動で読み取り補完してくれるOCR機能があります。このOCR機能には大きく2つの処理があります。 帳票に書かれている文字列を認識し検出すること 検出された文字列から支払金額や支払期日などの項目を推定すること 2つ目の項目推定において現在はRoBERTa*2というモデルを使っています。RoBERTaでも精度高く推定することができるのですが、複雑なレイアウトの場合に誤って推定してしまうケースがどうしても発生してしまいます。RoBERTaはOCRで検出したテキストだけを使ったモデルであるためこのよう

                                                  バクラクのデータセットを用いたLayoutLMv3による事前学習 - LayerX エンジニアブログ
                                                • YOLOv8でナンバープレートを検出してAI-OCRで読み取ってみました。 〜ファインチューニングに使用したデータは、撮影した写真ではなく、Pythonで生成した画像(30,000枚・192,000アノテーション)です〜 | DevelopersIO

                                                  5 AI-OCR AI-OCRとしては、MicrosoftのComputer Visionで提供されている、Read APIを使用させて頂きました。 参考: Computer Vision 3.2 GA Read API を呼び出す 最初は、ナンバープレート画像を、そのままOCRにかけてみたのですが、下段左の平仮名1文字のところの認識が難しいようでした。これは、このように「ひらがな」1文字だけが配置されることに、モデルが対応しきれていないような気がしました。 対策として、画像を3つの部分に分割し、それぞれでOCRにかけるようにしてみました。また、認識精度が上がるように、業務用(緑バックの白文字、及び、黒バックの黄色文字)は、ネガポジ反転し、最終的にグレースケール変換することにしました。 AI-OCRで処理しているコードと、それを使っている、全体のコードです。 ocr.py import t

                                                    YOLOv8でナンバープレートを検出してAI-OCRで読み取ってみました。 〜ファインチューニングに使用したデータは、撮影した写真ではなく、Pythonで生成した画像(30,000枚・192,000アノテーション)です〜 | DevelopersIO
                                                  • GitHub - VikParuchuri/surya: OCR and line detection in 90+ languages

                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                      GitHub - VikParuchuri/surya: OCR and line detection in 90+ languages
                                                    • Vertex AI Pipelinesを用いて爆速ML開発の仕組みを構築する #LayerXテックアドカレ - LayerX エンジニアブログ

                                                      こんにちは。LayerXのバクラク事業部で機械学習エンジニアをしている@shimacosです。 最近、体重が増える一方で危機感を感じ始めたので、ダイエットを始めました。 ダイエットを始めて早3ヶ月ほどですが、一向に痩せません。何故でしょう? この記事はLayerXアドベントカレンダー11日目の記事です。 昨日は@upamuneが「Slack × Zapier × MiroでKPTでの振り返りをラクにする」という記事を書いてくれました。 明日は@itkqが、楽しい話を書いてくれる予定です。 はじめに バクラクの機械学習チームでは、AI-OCRという請求書や領収書などの帳票から、仕訳などの経理業務や電子帳簿保存法の要件を満たすための項目を抽出する機能を構築しています。 AI-OCR機能については、以下の資料などで詳しく述べられています。 バクラクでは、ありがたい事に導入社数が順調に伸びており、

                                                        Vertex AI Pipelinesを用いて爆速ML開発の仕組みを構築する #LayerXテックアドカレ - LayerX エンジニアブログ
                                                      • FM TOWNSの時代 - 人生に疲れた男のblog

                                                        とある炎上系Youtuberがアクセス数目的か「PCエンジンの知名度のおかげでNEC製PCが普及した」(注:PCエンジンは8年間でシリーズ機通して通算590万台のマイナー機、たいして当時のNEC製PCはPCエンジン発売以前に市場を席巻)というトンデモ論を上げていることが一部で話題になっていた(炎上でのアクセス数稼ぎが目的だと思うので元URLは貼らない)が、その時に同時に そしてFMタウンズの時代になると家庭用ゲームハードが台頭PCゲーが衰退しました これも常識ですよ・・・ という更にトンデモ話を飛び出していた。FM TOWNSは小学校時代にリアルタイムで触り自分のコンピューティングに多大な影響を与えたPCであり、今でもその情報を残そうとしているが、少なくともFM TOWNSは当時のPC市場では殆ど流通していないマイナーハード、シリーズ機で出荷台数50万台の記録が残っているものの殆どが小中学

                                                          FM TOWNSの時代 - 人生に疲れた男のblog
                                                        • Kindle + DeepLでデザインの名著を自動翻訳して読む|鈴木慎吾 / TSUMIKI INC.

                                                          インタラクションデザインの名著と言われていますが、長らく絶版となっていて中古価格は年々高騰する一方です。なかなか手を出しづらい値段ですが、原著の最新版である以下なら普通の価格で購入できます。 About Face: The Essentials of Interaction Design (English Edition) www.amazon.co.jp この原著を自動翻訳し日本語で読めないかと試してみました。その手順を説明します。 注意事項今回説明する手順は、著作物の複製にあたります。著作権法では「私的使用のための複製」のみ認められており、これを超える目的での複製は著作権法に違反する可能性があります。ご注意ください。 使用環境使用したのは以下の環境です。 Macbook Air Automator(Mac標準搭載の自動処理ソフト) Adobe Photoshop Adobe Acrob

                                                            Kindle + DeepLでデザインの名著を自動翻訳して読む|鈴木慎吾 / TSUMIKI INC.
                                                          • 国立国会図書館(NDL)、OCR処理プログラム「NDLOCR」ver.2を公開

                                                            2023年7月12日に、国立国会図書館(NDL)が、OCR処理プログラム「NDLOCR」のver.2を、NDLラボ公式GitHubで公開しました。 NDLOCRは、NDLがデジタル化した資料から、全文テキストデータを作成することを目的に開発したものです。 2023年4月に公開したver.1が、全文検索用途が主目的の開発であるのに対し、ver.2は、視覚障害者等の読み上げ用途にも利用できるよう、読み上げ順序の推定等の機能の追加や文字認識性能の改善を行っています。 また、ver.2には、2022年度にNDLが外部委託して開発したver.2.0と、2023年4月~6月にNDLが改善作業を実施したver.2.1があります。 NDLOCR ver.2の公開について(NDLラボ, 2023/7/12) https://lab.ndl.go.jp/news/2023/2023-07-12/ NDLOCR

                                                              国立国会図書館(NDL)、OCR処理プログラム「NDLOCR」ver.2を公開
                                                            • バクラクはMLOpsエンジニアを必要としています - LayerX エンジニアブログ

                                                              こんにちは。機械学習チームでソフトウェアエンジニアをしているTomoakiです。 バクラクはMLOpsエンジニアを必要としており、今回はバクラクでMLOpsをやる面白さや現状抱えている課題について紹介します。 バクラクとは bakuraku.jp バクラクは経費精算、稟議申請、法人カード、請求書処理など企業の支出関連業務をAIのサポートで簡易化、効率化するサービス群です。これにより企業は経理業務の労力を大幅に削減することが可能となります。 2021年1月に初のプロダクト「バクラク請求書受取」をリリース。その後は「バクラク申請」「バクラク経費精算」「バクラク請求書発行」「バクラクビジネスカード」「バクラク電子帳簿保存」と半年に1つのペースで新規プロダクトをリリース。現在は6つのプロダクトを提供し、それぞれが企業の経理業務を支援しています。2024年2月にはお陰様で導入社数が10,000社を突

                                                                バクラクはMLOpsエンジニアを必要としています - LayerX エンジニアブログ
                                                              • ​​保険業界のDXとは?デジタル化の課題とDXの成功事例3選をご紹介​

                                                                ​​保険DXとは、AIやIoT、ビッグデータなどのテクノロジーと保険を融合させ、保険商品やビジネスモデルを変革することです。現在、保険業界は、お金に関する情報を扱う関係からさまざまなしがらみを持ちつつも、大きく変化する市場で生き残っていくために保険DXの推進を強く求められています。本記事では保険業界でDXが必要とされる背景や推進するメリット、保険DXの成功事例などを紹介します。​ 保険DXとは​ ​DXとは、​​​​デジタル技術やAI技術、データなどを駆使して、従来のビジネスモデルを見直し、変革することを言います。​​DXの推進により、業務効率化や質の高い顧客体験の創出が実現します。市場変化が激しい保険業界で生き残っていくためには、多様化する顧客ニーズにいち早く対応していかなければなりません。​ ​​保険業界におけるDXの方向性は、大きく分けて次の3つに分類できます。​ ​​業務効率化​

                                                                  ​​保険業界のDXとは?デジタル化の課題とDXの成功事例3選をご紹介​ 
                                                                • 道の駅「織部の里もとす」で柿を大量に、谷汲山華厳寺参道で焼き栗を買った - 💙💛しいたげられたしいたけ

                                                                  週一か二週間に一度、実家の様子を見に行っている。春秋の気候のいい時季には、高齢の身内の無聊をまぎらわすため車で連れ出している。 先週の関連拙記事には、出先で柿とアユの甘露煮を買ったが身内は次に「焼き栗が食べたい」と言い出したことを書いた。 www.watto.nagoya やれやれと思いつつ口に出さず、ネットで検索すると近場では谷汲山華厳寺の参道に栗を扱う店があり、焼き栗も売っているという情報がヒットした。 個人ブログです。もし何らかの形で通知が飛んだら、お騒がせ失礼します。 takarog.com 実家から華厳寺へのルートは何通りかあるが、主に国道157号一名「淡墨街道」を通る経路を選択した。そうすると沿道に「道の駅 織部の里もとす」がある。ここはシーズンには大量の柿が並ぶ。地元の名産なのだ。 身内が「寄りたい」と言った。内心「柿は先週買ったでしょ?」と思ったが、言わなかった。 いつもこ

                                                                    道の駅「織部の里もとす」で柿を大量に、谷汲山華厳寺参道で焼き栗を買った - 💙💛しいたげられたしいたけ
                                                                  • AnthropicのClaude 3 OpusのVision機能を日本語OCRとして使ってみる

                                                                    今月4日、AnthropicがClaude 3を発表しました。Anthropicの発表している評価結果では、OpenAI GPT-4やGoogleのGemini 1.0 Ultraを上回る高い性能を示しています。私もClaude 3 Sonnetを使って、翻訳やテストケース作成などの作業をいくつかやってもらいましたが、私の体感でもGPT-4と同等かそれを上回る高い性能だと感じました。 最近の生成AIは画像認識系機能を組み込んでおり、Claude 3もVision機能が提供されています。具体的には写真やグラフ、図などを読み込んで処理する用途が想定されているそうです。 私は以前から、「Azure Computer Vision APIの日本語OCR機能を使ってみる」、「Google Cloud Vision APIの日本語OCR機能を使ってみる」、「OpenAIのGPT-4 Turbo wit

                                                                      AnthropicのClaude 3 OpusのVision機能を日本語OCRとして使ってみる
                                                                    • 最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに

                                                                      Google / Alphabet CEO Sundar Pichaiからのメッセージ すべてのテクノロジーの変化は、科学的探求を前進させ、人類の進歩を加速し、生活をより良くする機会となります。いま目の当たりにしている AI による変化は、私たちの人生で最も意味深いものになると確信しています。これは、これまでのモバイルやウェブへの移行よりも、はるかに大きなものになるでしょう。AI は、日常から非日常に至るまで、あらゆる場所の人々に機会を生み出す可能性を秘めています。AI は、イノベーションと経済発展の新たな波をもたらし、これまでにない規模で知識、学習、創造性、生産性を高めます。 世界中のあらゆる場所で、あらゆる人に AI を役立てられることが、私がとてもワクワクしている理由です。 私たちが AI ファーストを掲げ取り組みを開始してから 8 年近くが経ちますが、進化の速度はより一層早くなって

                                                                        最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに
                                                                      • 情報セキュリティマネジメントの文書はChatGPTで作れる ホワイトハッカーが教える、AIが生成した文章の「弱点」の補い方

                                                                        連日さまざまなサイバーセキュリティ犯罪のニュースが報じられる中、いまだに日本のセキュリティレベルの弱い箇所が存在します。一方で、企業がサイバーセキュリティ対策を進める上では、人材予算の不足や経営層の意識・関心、コスト、導入による利便性の低下など、さまざまな壁が立ちはだかっています。 そこで今回は、株式会社網屋が主催する「Security BLAZE 2023」より、サイバーセキュリティのエキスパートによる講演をお届けします。本記事では、一般社団法人日本ハッカー協会 代表理事の杉浦隆幸氏が、ChatGPTなどの生成AIを使った「情報セキュリティマネジメント」について解説しました。(録画講演のため2023/9/28時点の内容です) 米国のハッキング大会で今年優勝した杉浦隆幸氏が登壇 杉浦隆幸氏:本日は「生成AIを使った情報セキュリティマネジメント」ということで、私、日本ハッカー協会の杉浦がお話

                                                                          情報セキュリティマネジメントの文書はChatGPTで作れる ホワイトハッカーが教える、AIが生成した文章の「弱点」の補い方
                                                                        • 2024年の「AI/機械学習/データ分析」はこうなる! 7大予測

                                                                          昨年2023年は、ChatGPTやGoogle BardなどのチャットAIに注目が集まり、企業やサービスに生成AIが導入されていくなど、大きな変化が一気に起こりました。今年2024年の「AI/機械学習/データ分析/データサイエンス」かいわいはどう変わっていくのか? 現状を踏まえつつ、未来を予測します。 連載目次 2024年が始まりました! 今年もよろしくお願いいたします。2020年/2021年/2022年/2023年に続き、今年も2024年向けの「AI/機械学習/データ分析の予測」をしてみたいと思います。 過去4年間、次の1年を予測してきました。100年後の予測を的中させるのは難しいかもしれませんが、現状を踏まえて1年間の動向を予測することは、それほど難しくないと感じています。昨年2023年は「一般社会で生成AIへの注目が拡大」という予測を立てましたが、まさにそうなり、その予想を超えて生成

                                                                            2024年の「AI/機械学習/データ分析」はこうなる! 7大予測
                                                                          • エムスリーテックブック6:エムスリーエンジニアリンググループ執筆部

                                                                            過去最大ボリューム!!Python難読クイズ、自作LSP、OCR、フルスクラッチして理解するOpenID Connect、機械学習モデル運用、なぜなぜ分析、LLMで作る検索テストコレクション、自作DB、ChatGPTと漫画、医療とIT 技術といった多様な分野・技術について、有志メンバーが執筆いたしました。今回の書籍は今までとは違 い、エンジニアだけでなく、プロダクトマネージャー、デザイナー、マーケティング部門 の方も執筆に参加しております。本書は、読者の皆様に何かしらの刺激や知見を提供することを目的としています。私たちは、この本を通して、新たな視点やアイデア、そして実践的なヒントを提供し、読者の皆様がより豊かなエンジニアリングライフを送るための1つとなることを願っています。 目次 第1章 Welcome to ようこそ Python 難読クイズ沼! 第2章 Go で作って学ぶLSP 第3章

                                                                              エムスリーテックブック6:エムスリーエンジニアリンググループ執筆部
                                                                            • iOS 17/iPadOS 17ではテキスト認識表示機能がアップデートされ、日本語と韓国語, 中国語で縦書きテキストのコピー&ペーストが可能に。

                                                                              iOS 17/iPadOS 17ではテキスト認識表示機能がアップデートされ、日本語と韓国語, 中国語で縦書きテキストのコピー&ペーストが可能になっています。詳細は以下から。 Appleは2021年にリリースした「iOS 15/iPadOS 15」で写真内にあるテキストを抽出し、コピー&ペースト(OCR)できるようにする「テキスト認識表示 (Live Text)」を英語などでサポートし、2022年リリースされた「iOS 16/iPadOS 16」では日本語と韓国語のテキスト認識も追加サポートされましたが、 本日リリースされたiOS 17/iPadOS 17では、テキスト認識表示機能がアップデートされ、日本語と韓国語、中国語(CJK)の縦書きテキストの認識も可能になっています。 Vertical text recognition. Live Text recognizes vertically

                                                                                iOS 17/iPadOS 17ではテキスト認識表示機能がアップデートされ、日本語と韓国語, 中国語で縦書きテキストのコピー&ペーストが可能に。
                                                                              • 所用で岐阜駅まで行ったついでに清水緑地と加納城跡を散策した - 🍉しいたげられたしいたけ

                                                                                お出かけついでの散策の記録である。所用で岐阜駅まで行った。書いちゃうと日雇いバイトだが、派遣会社から守秘義務を課せられているので、そっちの内容は書けない。バイトテロなんか、しないっつーの。 早く終わるかなと思ったら早く終わった。早く終わることは予想されたので、事前にマップで散策できそうなところを探した。駅の北側は今月上旬に粕森公園と梅林公園を見に行ったので、ならば南側という単純な発想で、徒歩圏内にある清水緑地と加納城跡に行ってみた。 www.watto.nagoya 清水緑地。JR岐阜駅の南東側、至近である。小さな公園だが、大昔の個人的な記憶として、小学生のときに入っていた地区の「こども会」の遠足で、なぜか電車に乗って何度かここまで来たことがある。今にして思えば何しに来たのが疑問だが、子どものことで行き慣れないところにみんなで行けば、何かしら遊ぶことはあったのだろう。 ユキヤナギが咲いてい

                                                                                  所用で岐阜駅まで行ったついでに清水緑地と加納城跡を散策した - 🍉しいたげられたしいたけ
                                                                                • NDLOCR ver.2の公開について | NDLラボ

                                                                                  2023年07月12日 NDLラボ公式GitHubから、OCR処理プログラム「NDLOCR」のver.2を公開しました。 NDLOCRは、国立国会図書館(以下「当館」といいます。)がデジタル化した資料から、全文テキストデータを作成することを目的に開発したものです。 令和4年4月に公開したver.1が全文検索用途を主目的に開発したもの(令和3年度OCR処理プログラム開発事業参照)であるのに対して、ver.2では、視覚障害者等の読み上げ用途にも利用できるよう、機能の追加及び認識性能の改善を行っています。 ver.1からの追加機能として、①出力テキストデータの読み上げ順序の推定機能、②漢字の読み方の付与機能、③読み上げ上不要な要素(柱・ノンブル)の除去機能、④広告領域内の文字の読み取り機能を有しています。 合わせて、当館が今後デジタル化及びテキスト化をする資料の出版年代を考慮し、特に1960年代