並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 301件

新着順 人気順

OCRの検索結果41 - 80 件 / 301件

  • 職種担当別「すぐに試せるChatGPTのユースケース」 アルプが教える、生産性を上げる活用事例

    ChatGPTはコーポレートITの仕事をどう変えるのか、どんな向き不向きがあるのか、ChatGPTを織り込んだ上での組織戦略をどう考えればいいのかを考える、Darsana・AnityA主催の「ChatGPTの時代に『コーポレートIT部門』はどう生きるべきか——変化をチャンスに変える方法とは」。ここでアルプ株式会社の山下氏が登壇。ここからは、ChatGPTのユースケースについて話します。前回はこちらから。 ヘルプデスク向けのユースケース 山下鎮寛氏:ここまで非常に長い間、前段を話したんですが、ここからいよいよユースケースの紹介というところで、今回は実際にアルプが利用している、もしくは検証をした、すぐに試せるChatGPTのユースケースを紹介します。 APIを組み込んでしっかりやるという部分についても非常に有意義なユースケースはあるんですが、時間的になかなか説明が難しかったり、技術的な内容も多

      職種担当別「すぐに試せるChatGPTのユースケース」 アルプが教える、生産性を上げる活用事例
    • NPU不要で「ReCall」機能をWindows・Mac・Linuxで再現するツール「OpenRecall」が登場

      Microsoftは、Snapdragon X Eliteなどの高性能NPUを搭載してAIの実行に適したPC「Copilot+ PC」向けに、PC上で見たものや行ったことをすべて記録して後から検索できる機能「Recall」をリリースすると発表しました。このRecall機能を、NPUを搭載していないPCで再現するオープンソースのツール「OpenRecall」が公開されています。 GitHub - openrecall/openrecall: OpenRecall is a fully open-source, privacy-first alternative to proprietary solutions like Microsoft's Windows Recall. With OpenRecall, you can easily access your digital history

        NPU不要で「ReCall」機能をWindows・Mac・Linuxで再現するツール「OpenRecall」が登場
      • 最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに

        Google / Alphabet CEO Sundar Pichaiからのメッセージ すべてのテクノロジーの変化は、科学的探求を前進させ、人類の進歩を加速し、生活をより良くする機会となります。いま目の当たりにしている AI による変化は、私たちの人生で最も意味深いものになると確信しています。これは、これまでのモバイルやウェブへの移行よりも、はるかに大きなものになるでしょう。AI は、日常から非日常に至るまで、あらゆる場所の人々に機会を生み出す可能性を秘めています。AI は、イノベーションと経済発展の新たな波をもたらし、これまでにない規模で知識、学習、創造性、生産性を高めます。 世界中のあらゆる場所で、あらゆる人に AI を役立てられることが、私がとてもワクワクしている理由です。 私たちが AI ファーストを掲げ取り組みを開始してから 8 年近くが経ちますが、進化の速度はより一層早くなって

          最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに
        • マイナンバーカードの機能が多すぎる!|MORIDaisuke

          デジタル社会のパスポートとも呼ばれるマイナンバーカードは、対面・オンラインでの本人確認を行うための様々な機能を有しています。 私は公共業界でデジタルアイデンティティに関する仕事をしているのですが、マイナンバーカードは調べても調べても知らない機能が出てきて、いまだに全容を把握しきれていませんでした。 そろそろちゃんと整理して理解しなければと思いまして、自分用のメモとして公開情報を調べながら、このnoteにとりまとめていきます。 おことわりこのnoteは私が個人的に調査した公開情報をまとめたものです。業務上知り得た秘密情報や非公開情報は含んでおりません。 マイナンバーカードの仕様理解については素人に毛が生えたレベルですので、抜け漏れや誤りがあったら優しく教えていただけると嬉しいです。 予想よりも機能が多すぎて、かなり長い記事になってしまいました。斜め読み、読み飛ばし推奨です。 今回は物理カード

            マイナンバーカードの機能が多すぎる!|MORIDaisuke
          • 電卓を作らない|mri

            LayerX バクラク事業部でプロダクトのデザインを担当しています森です。 バクラク事業部では、法人の支出管理にまつわる、アナログな業務を効率化するプロダクト群を提供しています。 そのサービスのコアとなる技術の一つがOCRで、請求書や領収書などの情報を読みとり、今まで目視で確認、手入力していた業務を自動化するなどしています。 OCRで読み取られた請求書の情報は、入力フォームに自動的に入力される。バクラクのOCRの精度はかなり高いものですが、100%とはいかないため、読み取った他の金額を入力候補として表示することで、簡単に訂正できるようにしています。 金額の入力フォームでは、OCRで読み取った他の金額を入力候補として選択することができる。また、他の金額入力フォームでも利用することができるので、仕訳作業においては手入力を極力減らしています。 この機能は好評だったのですが、「計算機能が欲しい」と

              電卓を作らない|mri
            • GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics

              こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。 検証では、日本語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。 また、手書き・活字での違いも見ていきましょう。 一番簡単に試せるChatGPT(Web版)でOCRをさせようとするとエラーになることが多かったので、 ここではAPIを使っていくこととします。 APIを呼び出すプログラム 以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。 画像は個人のgithu

                GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
              • 無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する

                CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

                  無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する
                • ScanSnapのGoogleDrive連携で学校のプリントを管理する - 日直地獄

                  学校、保育園のプリント管理のためにScanSnapを導入した。捨てにくく山積みになる問題を解決したかった。実際、結構解決している感じがあってめでたい。タイトルはAIに考えてもらいました。 買ったのはこれ。 富士通 PFU ドキュメントスキャナー ScanSnap iX1300 (最新/高速毎分30枚/両面読取/Uターンスキャン・リターン スキャン対応/Wi-Fi対応/USB接続/コンパクト/書類/レシート/名刺/写真) (White) ScanSnapAmazon 困りごと 良いとこ・悪いとこ プリントのチェック管理 困りごと 世の中にはこの悩みはよくあって、プリント管理アプリは結構あるっぽい。が、スマホで撮影する前提みたいなところがあって(自分調べ)、上手く撮りにくく時間がかかる上に全部自分でやらないといけない(子供にやらせられない)のがめんどくさい。 調べてみると最近の ScanSna

                    ScanSnapのGoogleDrive連携で学校のプリントを管理する - 日直地獄
                  • Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ

                    初めまして。機械学習エンジニアの島越@nt_4o54です。現在はMLチームで日々、バクラクシリーズで用いられているAI-OCR機能の改善や新規機能の開発などを行なっています。 7月はLayerXエンジニアブログを活発にしよう月間ということで、自分からは表題にもある通り、「Document AI」と呼ばれる技術についての紹介と、またLayerXにおいてどういう応用先があるのかというお話をさせていただこうと思います。 ※ 同名のDocument AIというGCPのサービスがありますが、今回は一般的なDocument AIの話になります。 Document AIとは Document AIに用いられる技術 Optical Character Recognition (OCR) Document Classification Layout Analysis Document Parsing Tab

                      Document AIを巡る技術とLayerXにおける可能性 - LayerX エンジニアブログ
                    • GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita

                      概要 食事のカロリー推定は非常に困難なタスクでした。 一般的なアプローチとしては、物体検知modelをfine-tuningし、料理画像から個々の料理の領域を判定することでカロリーを推定してきました。 GPT-4oを利用するとそのへんを飛ばして、いきなりカロリーが推定できます。精度の面では劣ると考えられますが、実装の容易さと未知のクラス (学習データセット内に含まれない料理) への対応を考えると、十分に利用価値があると思われます。 今回の記事では、実際のデモも紹介しているのですぐ利用することができます。 早速結果を見てみよう デモ 実装 カロリー推定 json-mode で処理をさせます。step-by-stepに推論を処理させるために、最初に雑な推論を記述させてから、各食品のカロリー量を推定させています。 # GPT-4にカロリーを推定させる (JSON-MODE) response =

                        GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita
                      • LLMベースの新しい言語『SUQL』が示唆する「非構造化データのクエリ」を処理するパラダイム | AIDB

                        スタンフォード大学の研究者たちは、新しいプログラミング言語『SUQL』(Structured and Unstructured Query Language)を開発しました。 この言語は、SQL(Structured Query Language)の概念を拡張し、非構造化データのクエリ処理を可能にする新しいパラダイムを導入しています。構造化データ(例えばデータベース内のデータ)と非構造化テキストデータ(自由形式のテキストなど)の両方を処理する能力を持つ初めての言語として位置づけられています。 『SUQL』の開発は、データソースをより効果的に活用するための手法を模索する研究の一環です。従来の技術では、構造化データと非構造化データを一元的に処理することには課題がありました。 大規模言語モデル(LLM)に基づくプロンプトコンポーネントで構成される『SUQL』は、今後の開発トレンドを牽引する研究と

                          LLMベースの新しい言語『SUQL』が示唆する「非構造化データのクエリ」を処理するパラダイム | AIDB
                        • Claude 3.5 Sonnet の評価に関する備忘録 - Algomatic Tech Blog

                          こんにちは。Algomatic NEO(x) の宮脇(@catshun_)です。 本記事では弊社 podcast の「Algomaticで話題になった生成AIニュースまとめ」という回で用意している会話ネタの一つとして "Claude 3.5 Sonnet Model Card Addendum" を読んだので、その備忘を共有いたします。 なお概要については npaka 氏の以下の note 記事が参考になりますので、本記事の前にこちらを参照いただくことをおすすめします。 note.com おことわり 解釈や引用に誤りがありましたらご指摘いただけると幸いです。 本記事では詳細な解説を含みません。詳細な調査等は必ず参照元の論文等をご確認ください。 引用時の名称や図は原則として引用先の媒体で記述されているものに従っています。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 本

                            Claude 3.5 Sonnet の評価に関する備忘録 - Algomatic Tech Blog
                          • 「PowerToys」のOCR機能が表(テーブル)の読み取りに対応 ~v0.74がリリース/Microsoftがパワーユーザー向けに提供している無償ツール集

                              「PowerToys」のOCR機能が表(テーブル)の読み取りに対応 ~v0.74がリリース/Microsoftがパワーユーザー向けに提供している無償ツール集
                            • AI導入で企業が挫折するのはなぜ?―AI「以外」の壁にどう立ち向かうか|Dory

                              はじめにこんにちは、Doryと申します! あらゆる業務をAIエージェントで変革するべく、Algomaticという生成AIスタートアップで自社サービス開発や法人向けのAI導入支援に取り組んでいます。 この記事では、AI技術を現場の実業務に導入しようとしたとき、企業が高確率でぶつかる「3つの壁」について、自身の経験も交えて記載していきます。 【この記事には何が書いてある?】 ・AI技術を使って業務を変革しようとするとき、必ずぶつかるのは「AI以外」の壁であること ・3つの壁を乗り越えなければ、AIによる業務改革は進まないということ 【この記事の想定読者】 ・AIを自社にも取り入れたいと考えている経営者の方 ・AIの社内推進がミッションの、いわゆる「AI推進室・DX推進室」の方 ・その他、AIの力で自社を変えたい!と考えている方 以下、本文では簡単のため「AI」という表現を多用しておりますが、具

                                AI導入で企業が挫折するのはなぜ?―AI「以外」の壁にどう立ち向かうか|Dory
                              • 「古い言語やレガシーシステムに対してのインパクトは大きい」 ChatGPT時代における基幹システムのあり方の変化

                                ChatGPTはコーポレートITの仕事をどう変えるのか、どんな向き不向きがあるのか、ChatGPTを織り込んだ上での組織戦略をどう考えればいいのかを考える、Darsana・AnityA主催の「ChatGPTの時代に『コーポレートIT部門』はどう生きるべきか——変化をチャンスに変える方法とは」。登壇者鼎談ではアルプ株式会社の山下氏と相野谷氏、株式会社 AnityAの中野氏が登壇。まずは、ChatGPTがコーディングなどの実装系へ与える影響について話します。 相野谷氏の自己紹介 中野仁氏(以下、中野):今回はディスカッションなので、後半は(ChatGPTが)自分たちのキャリアとかにどんなふうに影響があるのかなみたいな話をつまんで話していきたいなと思います。 ちなみに、後半は相野谷さん(相野谷直樹氏)を加えた3名でお届けします。相野谷さんはScalebaseのシニアエンジニアです。最初に(相野谷

                                  「古い言語やレガシーシステムに対してのインパクトは大きい」 ChatGPT時代における基幹システムのあり方の変化
                                • 米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表 GPT-4V越えの性能

                                  このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 米Appleに所属する研究者らが発表した論文「Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs」は、iPhoneやAndroidなどのモバイルUI画面をより深く理解し、インタラクションできるように設計されたマルチモーダル大規模言語モデル(MLLM)を提案した研究報告である。 Ferret-UIは、モバイルUIの画面上で、多様な入力形式(点、ボックス、スケッチ)を用いて参照タスク(ウィジェット分類、アイコン認識、OCRなど)を実行し、グラウンディングタスク(ウィジェット検索、

                                    米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表 GPT-4V越えの性能
                                  • GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB

                                    ★AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。 Googleは、非構造化文書(例えばレシートなど)から高精度にテキストを抽出するOCR(Optical Character Recognition)技術『LMDX(Language Model-based Document Information Extraction and Localization)』を発表しました。この技術は、特にGoogleの大規模な言語モデル「Bard」と、Google DriveやGmailなどのサービスとの連携をさらに強化する可能性もあります。 参照論文情報 タイトル:LMDX: Language Model-based Document Information Extraction and Localization 著者:Vincent Perot, K

                                      GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB
                                    • 昼は終わらない事務作業、夜は膨大な書類整理 約1.8万時間の工数削減に成功した、市役所職員の苦労と工夫

                                      サイボウズ株式会社が主催する「Cybozu Days 2023」。同イベントでは、全国のkintoneのユーザーのなかから選ばれたファイナリストたちが活用事例を発表する、「kintone hive tokyo vol.18/kintone AWARD」が行われました。本記事では、北九州市役所 保健福祉局の井上望氏が、コロナ禍で挑んだ膨大なバックオフィス業務の効率化について語りました。 コロナ禍に対応した、市役所職員の実体験 井上望氏(以下、井上):みなさん、どうもこんにちは。今日はこの話を聞きに来ていただき、ありがとうございます。それではご説明いたします。北九州市役所の中の保健所の話になります。押し寄せるコロナの波の中、保健所がどのように変わっていったかをお話しさせていただきます。 まずは自己紹介になります。私は北九州市の係長をしております、井上と申します。実は昔からパソコンなどでシステム

                                        昼は終わらない事務作業、夜は膨大な書類整理 約1.8万時間の工数削減に成功した、市役所職員の苦労と工夫
                                      • LLM時代におけるAI-OCR機能の開発戦略 / layerx-bakuraku-ocr-llm-lt-2024

                                        2024年1月24日 【オフライン限定開催】注目AIテックカンパニー4社が集うLT新年会〜LLM活用のリアルを語る〜(https://lapras.connpass.com/event/305577/) における発表資料です。

                                          LLM時代におけるAI-OCR機能の開発戦略 / layerx-bakuraku-ocr-llm-lt-2024
                                        • TOPPANの古文書解読アプリ、学習データ追加で解読精度が向上

                                          古文書カメラは、スマートフォンで撮影したくずし字資料をAI-OCR技術で手軽に解読可能な無料アプリ。今回のアップデートでは学習データの追加とAI-OCRモデルの刷新を行い、100枚程度のサンプルでフルオート処理をした場合の精度を計測したところ、とくに手書きの古文書に対して大幅な解読精度の改善が認められたという。 あわせて、さまざまな条件下で撮影した画像に対応できるよう画像編集機能を追加。斜めから撮影した画像の補正する「台形補正」、シミやノイズなどを軽減する「ノイズ除去」、余分な画像を除去する「トリミング」、資料画像を回転できる「角度補正」、モノクロ状態で白黒を反転する「白黒反転」を利用できる。また、これまでの1日あたり10回だった解読機能の利用回数を30回に増加させた。利用回数は毎日0時にリセットされる。 関連記事 Pixel Foldの「デュアルスクリーン通訳モード」が日本でも利用可能に

                                            TOPPANの古文書解読アプリ、学習データ追加で解読精度が向上
                                          • 「OneNote」に統合された新しい「付箋」アプリ、すべてのユーザーが利用可能に/スクリーンショット、OCR(画像のテキスト認識)、ソースURLの自動追加などに対応

                                              「OneNote」に統合された新しい「付箋」アプリ、すべてのユーザーが利用可能に/スクリーンショット、OCR(画像のテキスト認識)、ソースURLの自動追加などに対応
                                            • AIエンジニアがいない中でLLMとどう向き合ったか 自社プロダクトへのAI導入で得た、4つの学び

                                              登壇者の自己紹介とアジェンダ紹介 金岡亮氏:みなさんこんばんは。「LLMからはじめる、プロダクトへのAI導入」というタイトルで発表いたします。私たちSmartHRは「従業員サーベイ」というプロダクトを提供しており、その中で「要約AI」というLLMを使ったサービスをプロダクトとして出しています。これをリリースするまでにどんなことをやってきたのかというお話ができればと思っています。 私は金岡と申します。私はふだん、プロダクトマネージャーをしており、弊社のタレントマネジメント系のプロダクトを複数見ています。今年に入ってからLLM利用のタスクフォースや、AI活用のR&Dの組織を立ち上げています。前職では、AIの受託系の会社でプロジェクトマネージャーをしたり、データアナリストをしていました。 今日のアジェンダですが、機能リリース前のお話と機能リリース後のお話。あとは4つ学びと今後の展望というかたちで

                                                AIエンジニアがいない中でLLMとどう向き合ったか 自社プロダクトへのAI導入で得た、4つの学び
                                              • 数学的性能で世界1位の評価を記録した、数学特化の生成AIモデル「MathGPT」においてMathpresso, Inc.が日本語完全対応版の開発着手を発表

                                                数学的性能で世界1位の評価を記録した、数学特化の生成AIモデル「MathGPT」において、Mathpresso, Inc.が日本語完全対応版の開発着手を発表 2024年3月29日、アジア最大のAIベース学習プラットフォームQANDAの運営会社であるMathpresso社は、数学的性能で世界1位の評価を記録した、数学特化の生成AIモデル「MathGPT」において、日本語完全対応版の開発着手を発表した。Mathpresso社は、Google、TikTok、ソフトバンクベンチャーズアジアとの資本提携を結び、50カ国以上で9000万人以上の登録ユーザーを集めるグローバルEdTech企業である。日本では、Mathpresso社の運営する質問応対サービス「QANDA」がアプリダウンロード数で学習アプリ部門、第1位を獲得するなど、中学・高校生の学習アプリとして定着している。今後、既に提携を進めている日本

                                                  数学的性能で世界1位の評価を記録した、数学特化の生成AIモデル「MathGPT」においてMathpresso, Inc.が日本語完全対応版の開発着手を発表
                                                • LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ

                                                  こんにちは!LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。 みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。 tech.layerx.co.jp ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。 comemo.nikkei.com AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩

                                                    LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ
                                                  • macOSのVisionフレームワークでOBSの映像からテキストを抽出するWebSocketプロキシ - 詩と創作・思索のひろば

                                                    激安HDMIキャプチャーボードを買ってから、ときどきゲームプレイの録画・配信をしている。OBS Studioというソフトウェアがデファクトらしく、自分もこれを使っている。 便利なことにOBSにはWebSocketで操作できるインタフェースがあり、JavaScriptやPythonからかなり自由に操作することができる。となればソフトウェアエンジニアとしてはプレイログを構造化して残したいわけ。 WebSocket経由でスクリーンショットも随時取得できるので、画像を分析することでたとえばシーン判定はできるが、さらに詳細な情報を取ろうとするとテキスト情報もほしい。クラウドサービスなどに金をかけずに手軽にやるならTessaract一択となるが、素晴らしいソフトウェアではあるものの期待する精度を出すには工夫がいりそう。具体的には、ポケモンの名前は日本語だけでなく中国語の場合もある(左下の「古劍豹」)。

                                                      macOSのVisionフレームワークでOBSの映像からテキストを抽出するWebSocketプロキシ - 詩と創作・思索のひろば
                                                    • 文化審議会著作権分科会法制度小委員会(第5回) | 文化庁

                                                      配布資料 資料 AIと著作権に関する考え方について(素案)(365KB) 参考資料1 第23期文化審議会著作権分科会法制度小委員会委員名簿(115KB) 参考資料2 生成AIに関するクリエイターや著作権者等の主な御意見(199KB) 参考資料3 法30条の4と法47条の5の適用例について(第4回法制度小委員会配布資料)(412KB) 参考資料4 論点整理―これまでの議論の振り返り―(案)(第4回AI時代の知的財産検討会配付資料)(7.7MB) 参考資料5 広島AIプロセス等における著作権関係の記載について(579KB) 参考資料6 文化審議会著作権分科会法制度小委員会 開催実績及び今後の進め方(予定)(123KB) 議事内容 【茶園主査】それでは、定刻になりましたので、ただいまから文化審議会著作権分科会法制度小委員会(第5回)を開催いたします。 本日は御多忙の中、御出席いただきまして、誠に

                                                      • キャプチャー画像をOCRで素早くテキスト化 いざというとき便利なSnipping Toolの活用法【Windows 11】

                                                        Snipping Toolの便利な機能を紹介 Windows 11の標準スクリーンキャプチャーツール「Snipping Tool」には、スクリーンキャプチャーや画面の録画をするだけでなく、ちょっとした編集も可能になっている。本Tech TIPSでは、いつの間にか追加された「OCR機能」と「墨消し機能」の2つの使い方を紹介しよう。 Windows 11でスクリーンキャプチャーを撮る場合、[Windows]+[Shift]+[S]キーを使っている人も多いのではないだろうか。[Windows]+[Shift]+[S]キーを押すと、Windows 11の標準スクリーンキャプチャーツール「Snipping Tool」が呼び出される。このツールは、着々と進化しており、単純にスクリーンキャプチャーや画面の録画をするだけでなく、ちょっとした編集も可能になっている。 本Tech TIPSでは、「Snippi

                                                          キャプチャー画像をOCRで素早くテキスト化 いざというとき便利なSnipping Toolの活用法【Windows 11】
                                                        • Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ

                                                          はじめに こんにちは。バクラク事業部 機械学習チームの機械学習エンジニアの上川(@kamikawa)です。 バクラクではAI-OCRという機能を用いて、請求書や領収書をはじめとする書類にOCRを実行し、書類日付や支払い金額などの項目内容をサジェストすることで、お客様が手入力する手間を省いています。 書類から特定の項目を抽出する方法は、自然言語処理や画像認識、近年はマルチモーダルな手法などたくさんあるのですが、今回は項目抽出のための物体検出モデルを構築するまでの手順について紹介します。 Document Layout Analysisとは Document Layout Analysisとは、文書のレイアウトを解析するタスク(直訳)のことを指します。具体的には、文書内のさまざまな要素(例えば、テキスト、画像、表、見出し、段落など)を抽出し、それぞれの位置や意味などを明らかにすることを目的とし

                                                            Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ
                                                          • アノテーションにおけるUIの工夫 - CADDi Tech Blog

                                                            こんにちは、MLOpsチームです。先日OCRモデルを学習するためのアノテーションにおいて、作業効率を検証するためのPoCとしてアノテーションUIを開発しました。本記事ではこのアノテーションUIにおける工夫について、試用によって得られた知見をまじえつつ紹介します。 はじめに アノテーションUIを開発することとなった背景について説明します。 アノテーションUIとは アノテーションUIは機械学習の学習データを作成するためのUIです。アノテーションUIはアノテーション作業の効率に強く影響し、アノテーション作業によって得られる学習データの量は機械学習の精度に大きく寄与します。したがって、アノテーションUIは機械学習において最も重要なコンポーネントのひとつといえます。 UIを開発した背景 キャディではOSSツールなどのUIを用いてアノテーションが行われていましたが、ここに独自の工夫を導入すれば入力効率

                                                              アノテーションにおけるUIの工夫 - CADDi Tech Blog
                                                            • バクラクのAI-OCRが扱う問題の複雑さ - LayerX エンジニアブログ

                                                              こんにちは。 LayerXのバクラク事業部 機械学習チームのテックリードを務めております機械学習エンジニアの島越(@nt_4o54)です。 最近、カジュアル面談や学会などで「AI-OCRってもうほぼ完成で、運用フェーズですよね」「やることあるんですか?」など頻繁に聞かれることがあります。 「いやいや課題が山のようにあるんです」という話をいつもしているので、今回は我々が作っているAI-OCRがどれだけ複雑で難しい問題を扱っているか、という部分についてお話しさせていただければなと思います。 少し、経理ドメインの話が多く恐縮ですが、お付き合いいただけると嬉しいです。 AI-OCRについて AI-OCRが扱う問題の複雑さ ドメインへの深い理解が必要 同じ書類であってもコンテキストによって抽出したい値が異なる まとめ 最後に AI-OCRについて まず、そもそも弊社のバクラクで提供しているAI-OC

                                                                バクラクのAI-OCRが扱う問題の複雑さ - LayerX エンジニアブログ
                                                              • 基本概念から理解するAzure AI Search - Azure OpenAI Serviceとの連携まで - 電通総研 テックブログ

                                                                こんにちは。XI 本部AIトランスフォーメーションセンター所属の山田です。 先日、部内の勉強会でAzure AI Searchについて紹介したので、テックブログでもその内容を紹介したいと思います。 Azure AI Searchとは? Azure AI Searchに保存されるデータに関する用語と概念 Azure AI Searchのスケーラビリティに関する用語と概念 Azure AI Searchでサポートされる検索の仕組み 全文検索について Azure AI Searchのアナライザー ベクトル検索について ベクトルの近傍検索アルゴリズム ハイブリッド検索 検索インデックスのスキーマ設計 検索インデックスにドキュメントを追加する方法 Pushモデル Pushモデルを利用する場合のアーキテクチャの例 Pullモデル Pullモデルを利用する場合のアーキテクチャの例 インデクサーの計算リソ

                                                                  基本概念から理解するAzure AI Search - Azure OpenAI Serviceとの連携まで - 電通総研 テックブログ
                                                                • Claude3.5の新機能!Artifacts:Claudeとの新しい対話方法 – 完全ガイド - Sun wood AI labs.2

                                                                  はじめに みなさん、こんにちは!今日は、AI技術の世界に革命を起こす新機能「Artifacts(アーティファクツ)」について、わかりやすくお話ししていきます。Claudeという人工知能と、より効果的に協力して作業ができるようになる、とてもワクワクする機能なんです。 Artifactsとは何か? 簡単な説明 Artifactsは、Claude.aiで導入された新機能です。ユーザーがClaudeに何かを作ってもらう時、その成果物を会話とは別の専用ウィンドウで見ることができます。つまり、会話しながら同時に作品を見て編集できる、そんな魔法のようなツールなんです。 Artifactsの主な特徴 リアルタイムの表示: Claudeが作った内容をすぐに見ることができます。 編集可能: 表示された内容を自由に編集できます。 作業の継続性: 一度作ったものを基に、さらに改良を加えていけます。 Artifac

                                                                    Claude3.5の新機能!Artifacts:Claudeとの新しい対話方法 – 完全ガイド - Sun wood AI labs.2
                                                                  • 超軽量版Windows 10の最新版「Ttny10 23H2」がリリース | ソフトアンテナ

                                                                    Windows 10やWindows 11はあまりコンパクトなOSではなく、ハードウェアの最小要件として少なくとも20GBの空きディスク容量が必要だと定められています。安価なデバイスや仮想マシンでの実行は難しく、問題を解決するために公式OSを軽量化した「tiny10」や「tiny11」が開発されました。 今回、プロジェクトの作成者@NTDEV氏が、tiny10の最新版「tiny10 23H2」をリリースしています。 tiny10 23H2は旧バージョンに存在した複数の「厄介な問題」を解決していて、新しいツールでtiny10を再構築することによって、ほとんどのWindowsコンポーネントとの互換性が改善しています。Windows Media Playerなどの追加機能を必要なときにいつでもインストールできるようになり、.NET Framework 3.5が再び完全に機能するようになっています

                                                                      超軽量版Windows 10の最新版「Ttny10 23H2」がリリース | ソフトアンテナ
                                                                    • 社会課題解決のアイデアはあるがエンジニアはほぼいない… 正社員のエンジニアを10倍にしたスタートアップの組織づくり

                                                                      CO2排出量見える化・削減・報告クラウドサービス「アスエネ」 司会者:アスエネ、VP of Engineering、石坂達也さまです。持ち時間は6分間です。ご準備よろしいでしょうか? 石坂達也氏(以下、石坂):はい、お願いします。 司会者:それでは、お願いします。 石坂:アスエネの石坂です。「急成長プロダクトを支えるエンジニア組織づくり」についてお話しします。 初めに、みなさんは自社のCO2排出量を把握していますか? 日本は2050年に、温室効果ガスの排出を実質ゼロにする社会の実現を目指しています。こういった流れもあり、企業はCO2排出量を削減しなければならず、その手前となる見える化が急務になっています。 しかし、見える化だけを切り取っても、データの収集、CO2の計算方法、報告書の作成など、多くの課題が存在します。こういった課題を解決するために、我々はCO2排出量見える化・削減・報告クラウ

                                                                        社会課題解決のアイデアはあるがエンジニアはほぼいない… 正社員のエンジニアを10倍にしたスタートアップの組織づくり
                                                                      • 世界5,000万ユーザーを突破「TimeTree」が語る「ユーザーの課題」を軸にプロダクトを運営する方法。サブスク課金率2.5倍など3つのアプリ成功施策。|アプリマーケティング研究所

                                                                        世界5,000万ユーザーを突破「TimeTree」が語る「ユーザーの課題」を軸にプロダクトを運営する方法。サブスク課金率2.5倍など3つのアプリ成功施策。 TimeTreeさんを取材しました。 株式会社TimeTree  CPO 吉本 安寿さん、マーケティング/PdM 小川 秀星さん、データアナリスト/PdM 古賀 旺人さん「TimeTree」について教えてください。吉本: 予定の共有や相談ができる、カレンダーシェアアプリです。登録ユーザー数は、世界では5,000万人、日本では2,300万人に到達しています。 基本は家族や恋人といった「親密な間柄」で利用されることが多くて、家族は60%ほど、恋人は10%ほどが占めています。 1番課題として深いのは「家族の利用」で、とくにお子さんのいる家庭では子どもの予定を共有するため、予定作成数がとても多くなりますね。 78億件の予定データが登録されている

                                                                          世界5,000万ユーザーを突破「TimeTree」が語る「ユーザーの課題」を軸にプロダクトを運営する方法。サブスク課金率2.5倍など3つのアプリ成功施策。|アプリマーケティング研究所
                                                                        • OCR PDFs and images directly in your browser

                                                                          This tool runs entirely in your browser. No files are uploaded to a server. It uses Tesseract.js for OCR and PDF.js to convert PDFs into images. Language: Drag and drop a PDF, JPG, PNG, or GIF file here or click to select a file

                                                                          • Evernoteとは何だったのか。文筆家が「気楽なメモツール」を総括 - まぐまぐニュース!

                                                                            手軽さや使い勝手の良さから、多くの人が利用するEvernote。「最高のメモアプリ」を謳うツールですが、文筆家の倉下忠憲さんは近々自身の「主要なツール」から外そうと目論んでいるといいます。そんな倉下さんはメルマガ『Weekly R-style Magazine ~読む・書く・考えるの探求~』で今回、脱Evernoteを真剣に考えることになったきっかけを記すとともに、その利点を解説する形でEvernoteを「総括」しています。 Evernoteの何がよかったのか 本格的にEvernoteを「主要なツール」から外そうと目論んでいます。 そうしたときに、単にEvernoteのデータを別のツールに移して一件落着とするのはちょっともったいないものです。むしろこのタイミングで「Evernoteとは何だったのか」を考えるのが機会の使い方としては有用でしょう。 それに、私は常々ネットでは新しい話題に飛びつ

                                                                              Evernoteとは何だったのか。文筆家が「気楽なメモツール」を総括 - まぐまぐニュース!
                                                                            • Professional Machine Learning Engineer試験対策マニュアル - G-gen Tech Blog

                                                                              G-gen の佐々木です。当記事では Google Cloud(旧称 GCP)の認定資格の一つである、Professional Machine Learning Engineer 試験の対策や出題傾向について解説します。 基本的な情報 Professional Machine Learning Engineer とは 難易度 試験対策 機械学習の一般的な知識 代表的な機械学習アルゴリズム 評価指標 回帰問題における評価指標 分類問題における評価指標 ヒューリスティック 機械学習モデルの開発、運用における課題の解決 データの前処理 欠損値の処理 カテゴリカル変数の扱い 不均衡データの対策 過学習の対策 正則化 早期停止 トレーニングの改善 ハイパーパラメータの調整 トレーニング時間の改善 交差検証 モデルのモニタリングと改善 スキューとドリフト モデルの軽量化手法 Google Cloud

                                                                                Professional Machine Learning Engineer試験対策マニュアル - G-gen Tech Blog
                                                                              • Amazon Kendra の Custom Document Enrichment と Amazon Bedrock で画像検索に対応する - Taste of Tech Topics

                                                                                こんにちは、機械学習チーム YAMALEX の駿です。 YAMALEX は Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 皆さんは、「前のプレゼン資料に使った、犬の画像はどこいったかな?あの画像が欲しいので、探してくれないかな?」と無茶振りされたことはありませんか? そんな時でも、「舌を出して喜んでいる」と検索すれば画像がヒットし、こんな無茶振りにも応えることができるシステムを Amazon Kendra (以下、 Kendra )で構築しました。 舌を出して喜んでいる犬 ちょっと待って Kendra は機械学習を利用した検索サービスで、ウェブサイトや S3 に保存したドキュメントなどをもとに、適切な検索結果を返します。 しかし、 Kendra で検索できるのはテキストだけで、画像を S

                                                                                  Amazon Kendra の Custom Document Enrichment と Amazon Bedrock で画像検索に対応する - Taste of Tech Topics
                                                                                • 【入門者向け】Python in Excelが発表!そろそろプログラミング勉強すべき? - Qiita

                                                                                  2023年8月にPython in excel が発表されました。X(旧Twitter)を見ていると「いよいよプログラミングを勉強するべき?」というポスト(ツイート)をいくつか拝見しました。流行りに乗ることはとっても良いことですが、本当に必要なのかどうかは考える必要があると思います。なので今回は簡単ではありますが、Python in Excel、VBA、マクロ、Pythonあたりをまとめたいと思います。 追記 動画バージョンを作成しました。パワーポイントにまとめていますので、聞き流したい方はこちらをご活用ください。 Python in Excel 一言で言うとアナリスト向けと言った感じです。現状はMatplotlibやseabornを使ったグラフ作成(棒グラフ、折れ線グラフ、ヒートマップなど)や、scikit-learnやstatsmodelsを活用した、機械学習の適用が可能です。コードは

                                                                                    【入門者向け】Python in Excelが発表!そろそろプログラミング勉強すべき? - Qiita