並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 305件

新着順 人気順

OCRの検索結果41 - 80 件 / 305件

  • AIの民主化が進む時代におけるバクラクのAI-OCR機能の開発戦略 #LayerXテックアドカレ - LayerX エンジニアブログ

    LayerX バクラク事業部 機械学習チームの機械学習エンジニア兼マネージャーの松村(@yu-ya4)です。半年間に結婚祝いでいただいたたくさんのお酒が順調に減ってきているのですが、サントリーウイスキー角瓶 4Lペットだけはなくなる気配がありません。 この記事はLayerXテックアドカレ2023の16日目の記事のはずです。 前回はosukeさんの『Azure AI SearchのSemantic Ranker』という記事でした。 次回はminako-phさんによるタメになる記事、『Notionでスプリントのあれこれをダッシュボードで可視化する 』が公開予定ですされました。 昨今のAIの進化には目を見張るものがあります。先日のOpenAI DevDayやMicrosoft Igniteでも様々な衝撃的な発表がなされました。今週は違う意味で衝撃的なニュースが多かったですが。 そのような時代です

      AIの民主化が進む時代におけるバクラクのAI-OCR機能の開発戦略 #LayerXテックアドカレ - LayerX エンジニアブログ
    • スマホの写真に映ったテキストをPCにコピーできたら便利! 実はWindows 11標準で可能/「スマートフォン連携」の簡易OCRを試す【やじうまの杜】

        スマホの写真に映ったテキストをPCにコピーできたら便利! 実はWindows 11標準で可能/「スマートフォン連携」の簡易OCRを試す【やじうまの杜】
      • Windows11のすべてを保存する「Recall」機能の記録データからあらゆるものを抽出する「TotalRecall(トータル・リコール)」

        Microsoftは、AI特化のWindows PC「Copilot+ PC」で、PC上の作業や視聴履歴をすべて記録して検索できる機能「Recall」を発表しました。この「Recall」がノートPCに記録するすべての情報を自動的に抽出して表示するデモツール「TotalRecall」を、セキュリティ研究者でホワイトハッカーでもあるアレックス・ハーゲナ氏がリリースしました。 GitHub - xaitax/TotalRecall: This tool extracts and displays data from the Recall feature in Windows 11, providing an easy way to access information about your PC's activity snapshots. https://github.com/xaitax/To

          Windows11のすべてを保存する「Recall」機能の記録データからあらゆるものを抽出する「TotalRecall(トータル・リコール)」
        • 全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog

          こんにちは。研究開発部 Architectグループの中村です。 本記事は Sansan Advent Calendar 2023 の16日目の記事です。 今回は、私達のチームで開発&運用している全社横断データ分析基盤のデータレイヤの再設計、及びdbtの導入を進めているという事例について紹介します。 既存のデータ基盤に対して、dbtの導入を検討されている方の参考になれば幸いです。 (本稿ではdbtとはについては触れませんので、ご了承ください) TL;DR 歴史的経緯 全社横断データ基盤が生まれる前 全社横断データ基盤 立ち上げ期 課題 立ち上げ期に作られたデータマートがカオスに・・・ 課題の解決に向けて データレイヤの再設計 Transformツールの選定 dbtへの移行戦略 その他dbt移行におけるTips チームでの開発の標準化 Cosmosの導入検証 データカタログのホスティング まと

            全社横断データ基盤へdbt導入を進めている話 - Sansan Tech Blog
          • NPU不要で「ReCall」機能をWindows・Mac・Linuxで再現するツール「OpenRecall」が登場

            Microsoftは、Snapdragon X Eliteなどの高性能NPUを搭載してAIの実行に適したPC「Copilot+ PC」向けに、PC上で見たものや行ったことをすべて記録して後から検索できる機能「Recall」をリリースすると発表しました。このRecall機能を、NPUを搭載していないPCで再現するオープンソースのツール「OpenRecall」が公開されています。 GitHub - openrecall/openrecall: OpenRecall is a fully open-source, privacy-first alternative to proprietary solutions like Microsoft's Windows Recall. With OpenRecall, you can easily access your digital history

              NPU不要で「ReCall」機能をWindows・Mac・Linuxで再現するツール「OpenRecall」が登場
            • 無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」

              PNG・JPEG・GIFといった画像ファイルやPDFファイルから、TesseractによるOCR(光学文字認識)でテキストを抽出できる「OCR PDFs and images directly in your browser」をエンジニアのサイモン・ウィルソン氏が公開しました。OCR PDFs and images directly in your browserはすべての処理をブラウザ上で実行するため、ファイルをどこかのサーバーにアップロードすることがないというのが大きな特徴です。 OCR PDFs and images directly in your browser https://tools.simonwillison.net/ocr Running OCR against PDFs and images directly in your browser https://simon

                無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」
              • Claude 3.5 SonnetでStable Diffusion XLによる画像生成を要件が満たされるまで繰り返すAmazon Bedrockの使用例 - NRIネットコムBlog

                小西秀和です。 Amazon BedrockのAIモデルとして利用可能になったAnthropic Claude 3ファミリーでは画像認識機能が導入されました。そして、最新モデルのAnthropic Claude 3.5 Sonnetにも更に強化された画像認識機能が備わっています。 これらのAnthropic Claudeモデルの画像認識機能、特にOCR(光学文字認識)の性能については、いくつかの簡単な試行と比較を実施してみたことがあります。詳細は以下の記事でご覧いただけます。 Using Amazon Bedrock for titling, commenting, and OCR (Optical Character Recognition) with Claude 3 Haiku Using Amazon Bedrock for titling, commenting, and OCR

                  Claude 3.5 SonnetでStable Diffusion XLによる画像生成を要件が満たされるまで繰り返すAmazon Bedrockの使用例 - NRIネットコムBlog
                • 最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに

                  Google / Alphabet CEO Sundar Pichaiからのメッセージ すべてのテクノロジーの変化は、科学的探求を前進させ、人類の進歩を加速し、生活をより良くする機会となります。いま目の当たりにしている AI による変化は、私たちの人生で最も意味深いものになると確信しています。これは、これまでのモバイルやウェブへの移行よりも、はるかに大きなものになるでしょう。AI は、日常から非日常に至るまで、あらゆる場所の人々に機会を生み出す可能性を秘めています。AI は、イノベーションと経済発展の新たな波をもたらし、これまでにない規模で知識、学習、創造性、生産性を高めます。 世界中のあらゆる場所で、あらゆる人に AI を役立てられることが、私がとてもワクワクしている理由です。 私たちが AI ファーストを掲げ取り組みを開始してから 8 年近くが経ちますが、進化の速度はより一層早くなって

                    最大かつ高性能 AI モデル、Gemini を発表 - AI をすべての人にとってより役立つものに
                  • ScanSnapのGoogleDrive連携で学校のプリントを管理する - 日直地獄

                    学校、保育園のプリント管理のためにScanSnapを導入した。捨てにくく山積みになる問題を解決したかった。実際、結構解決している感じがあってめでたい。タイトルはAIに考えてもらいました。 買ったのはこれ。 富士通 PFU ドキュメントスキャナー ScanSnap iX1300 (最新/高速毎分30枚/両面読取/Uターンスキャン・リターン スキャン対応/Wi-Fi対応/USB接続/コンパクト/書類/レシート/名刺/写真) (White) ScanSnapAmazon 困りごと 良いとこ・悪いとこ プリントのチェック管理 困りごと 世の中にはこの悩みはよくあって、プリント管理アプリは結構あるっぽい。が、スマホで撮影する前提みたいなところがあって(自分調べ)、上手く撮りにくく時間がかかる上に全部自分でやらないといけない(子供にやらせられない)のがめんどくさい。 調べてみると最近の ScanSna

                      ScanSnapのGoogleDrive連携で学校のプリントを管理する - 日直地獄
                    • GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics

                      こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。 検証では、日本語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。 また、手書き・活字での違いも見ていきましょう。 一番簡単に試せるChatGPT(Web版)でOCRをさせようとするとエラーになることが多かったので、 ここではAPIを使っていくこととします。 APIを呼び出すプログラム 以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。 画像は個人のgithu

                        GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
                      • 無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する

                        CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

                          無償デスクトップ自動化ツール「Power Automate Desktop」でOCR処理を自動化する
                        • 第1回 生成AIの得意・不得意 2024・夏 | gihyo.jp

                          皆さんこんにちは。スリーシェイク代表の吉田です。 今回より生成AIを、金融業界や製造業、医療業界など各事業ドメイン固有の課題解決にどう使われているのか、具体的なユースケースを提示しながら、それを実現するアーキテクチャについて解説していきます。この連載を通して、これまで生成AIを実際のシステムに組み込むイメージが湧かない方への第一歩として手助けになれば幸いです。 第1回は、生成AI自体の一般的な得意不得意を踏まえながらユースケースを解説します。 生成AIが得意とする処理とは? 生成AIが得意とするのは、「⁠専門性のない一般的な知識をベースにした」テキスト生成、コード生成、画像認識や画像生成が挙げられます。RAG(Retrieval-Augmented Generation)やプロンプトエンジニアリングにより固有ドメインに特化させることは可能ですが、教師あり学習データを前提としたMLやDeep

                            第1回 生成AIの得意・不得意 2024・夏 | gihyo.jp
                          • GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita

                            概要 食事のカロリー推定は非常に困難なタスクでした。 一般的なアプローチとしては、物体検知modelをfine-tuningし、料理画像から個々の料理の領域を判定することでカロリーを推定してきました。 GPT-4oを利用するとそのへんを飛ばして、いきなりカロリーが推定できます。精度の面では劣ると考えられますが、実装の容易さと未知のクラス (学習データセット内に含まれない料理) への対応を考えると、十分に利用価値があると思われます。 今回の記事では、実際のデモも紹介しているのですぐ利用することができます。 早速結果を見てみよう デモ 実装 カロリー推定 json-mode で処理をさせます。step-by-stepに推論を処理させるために、最初に雑な推論を記述させてから、各食品のカロリー量を推定させています。 # GPT-4にカロリーを推定させる (JSON-MODE) response =

                              GPT-4o の画像認識能力がすごい!カロリー推定アプリを作ってみる - Qiita
                            • Claude 3.5 Sonnet の評価に関する備忘録 - Algomatic Tech Blog

                              こんにちは。Algomatic NEO(x) の宮脇(@catshun_)です。 本記事では弊社 podcast の「Algomaticで話題になった生成AIニュースまとめ」という回で用意している会話ネタの一つとして "Claude 3.5 Sonnet Model Card Addendum" を読んだので、その備忘を共有いたします。 なお概要については npaka 氏の以下の note 記事が参考になりますので、本記事の前にこちらを参照いただくことをおすすめします。 note.com おことわり 解釈や引用に誤りがありましたらご指摘いただけると幸いです。 本記事では詳細な解説を含みません。詳細な調査等は必ず参照元の論文等をご確認ください。 引用時の名称や図は原則として引用先の媒体で記述されているものに従っています。 プロダクト等の利用時は 必ずライセンスや利用規約を参照して下さい。 本

                                Claude 3.5 Sonnet の評価に関する備忘録 - Algomatic Tech Blog
                              • LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ

                                こんにちは!LayerXのバクラク事業で機械学習・データ周りを担当しております、たかぎわ (@shun_tak) と申します。 みなさま、ChatGPTの登場に衝撃を受け、これを日々の生活やビジネスに活用されていることかと思います。わたしも社内でChatGPT活用の勉強会を開催したところ、大変大きな反響をいただきました。 tech.layerx.co.jp ChatGPTの登場以来、AIを前提としたユーザー体験の構築、すなわちAI-UXの実現を目指すことがLayerX社内の共通認識になりました。LayerXは、プロダクトだけでなくあらゆるビジネスプロセスにおいて、ユーザー体験をAIを前提に再構築するAI Transformation (AX) を推進することで、生産性革命を実現しようとしています。 comemo.nikkei.com AI-UXやAXの実現を通じて、仕事や暮らしの中にある摩

                                  LLM時代のデータ基盤 : 非構造化データを扱うETLプロセスの重要性 #ベッテク月間 - LayerX エンジニアブログ
                                • LLMベースの新しい言語『SUQL』が示唆する「非構造化データのクエリ」を処理するパラダイム | AIDB

                                  スタンフォード大学の研究者たちは、新しいプログラミング言語『SUQL』(Structured and Unstructured Query Language)を開発しました。 この言語は、SQL(Structured Query Language)の概念を拡張し、非構造化データのクエリ処理を可能にする新しいパラダイムを導入しています。構造化データ(例えばデータベース内のデータ)と非構造化テキストデータ(自由形式のテキストなど)の両方を処理する能力を持つ初めての言語として位置づけられています。 『SUQL』の開発は、データソースをより効果的に活用するための手法を模索する研究の一環です。従来の技術では、構造化データと非構造化データを一元的に処理することには課題がありました。 大規模言語モデル(LLM)に基づくプロンプトコンポーネントで構成される『SUQL』は、今後の開発トレンドを牽引する研究と

                                    LLMベースの新しい言語『SUQL』が示唆する「非構造化データのクエリ」を処理するパラダイム | AIDB
                                  • 「PowerToys」のOCR機能が表(テーブル)の読み取りに対応 ~v0.74がリリース/Microsoftがパワーユーザー向けに提供している無償ツール集

                                      「PowerToys」のOCR機能が表(テーブル)の読み取りに対応 ~v0.74がリリース/Microsoftがパワーユーザー向けに提供している無償ツール集
                                    • AI導入で企業が挫折するのはなぜ?―AI「以外」の壁にどう立ち向かうか|Dory │ 株式会社Algomatic

                                      はじめにこんにちは、Doryと申します! あらゆる業務をAIエージェントで変革するべく、Algomaticという生成AIスタートアップで自社サービス開発や法人向けのAI導入支援に取り組んでいます。 この記事では、AI技術を現場の実業務に導入しようとしたとき、企業が高確率でぶつかる「3つの壁」について、自身の経験も交えて記載していきます。 【この記事には何が書いてある?】 ・AI技術を使って業務を変革しようとするとき、必ずぶつかるのは「AI以外」の壁であること ・3つの壁を乗り越えなければ、AIによる業務改革は進まないということ 【この記事の想定読者】 ・AIを自社にも取り入れたいと考えている経営者の方 ・AIの社内推進がミッションの、いわゆる「AI推進室・DX推進室」の方 ・その他、AIの力で自社を変えたい!と考えている方 以下、本文では簡単のため「AI」という表現を多用しておりますが、具

                                        AI導入で企業が挫折するのはなぜ?―AI「以外」の壁にどう立ち向かうか|Dory │ 株式会社Algomatic
                                      • 米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表 GPT-4V越えの性能

                                        このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 X: @shiropen2 米Appleに所属する研究者らが発表した論文「Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs」は、iPhoneやAndroidなどのモバイルUI画面をより深く理解し、インタラクションできるように設計されたマルチモーダル大規模言語モデル(MLLM)を提案した研究報告である。 Ferret-UIは、モバイルUIの画面上で、多様な入力形式(点、ボックス、スケッチ)を用いて参照タスク(ウィジェット分類、アイコン認識、OCRなど)を実行し、グラウンディングタスク(ウィジェット検索、

                                          米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表 GPT-4V越えの性能
                                        • GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB

                                          Googleは、非構造化文書(例えばレシートなど)から高精度にテキストを抽出するOCR(Optical Character Recognition)技術『LMDX(Language Model-based Document Information Extraction and Localization)』を発表しました。この技術は、特にGoogleの大規模な言語モデル「Bard」と、Google DriveやGmailなどのサービスとの連携をさらに強化する可能性もあります。 参照論文情報 タイトル:LMDX: Language Model-based Document Information Extraction and Localization 著者:Vincent Perot, Kai Kang, Florian Luisier, Guolong Su, Xiaoyu Sun, Ram

                                            GoogleがLLMで「非構造化文書」高精度テキスト抽出するOCR『LMDX』発表 | AIDB
                                          • LLM時代におけるAI-OCR機能の開発戦略 / layerx-bakuraku-ocr-llm-lt-2024

                                            2024年1月24日 【オフライン限定開催】注目AIテックカンパニー4社が集うLT新年会〜LLM活用のリアルを語る〜(https://lapras.connpass.com/event/305577/) における発表資料です。

                                              LLM時代におけるAI-OCR機能の開発戦略 / layerx-bakuraku-ocr-llm-lt-2024
                                            • TOPPANの古文書解読アプリ、学習データ追加で解読精度が向上

                                              古文書カメラは、スマートフォンで撮影したくずし字資料をAI-OCR技術で手軽に解読可能な無料アプリ。今回のアップデートでは学習データの追加とAI-OCRモデルの刷新を行い、100枚程度のサンプルでフルオート処理をした場合の精度を計測したところ、とくに手書きの古文書に対して大幅な解読精度の改善が認められたという。 あわせて、さまざまな条件下で撮影した画像に対応できるよう画像編集機能を追加。斜めから撮影した画像の補正する「台形補正」、シミやノイズなどを軽減する「ノイズ除去」、余分な画像を除去する「トリミング」、資料画像を回転できる「角度補正」、モノクロ状態で白黒を反転する「白黒反転」を利用できる。また、これまでの1日あたり10回だった解読機能の利用回数を30回に増加させた。利用回数は毎日0時にリセットされる。 関連記事 Pixel Foldの「デュアルスクリーン通訳モード」が日本でも利用可能に

                                                TOPPANの古文書解読アプリ、学習データ追加で解読精度が向上
                                              • 昼は終わらない事務作業、夜は膨大な書類整理 約1.8万時間の工数削減に成功した、市役所職員の苦労と工夫

                                                サイボウズ株式会社が主催する「Cybozu Days 2023」。同イベントでは、全国のkintoneのユーザーのなかから選ばれたファイナリストたちが活用事例を発表する、「kintone hive tokyo vol.18/kintone AWARD」が行われました。本記事では、北九州市役所 保健福祉局の井上望氏が、コロナ禍で挑んだ膨大なバックオフィス業務の効率化について語りました。 コロナ禍に対応した、市役所職員の実体験 井上望氏(以下、井上):みなさん、どうもこんにちは。今日はこの話を聞きに来ていただき、ありがとうございます。それではご説明いたします。北九州市役所の中の保健所の話になります。押し寄せるコロナの波の中、保健所がどのように変わっていったかをお話しさせていただきます。 まずは自己紹介になります。私は北九州市の係長をしております、井上と申します。実は昔からパソコンなどでシステム

                                                  昼は終わらない事務作業、夜は膨大な書類整理 約1.8万時間の工数削減に成功した、市役所職員の苦労と工夫
                                                • 「OneNote」に統合された新しい「付箋」アプリ、すべてのユーザーが利用可能に/スクリーンショット、OCR(画像のテキスト認識)、ソースURLの自動追加などに対応

                                                    「OneNote」に統合された新しい「付箋」アプリ、すべてのユーザーが利用可能に/スクリーンショット、OCR(画像のテキスト認識)、ソースURLの自動追加などに対応
                                                  • AIエンジニアがいない中でLLMとどう向き合ったか 自社プロダクトへのAI導入で得た、4つの学び

                                                    登壇者の自己紹介とアジェンダ紹介 金岡亮氏:みなさんこんばんは。「LLMからはじめる、プロダクトへのAI導入」というタイトルで発表いたします。私たちSmartHRは「従業員サーベイ」というプロダクトを提供しており、その中で「要約AI」というLLMを使ったサービスをプロダクトとして出しています。これをリリースするまでにどんなことをやってきたのかというお話ができればと思っています。 私は金岡と申します。私はふだん、プロダクトマネージャーをしており、弊社のタレントマネジメント系のプロダクトを複数見ています。今年に入ってからLLM利用のタスクフォースや、AI活用のR&Dの組織を立ち上げています。前職では、AIの受託系の会社でプロジェクトマネージャーをしたり、データアナリストをしていました。 今日のアジェンダですが、機能リリース前のお話と機能リリース後のお話。あとは4つ学びと今後の展望というかたちで

                                                      AIエンジニアがいない中でLLMとどう向き合ったか 自社プロダクトへのAI導入で得た、4つの学び
                                                    • Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ

                                                      はじめに こんにちは。バクラク事業部 機械学習チームの機械学習エンジニアの上川(@kamikawa)です。 バクラクではAI-OCRという機能を用いて、請求書や領収書をはじめとする書類にOCRを実行し、書類日付や支払い金額などの項目内容をサジェストすることで、お客様が手入力する手間を省いています。 書類から特定の項目を抽出する方法は、自然言語処理や画像認識、近年はマルチモーダルな手法などたくさんあるのですが、今回は項目抽出のための物体検出モデルを構築するまでの手順について紹介します。 Document Layout Analysisとは Document Layout Analysisとは、文書のレイアウトを解析するタスク(直訳)のことを指します。具体的には、文書内のさまざまな要素(例えば、テキスト、画像、表、見出し、段落など)を抽出し、それぞれの位置や意味などを明らかにすることを目的とし

                                                        Document Layout Analysisに物体検出を利用したDocument Object Detectionのすゝめ - LayerX エンジニアブログ
                                                      • 数学的性能で世界1位の評価を記録した、数学特化の生成AIモデル「MathGPT」においてMathpresso, Inc.が日本語完全対応版の開発着手を発表

                                                        数学的性能で世界1位の評価を記録した、数学特化の生成AIモデル「MathGPT」において、Mathpresso, Inc.が日本語完全対応版の開発着手を発表 2024年3月29日、アジア最大のAIベース学習プラットフォームQANDAの運営会社であるMathpresso社は、数学的性能で世界1位の評価を記録した、数学特化の生成AIモデル「MathGPT」において、日本語完全対応版の開発着手を発表した。Mathpresso社は、Google、TikTok、ソフトバンクベンチャーズアジアとの資本提携を結び、50カ国以上で9000万人以上の登録ユーザーを集めるグローバルEdTech企業である。日本では、Mathpresso社の運営する質問応対サービス「QANDA」がアプリダウンロード数で学習アプリ部門、第1位を獲得するなど、中学・高校生の学習アプリとして定着している。今後、既に提携を進めている日本

                                                          数学的性能で世界1位の評価を記録した、数学特化の生成AIモデル「MathGPT」においてMathpresso, Inc.が日本語完全対応版の開発着手を発表
                                                        • もっと早く使いたかったPDF編集ソフト「PDFelement」のすごいところ【今日のライフハックツール】 | ライフハッカー・ジャパン

                                                          もう「面倒なファイルだなぁ」とは思わない! 仕事をしていくなかで必ず出会う、PDFというファイル形式。しかし、WordやExcelといった一般的なファイルよりも扱いづらいと感じたこともあるのでは? WordやExcelからPDF形式で出力することもできますが、PDFそのものを編集するソフトを使えば、もっと効率的に軽やかに仕事ができます。「元データどこだっけ?」となることもありません。 そもそもPDFってなんだっけ?ソフトを紹介する前に、簡単にPDFそのものについての解説をば。 PDF(Portable Document Format)はAdobe社が開発した文書フォーマットで、PC、スマホ、あるいはOSの違いといった環境に左右されずに文書を表示・保存できるのが強み。印刷にも柔軟に対応できます。 たとえばWordファイルを扱う場合、ソフトのバージョンやPCの違いによって、表示やレイアウトが乱

                                                            もっと早く使いたかったPDF編集ソフト「PDFelement」のすごいところ【今日のライフハックツール】 | ライフハッカー・ジャパン
                                                          • キャプチャー画像をOCRで素早くテキスト化 いざというとき便利なSnipping Toolの活用法【Windows 11】

                                                            Snipping Toolの便利な機能を紹介 Windows 11の標準スクリーンキャプチャーツール「Snipping Tool」には、スクリーンキャプチャーや画面の録画をするだけでなく、ちょっとした編集も可能になっている。本Tech TIPSでは、いつの間にか追加された「OCR機能」と「墨消し機能」の2つの使い方を紹介しよう。 Windows 11でスクリーンキャプチャーを撮る場合、[Windows]+[Shift]+[S]キーを使っている人も多いのではないだろうか。[Windows]+[Shift]+[S]キーを押すと、Windows 11の標準スクリーンキャプチャーツール「Snipping Tool」が呼び出される。このツールは、着々と進化しており、単純にスクリーンキャプチャーや画面の録画をするだけでなく、ちょっとした編集も可能になっている。 本Tech TIPSでは、「Snippi

                                                              キャプチャー画像をOCRで素早くテキスト化 いざというとき便利なSnipping Toolの活用法【Windows 11】
                                                            • バクラクのAI-OCRが扱う問題の複雑さ - LayerX エンジニアブログ

                                                              こんにちは。 LayerXのバクラク事業部 機械学習チームのテックリードを務めております機械学習エンジニアの島越(@nt_4o54)です。 最近、カジュアル面談や学会などで「AI-OCRってもうほぼ完成で、運用フェーズですよね」「やることあるんですか?」など頻繁に聞かれることがあります。 「いやいや課題が山のようにあるんです」という話をいつもしているので、今回は我々が作っているAI-OCRがどれだけ複雑で難しい問題を扱っているか、という部分についてお話しさせていただければなと思います。 少し、経理ドメインの話が多く恐縮ですが、お付き合いいただけると嬉しいです。 AI-OCRについて AI-OCRが扱う問題の複雑さ ドメインへの深い理解が必要 同じ書類であってもコンテキストによって抽出したい値が異なる まとめ 最後に AI-OCRについて まず、そもそも弊社のバクラクで提供しているAI-OC

                                                                バクラクのAI-OCRが扱う問題の複雑さ - LayerX エンジニアブログ
                                                              • アノテーションにおけるUIの工夫 - CADDi Tech Blog

                                                                こんにちは、MLOpsチームです。先日OCRモデルを学習するためのアノテーションにおいて、作業効率を検証するためのPoCとしてアノテーションUIを開発しました。本記事ではこのアノテーションUIにおける工夫について、試用によって得られた知見をまじえつつ紹介します。 はじめに アノテーションUIを開発することとなった背景について説明します。 アノテーションUIとは アノテーションUIは機械学習の学習データを作成するためのUIです。アノテーションUIはアノテーション作業の効率に強く影響し、アノテーション作業によって得られる学習データの量は機械学習の精度に大きく寄与します。したがって、アノテーションUIは機械学習において最も重要なコンポーネントのひとつといえます。 UIを開発した背景 キャディではOSSツールなどのUIを用いてアノテーションが行われていましたが、ここに独自の工夫を導入すれば入力効率

                                                                  アノテーションにおけるUIの工夫 - CADDi Tech Blog
                                                                • macOSのVisionフレームワークでOBSの映像からテキストを抽出するWebSocketプロキシ - 詩と創作・思索のひろば

                                                                  激安HDMIキャプチャーボードを買ってから、ときどきゲームプレイの録画・配信をしている。OBS Studioというソフトウェアがデファクトらしく、自分もこれを使っている。 便利なことにOBSにはWebSocketで操作できるインタフェースがあり、JavaScriptやPythonからかなり自由に操作することができる。となればソフトウェアエンジニアとしてはプレイログを構造化して残したいわけ。 WebSocket経由でスクリーンショットも随時取得できるので、画像を分析することでたとえばシーン判定はできるが、さらに詳細な情報を取ろうとするとテキスト情報もほしい。クラウドサービスなどに金をかけずに手軽にやるならTessaract一択となるが、素晴らしいソフトウェアではあるものの期待する精度を出すには工夫がいりそう。具体的には、ポケモンの名前は日本語だけでなく中国語の場合もある(左下の「古劍豹」)。

                                                                    macOSのVisionフレームワークでOBSの映像からテキストを抽出するWebSocketプロキシ - 詩と創作・思索のひろば
                                                                  • 文化審議会著作権分科会法制度小委員会(第5回) | 文化庁

                                                                    配布資料 資料 AIと著作権に関する考え方について(素案)(365KB) 参考資料1 第23期文化審議会著作権分科会法制度小委員会委員名簿(115KB) 参考資料2 生成AIに関するクリエイターや著作権者等の主な御意見(199KB) 参考資料3 法30条の4と法47条の5の適用例について(第4回法制度小委員会配布資料)(412KB) 参考資料4 論点整理―これまでの議論の振り返り―(案)(第4回AI時代の知的財産検討会配付資料)(7.7MB) 参考資料5 広島AIプロセス等における著作権関係の記載について(579KB) 参考資料6 文化審議会著作権分科会法制度小委員会 開催実績及び今後の進め方(予定)(123KB) 議事内容 【茶園主査】それでは、定刻になりましたので、ただいまから文化審議会著作権分科会法制度小委員会(第5回)を開催いたします。 本日は御多忙の中、御出席いただきまして、誠に

                                                                    • 基本概念から理解するAzure AI Search - Azure OpenAI Serviceとの連携まで - 電通総研 テックブログ

                                                                      こんにちは。XI 本部AIトランスフォーメーションセンター所属の山田です。 先日、部内の勉強会でAzure AI Searchについて紹介したので、テックブログでもその内容を紹介したいと思います。 Azure AI Searchとは? Azure AI Searchに保存されるデータに関する用語と概念 Azure AI Searchのスケーラビリティに関する用語と概念 Azure AI Searchでサポートされる検索の仕組み 全文検索について Azure AI Searchのアナライザー ベクトル検索について ベクトルの近傍検索アルゴリズム ハイブリッド検索 検索インデックスのスキーマ設計 検索インデックスにドキュメントを追加する方法 Pushモデル Pushモデルを利用する場合のアーキテクチャの例 Pullモデル Pullモデルを利用する場合のアーキテクチャの例 インデクサーの計算リソ

                                                                        基本概念から理解するAzure AI Search - Azure OpenAI Serviceとの連携まで - 電通総研 テックブログ
                                                                      • LLMを活用した機械学習モデルのアノテーション効率化 - LayerX エンジニアブログ

                                                                        機械学習エンジニアの吉田です。今回は、LLM (Large Language Models) を活用して、機械学習モデルに必要なデータのアノテーション作業を効率化する取り組みについて紹介します。 なお、アノテーションにおけるLLMの利用に関しては、クラウドベンダー各社及び社内の法務確認のうえ進めています。この記事で登場するLLMがアノテーション用途で使えることを保証するわけではないのでご留意ください。 背景 LayerXで提供しているバクラクでは、帳票をアップロードするだけで支払金額や支払期日などを自動で読み取るOCRの機械学習モデルを開発しています。 このモデルのデータセットを作成するために、内製のアノテーション基盤を使って日々手作業でアノテーションを行っています。帳票の種類が多く、解釈が複数ある場合もあるため、アノテーション作業は簡単ではありません。モデルの推論結果やユーザーの入力値を

                                                                          LLMを活用した機械学習モデルのアノテーション効率化 - LayerX エンジニアブログ
                                                                        • Claude3.5の新機能!Artifacts:Claudeとの新しい対話方法 – 完全ガイド - Sun wood AI labs.2

                                                                          はじめに みなさん、こんにちは!今日は、AI技術の世界に革命を起こす新機能「Artifacts(アーティファクツ)」について、わかりやすくお話ししていきます。Claudeという人工知能と、より効果的に協力して作業ができるようになる、とてもワクワクする機能なんです。 Artifactsとは何か? 簡単な説明 Artifactsは、Claude.aiで導入された新機能です。ユーザーがClaudeに何かを作ってもらう時、その成果物を会話とは別の専用ウィンドウで見ることができます。つまり、会話しながら同時に作品を見て編集できる、そんな魔法のようなツールなんです。 Artifactsの主な特徴 リアルタイムの表示: Claudeが作った内容をすぐに見ることができます。 編集可能: 表示された内容を自由に編集できます。 作業の継続性: 一度作ったものを基に、さらに改良を加えていけます。 Artifac

                                                                            Claude3.5の新機能!Artifacts:Claudeとの新しい対話方法 – 完全ガイド - Sun wood AI labs.2
                                                                          • 社会課題解決のアイデアはあるがエンジニアはほぼいない… 正社員のエンジニアを10倍にしたスタートアップの組織づくり

                                                                            CO2排出量見える化・削減・報告クラウドサービス「アスエネ」 司会者:アスエネ、VP of Engineering、石坂達也さまです。持ち時間は6分間です。ご準備よろしいでしょうか? 石坂達也氏(以下、石坂):はい、お願いします。 司会者:それでは、お願いします。 石坂:アスエネの石坂です。「急成長プロダクトを支えるエンジニア組織づくり」についてお話しします。 初めに、みなさんは自社のCO2排出量を把握していますか? 日本は2050年に、温室効果ガスの排出を実質ゼロにする社会の実現を目指しています。こういった流れもあり、企業はCO2排出量を削減しなければならず、その手前となる見える化が急務になっています。 しかし、見える化だけを切り取っても、データの収集、CO2の計算方法、報告書の作成など、多くの課題が存在します。こういった課題を解決するために、我々はCO2排出量見える化・削減・報告クラウ

                                                                              社会課題解決のアイデアはあるがエンジニアはほぼいない… 正社員のエンジニアを10倍にしたスタートアップの組織づくり
                                                                            • OCR PDFs and images directly in your browser

                                                                              This tool runs entirely in your browser. No files are uploaded to a server. It uses Tesseract.js for OCR and PDF.js to convert PDFs into images. Language: Drag and drop a PDF, JPG, PNG, or GIF file here or click to select a file

                                                                              • Evernoteとは何だったのか。文筆家が「気楽なメモツール」を総括 - まぐまぐニュース!

                                                                                手軽さや使い勝手の良さから、多くの人が利用するEvernote。「最高のメモアプリ」を謳うツールですが、文筆家の倉下忠憲さんは近々自身の「主要なツール」から外そうと目論んでいるといいます。そんな倉下さんはメルマガ『Weekly R-style Magazine ~読む・書く・考えるの探求~』で今回、脱Evernoteを真剣に考えることになったきっかけを記すとともに、その利点を解説する形でEvernoteを「総括」しています。 Evernoteの何がよかったのか 本格的にEvernoteを「主要なツール」から外そうと目論んでいます。 そうしたときに、単にEvernoteのデータを別のツールに移して一件落着とするのはちょっともったいないものです。むしろこのタイミングで「Evernoteとは何だったのか」を考えるのが機会の使い方としては有用でしょう。 それに、私は常々ネットでは新しい話題に飛びつ

                                                                                  Evernoteとは何だったのか。文筆家が「気楽なメモツール」を総括 - まぐまぐニュース!
                                                                                • Amazon Kendra の Custom Document Enrichment と Amazon Bedrock で画像検索に対応する - Taste of Tech Topics

                                                                                  こんにちは、機械学習チーム YAMALEX の駿です。 YAMALEX は Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 (詳細はリンク先をご覧ください。) 皆さんは、「前のプレゼン資料に使った、犬の画像はどこいったかな?あの画像が欲しいので、探してくれないかな?」と無茶振りされたことはありませんか? そんな時でも、「舌を出して喜んでいる」と検索すれば画像がヒットし、こんな無茶振りにも応えることができるシステムを Amazon Kendra (以下、 Kendra )で構築しました。 舌を出して喜んでいる犬 ちょっと待って Kendra は機械学習を利用した検索サービスで、ウェブサイトや S3 に保存したドキュメントなどをもとに、適切な検索結果を返します。 しかし、 Kendra で検索できるのはテキストだけで、画像を S

                                                                                    Amazon Kendra の Custom Document Enrichment と Amazon Bedrock で画像検索に対応する - Taste of Tech Topics