並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 118件

新着順 人気順

OCRの検索結果1 - 40 件 / 118件

  • 積読を消化する技術 - sasasin’s blog

    私は積読の山々を眺めると、買ったのに読まず積み上がってる現状にイラつくし、最近ではSNSや書店で面白そうな本を目撃してもどうせ積読になるからと買い控えするようになってきている。 これは私の望むところではないと一念発起し、ふとYoutubeやPodcastのような受動的なコンテンツは1日に何時間でも視聴してると気付き、読書も受動的な形にできれば、、、読み上げか!と。 書籍を読み上げることで積読の消化が捗ってきたので、とりあえず現状をまとめてみた。 ウェブページ のっけから書籍ではないけど、ウェブページも「後で読む」が無限に積み上がる。 Pocket で消化する。 任意のウェブページ Android 版 Pocket の「聴く」で読み上げる。「聴く」の設定で「記事を自動再生」「聴いた後に自動アーカイブ」することで、どんどん消化していける。 Pocket が読み上げできないウェブページは、記事を

      積読を消化する技術 - sasasin’s blog
    • ドキュメントをMarkdownやJSONに変換してくれる「Docling」を試す

      ここで知った。 試しに、神戸市が公開している観光に関する統計・調査資料のうち、「令和5年度 神戸市観光動向調査結果について」のPDFで一度試していたのだけども: (出典) 神戸市Webサイトの「観光に関する統計・調査」のページ 上記にある「令和5年度 神戸市観光動向調査結果について」のPDF 日本語でも、概ね問題なく、表などもきれいにパースされる ただし、表が画像 になってる場合に、うまく解釈されない(表は解釈されるが、中の文字が化ける) OCRが正しくできていない可能性 というのがあって、ドキュメント読んだけどわからなくて、それ以上深追いしてなかった。 ただ、X界隈を見る限りは評判は良さそうで、いろいろ記事も出てきたみたいなので、改めて試してみる。 GitHubレポジトリ ドキュメント Docling Doclingは、ドキュメントを解析し、簡単かつ迅速に希望の形式にエクスポートします。

        ドキュメントをMarkdownやJSONに変換してくれる「Docling」を試す
      • ドキュメントファイルの解析と変換に特化したオープンソースツール「docling」を試してみた | DevelopersIO

        AWS事業本部コンサルティング部の石川です。最近、文書ファイルの解析と変換に特化した オープンソースツール「docling」 が注目を集めています。このツールは、最先端のAIモデルを活用して、ドキュメントの構造を理解し、様々な形式に変換することができます。今回、実際にdoclingを使用して日本語のドキュメントファイルからMarkdownファイルとJSONファイルへ変換を試してみます。 doclingとは doclingは、ドキュメントの変換と解析に特化したオープンソースのPythonパッケージです。最先端の人工知能モデルを活用し、レイアウト解析にDocLayNetモデル、表構造認識にTableFormerモデルを使用しています。一般的なハードウェアで効率的に動作し、少ないリソースで高性能を発揮します。JSONやMarkdown形式への変換が可能で、拡張性も高く、新機能やモデルの追加が容易

          ドキュメントファイルの解析と変換に特化したオープンソースツール「docling」を試してみた | DevelopersIO
        • 基盤モデルなどを使いながら、文章をOCRするメモ |Kan Hatakeyama

          書籍には、不規則に図表などが入っていたりすることがあります。 また、レイアウトが乱れたりすることもよくあります。 このあたりの整理をいい感じにしてくれるシステムを見つけるのが、今回のミッションです。 結果結果一覧です。 いまのところ、「OCRソフトでの文字認識 + GPT-4oでの修正」がベストでした。 次点として、「OCRソフトでの文字認識+軽量モデルでの修正」となりました。 基盤モデルでそのままOCRするのはだめでした。 手法1 OCRによる文字認識+大規模言語モデルによる修正OCRの標準的な文字認識機能でテキストを生成した後、大規模言語モデルで破綻した箇所を修正するアプローチを試してみます。 1. 標準的なOCRのみを使う → ×筆者は、以下のスキャナーで専門書、数百冊以上を自炊した経験があります。 このスキャナーには、標準的な文字起こし機能がついていますので、まずはこれで文字起こし

            基盤モデルなどを使いながら、文章をOCRするメモ |Kan Hatakeyama
          • 「Google Chrome 131」が正式版に ~オンデバイスOCRで紙をスキャンしたPDFでもテキスト選択/セキュリティ関連の修正は全12件、コンプラ違反の「Entrust」のTLS証明書は不信任に

              「Google Chrome 131」が正式版に ~オンデバイスOCRで紙をスキャンしたPDFでもテキスト選択/セキュリティ関連の修正は全12件、コンプラ違反の「Entrust」のTLS証明書は不信任に
            • OCRでECに受注データを導入する4つの方法

              OCR(Optical Character Recognition、光学文字認識)とは、紙や画像ファイルの文字をカメラやスキャンで読み取り、デジタルデータに変換する技術です。ECの受発注システムにOCR機能を実装してFAXや手書きなどの紙や画像からテキスト情報を抽出し、ECのデジタルデータとして取り扱えるようになります。 紙や画像の情報をOCRでデジタル化する方法には、次の4つがあります。 ◆紙や画像の情報をOCRでデジタル化する4つの方法 ① FAX情報をデジタルデータ化する ② スキャン画像のテキスト情報を抽出する ③ スマートフォンのカメラで撮影した画像のテキスト情報を抽出する ④ メールに添付された画像やPDFのテキスト情報を抽出する この記事では、インターファクトリーでマーケティングを担当している筆者が、OCRで紙や画像の情報をデジタル化して、ECの受発注システムで利用するための

                OCRでECに受注データを導入する4つの方法
              • アジャイルの基本「動くものを速く届ける」を愚直に守る。それを実現するための開発プロセスの工夫とは【UPSIDER VPoP 森大祐】 | レバテックラボ(レバテックLAB)

                TOPインタビューアジャイルの基本「動くものを速く届ける」を愚直に守る。それを実現するための開発プロセスの工夫とは【UPSIDER VPoP 森大祐】 アジャイルの基本「動くものを速く届ける」を愚直に守る。それを実現するための開発プロセスの工夫とは【UPSIDER VPoP 森大祐】 2024年11月6日 株式会社UPSIDER VPoP 森 大祐 株式会社UPSIDER VPoP。新卒で株式会社ワークスアプリケーションズに入社後、会計システムを中心として、大手企業のERP、業務システムの開発をリード。いくつかのキャリアを経て、PKSHAグループにて複数のAI SaaSを立ち上げ、それらのプロダクト企画統括を務める。2023年に入社した株式会社UPSIDERではVPoPを務める。 X Notion 法人向けクレジットカード「UPSIDER」をはじめとする金融サービスを提供する、株式会社UP

                  アジャイルの基本「動くものを速く届ける」を愚直に守る。それを実現するための開発プロセスの工夫とは【UPSIDER VPoP 森大祐】 | レバテックラボ(レバテックLAB)
                • リンガーハットの工場で「餃子の具が多すぎる」「パッケージの印字がズレている」といった問題を検出するため自社開発したAI画像認識検査システム「ディアマ」

                  リンガーハットの工場でも使われているAIで異物検査するシステム「ディアマ」のデモ機が食品関連見本市「FABEX 関西 2024」で展示されていたので、どんな仕組みなのかいろいろ聞いてきました。 機器・用品販売 | Deama(ディアマ) | リンガーハット開発株式会社 https://www.ringerhut-d.jp/products/deama/ ディアマはリンガーハット開発株式会社で開発した画像認識検査システムで、リンガーハットの工場で用いられているほか、他社にも販売しています。ディアマは「カメラで食品の画像を撮影し、画像をAIやOCRで分析してチェックする」という仕組みで、必要なハードウェアは小型カメラと画像処理検査装置だけなので、既存の生産ラインを大きく変更せずに導入可能です。 これが小型カメラ。 画像処理検査装置はこんな感じ。デモ機では「印字の異常をチェックする装置」と「餃子

                    リンガーハットの工場で「餃子の具が多すぎる」「パッケージの印字がズレている」といった問題を検出するため自社開発したAI画像認識検査システム「ディアマ」
                  • Copilot+ PCの「フォト」アプリに最大8倍の超解像、OCR機能も利用可能に/すべてのWindows 11プレビューチャネルでテスト展開

                      Copilot+ PCの「フォト」アプリに最大8倍の超解像、OCR機能も利用可能に/すべてのWindows 11プレビューチャネルでテスト展開
                    • メモ:ArXivで最近のトレンドをNotebookLMで眺める - 地平線まで行ってくる。

                      先日、副産物で得られた論文のアブスト集をNotebookLMに入れてみたら快適でした。もともとデータセット作成のテストだった*1のですが、使えそうなのでそこだけ切り出します。今回の手順は、 ArXivから任意のキーワードで検索しアブストを入手する。 50000文字以下になるように分割してNotebookLMに投入できるmarkdown形式にする。 ついでに、gemini-flashを使ってまとめも作成する。 出来たmarkdownをNotebookLMに投入して好きなように使う。 です。簡単です。 Gemini-flashでまとめさせると、Promptを完全に制御できるので比較的思い通りの結果が得られます。ところが、試してみるとNotebookLMでは文書がどういう性格(もしくは素性)のものかが、正確に伝わりません。論文リストだけしかないテキストなので、そりゃなんなのか分からないのでしょう

                        メモ:ArXivで最近のトレンドをNotebookLMで眺める - 地平線まで行ってくる。
                      • 株式会社ポケモンが、「ポケモンワークス」なる会社のホームページをひっそりオープンしていた。イルカとの新たな開発チーム - AUTOMATON

                        株式会社ポケモンが、株式会社ポケモンワークスのホームページをオープンしたようだ。ページのソースを見る限り、11月8日の15時頃にサイトが立ち上げられた模様である。 ポケモンワークスは、株式会社ポケモンと株式会社イルカから生まれた開発チームであるという。ポケモンにだけフォーカスしているといい、ゲームだけでなく「ポケモンHOME」のようなサービスを開発するそうだ。世界観やらしさを大切にしつつ、ポケモンをもっとリアルかつ身近に感じるような体験を創出していくとしている。なお、代表取締役としては、イルカの岩崎拓矢氏が名を連ねている。 ポケモンワークスについては、今年3月にポケモンワークスなる商標が登録されていた。登記情報からイルカとの関連が指摘されていたが、前述のようにイルカとの新たな開発会社であるようだ。所在地はイルカのスタジオ場所と同一。事業内容は、「ポケットモンスターに関するゲーム開発等 及び

                          株式会社ポケモンが、「ポケモンワークス」なる会社のホームページをひっそりオープンしていた。イルカとの新たな開発チーム - AUTOMATON
                        • “AIを評価するAI”でハルシネーションを大幅低下 AI insideが独自技術 “SLM”との組み合わせで挑むビジネス戦略とは

                          AIが正誤判断に使う情報の例として挙げたのは「ファクスで届いた書類は、スキャンされたデータよりも読みにくい」「横長の紙に書かれた文字列は長く、間違えが生じやすい」など。人間には何の変哲もないような情報だが、AI独自の審査基準で正誤判断を行うという。またOCR以外にも、音声やテキスト、画像などにも応用が効く技術であるとし、同社はCIの特許を出願中であるとしている。 「LLMでビジネスを戦っていく必要はない」 企業における生成AI導入の大きな課題であるハルシネーションに、独自技術で対策をとるAI inside。そんな同社は8月から、PolySphere-2に企業が持つデータを学習・ファインチューニングすることで、その企業オリジナルのSLMを構築できるサービスを提供している。 SLMとは「Small Language Mode」の略称で、日本語では小規模言語モデルといわれる。小さいパラメータ数を

                            “AIを評価するAI”でハルシネーションを大幅低下 AI insideが独自技術 “SLM”との組み合わせで挑むビジネス戦略とは
                          • E2743 – デジタル化と歴史研究の未来―人文学・社会科学の協働<報告>

                            デジタル化と歴史研究の未来―人文学・社会科学の協働<報告> 東京大学史料編纂所・菊地智博(きくちちひろ) 2024年9月7日、東京大学史料編纂所はシンポジウム「デジタル化と歴史研究の未来―人文学・社会科学の協働」をハイブリッド形式で開催した。科研費「日本近世史料学の再構築」(23K21964)の成果を基礎として、紙史料とデジタルデータとの有機的結合のもとに歴史情報を公開するあり方の考察から、デジタル化と歴史研究の未来を探ることを目的とするものである。対面・オンラインあわせて81人の参加者を得た。以下、その概要を紹介する。 司会は立石了(東京大学史料編纂所)が務めた。まず杉本史子氏(東京大学名誉教授・東洋文庫研究員)から趣旨説明があり、続けて4人が報告を行った。 ●第一報告「「編纂知」のDX―大日本維新史料『井伊家史料』・『松平昭休往復書翰留』編纂とデータベース構築の経験から」 筆者が、史料

                              E2743 – デジタル化と歴史研究の未来―人文学・社会科学の協働<報告>
                            • 生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(2) - digitalnagasakiのブログ

                              前回記事の続きです。生成 AI が、いつの間にか新しい局面を迎えているように思います。問い合わせをするための文字数制限(正確に言えばトークンの制限)が大幅に増え、問い合わせの際に、前提知識として学術論文数十本、あるいは新書10冊くらいを読み込ませてから回答させることができるようになっています。これまでは「生成 AI が持つ知識」を問い合せる形になっていましたが、これによって、「こちらが持つ知識や情報を生成 AI に考えさせる」ことができるようになりつつあります。この流れがさらに進めば、今まではできなさそうだった有用性を発揮することができるようになるかもしれない、ということで、とりあえず今試せることをちょこちょことやってみています。 で、前回記事をみた人から、J-STAGEからPDFをダウンロードする方法についてのリクエストがありましたので、ちょこっと書いてみます。 生成AIに読み込ませる信

                                生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(2) - digitalnagasakiのブログ
                              • 生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(1) - digitalnagasakiのブログ

                                先週末、カリフォルニア大学バークレー校にて、ご招待をいただいて発表をしてきました。AIと仏教研究の未来、というテーマのイベントで、世界中から関連研究者が招待されて発表をしていました。要するに、世界のデジタル仏教研究者が集まって発表をする、という会で、年に数回、こういうことが世界の各地で行われているのですが、私はもうなかでも古株というか古参というか、20年近くこの界隈にコミットしてきております。最近はAIの進展でこの世界も新しい展開を見せつつあり、また新しい人が参入してきています。 イベント自体は、生成AIを作っている話とか使ってみた話とか、そこからAIのあり方や利用方法などについて色々な議論が行われていて、とても面白いものでした。私はと言えば、今回はトリをつとめることになったので、面白いネタを、と思いまして、一つはこれまであちこちで話をしてきた(そしてこのブログでもご紹介している)AI-O

                                  生成AIの新展開!?―学術研究支援用ボットを作ってみた。その(1) - digitalnagasakiのブログ
                                • 手書きのメモの写真からペンの動きを抽出するモデル「InkSight」をGoogleが開発

                                  Googleのチームが手書きのメモの写真からペンの動きを抽出するモデル「InkSight」を発表しました。特殊なツール不要で手書きのメモを手書きのスタイルを維持したままデジタル化することが可能になるとのことです。 A return to hand-written notes by learning to read & write https://research.google/blog/a-return-to-hand-written-notes-by-learning-to-read-write/ [2402.05804] InkSight: Offline-to-Online Handwriting Conversion by Learning to Read and Write https://arxiv.org/abs/2402.05804 InkSightを使用すると、手書きの内

                                    手書きのメモの写真からペンの動きを抽出するモデル「InkSight」をGoogleが開発
                                  • ウェブページ上の画像を、右クリックメニューから検索 / OCR / 翻訳 できるようにする Firefox アドオン「Search on Google Lens」

                                    今日は、ウェブページ上の画像を、検索 / OCR / 翻訳 できるようにする Firefox アドオンSearch on Google Lensを紹介しようと思います。 Search on Google Lens(Firefox アドオン) 「Search on Google Lens」は、ウェブページ上の画像を検索 / OCR / 翻訳 できるようにする Firefox アドオンです。 Google Chrome に標準で搭載されている “ Google レンズで検索 ” 機能を Firefox の右クリックメニュー内に統合するアドオンで、ウェブページ上の画像を右クリックメニューから簡単に検索 / OCR / 翻訳 できるようにしてくれます。 Google レンズのページ 検索については、画像内の特定領域のみを検索にかけることもでき、OCR については、画像内の特定テキストのみを読み取る

                                      ウェブページ上の画像を、右クリックメニューから検索 / OCR / 翻訳 できるようにする Firefox アドオン「Search on Google Lens」
                                    • H2O.ai、小規模で高性能な文書分析AIモデルを発表 – 効率的なOCRと文書処理の新時代へ - イノベトピア

                                      Last Updated on 2024-10-19 08:39 by admin 2024年10月17日、オープンソースAIプラットフォームプロバイダーのH2O.aiが、新しい視覚言語モデル「H2OVL Mississippi-2B」と「H2OVL Mississippi-0.8B」を発表した。これらのモデルは、文書分析と光学文字認識(OCR)タスクの改善を目的としている。 H2OVL Mississippi-0.8Bモデルは、わずか8億のパラメータで、OCRBenchテキスト認識タスクにおいて、はるかに大きなパラメータを持つモデルを含むすべてのモデルを上回る性能を示した。一方、20億パラメータのH2OVL Mississippi-2Bモデルは、さまざまな視覚言語ベンチマークで優れた全体的な性能を示した。 これらのモデルは、Hugging Faceで無料で利用可能となっており、開発者や企

                                        H2O.ai、小規模で高性能な文書分析AIモデルを発表 – 効率的なOCRと文書処理の新時代へ - イノベトピア
                                      • MicrosoftがRecall機能のリリースを2024年12月まで再延期することを発表

                                        Microsoftが2024年5月に発表した操作履歴検索AI「Recall」は、セキュリティやプライバシーの観点から懸念の声が相次いだことを受け、2024年6月18日のCopilot+ PCリリース時点での搭載は見送り、2024年10月から試験的に配信されると発表されていました。しかしMicrosoftはまたしても繰り延べ宣言し、海外メディアのThe Vergeに対し「機能の準備にさらに時間が必要なことから、Recallのリリースを2024年12月まで延期する」との声明を発表しました。 Microsoft just delayed Recall again - The Verge https://www.theverge.com/2024/10/31/24284572/microsoft-recall-delay-december-windows-insider-testing Micro

                                          MicrosoftがRecall機能のリリースを2024年12月まで再延期することを発表
                                        • Llama 3.2 Vision · Ollama Blog

                                          Llama 3.2 Vision November 6, 2024 Llama 3.2 Vision is now available to run in Ollama, in both 11B and 90B sizes. Get started Download Ollama 0.4, then run: ollama run llama3.2-vision To run the larger 90B model: ollama run llama3.2-vision:90b To add an image to the prompt, drag and drop it into the terminal, or add a path to the image to the prompt on Linux. Note: Llama 3.2 Vision 11B requires lea

                                            Llama 3.2 Vision · Ollama Blog
                                          • Green Open Access - Free for Authors But at a Cost for Readers - The Scholarly Kitchen

                                            Green Open Access – Free for Authors But at a Cost for Readers DiscoveryDiversity, Equity, Inclusion, and AccessibilityOpen AccessPolicyResearch The price of the Gold-APC model for open access publishing increasingly challenges both the budgets and sensibilities of researchers and their institutions. Recently, I’ve observed that some advocates of open access have retreated from the goal of “flippi

                                              Green Open Access - Free for Authors But at a Cost for Readers - The Scholarly Kitchen
                                            • 商談化率を大幅改善!マーケで取り組んだ展示会Ops改革の7つの取り組み|瀬川義人 / Yoshi

                                              みなさん、こんにちは。 予実管理SaaSを提供するDIGGLE株式会社の瀬川(@motoy0shi)です。 弊社マーケティングチームでは、日々さまざまな施策を通して、見込み顧客の獲得を行なっています。その中でも注力しているチャネルが「展示会」です。 B2Bマーケティングをやっている方ならご存知かと思いますが、B2Bマーケティングの現場はまだまだ地上戦です。特に展示会は、コストや準備の手間はかかるものの、数日という短い期間で、大量の見込み顧客と接点を持てるため、非常に有力な施策です。 一方で、かつての弊社の中ではこんな意見もありました。「展示会って、たくさんリード取れるけど、検討度合いが薄いよね…。」実際に、データを見ても、リードこそ取れるものの、商談化率はそこまで高くなかったのです。 しかし、今年1年マーケティングチームを中心に、展示会オペレーションを少しずつ改善していった結果、商談化率は

                                                商談化率を大幅改善!マーケで取り組んだ展示会Ops改革の7つの取り組み|瀬川義人 / Yoshi
                                              • Google InkSight:手書きメモを瞬時にデジタル化 – AIが87%の精度で筆跡を保持したまま変換 - イノベトピア

                                                Last Updated on 2024-10-31 08:28 by admin Googleは、手書きメモをデジタルテキストに変換する新しいAIシステム「InkSight」を開発した。このシステムは以下の特徴を持つ 手書き文字の理解とデジタル再現を組み合わせたアプローチを採用 人間による評価で87%が有効なトレース、67%が人間の手書きと区別不可能 照明不足や背景の乱雑さにも対応可能 多言語対応で、中国語、英語、フランス語などのテキストを処理可能1 技術的な特徴: Google Vision TransformerとmT5言語モデルを活用 手書き文字の新規生成はできない(セキュリティ上の制限) Hugging Faceでデモ版を公開中 from:Google’s AI system could change the way we write: InkSight turns handwr

                                                  Google InkSight:手書きメモを瞬時にデジタル化 – AIが87%の精度で筆跡を保持したまま変換 - イノベトピア
                                                • E2744 – 帝国議会会議録検索システム、全期間本文テキストデータ公開

                                                  帝国議会会議録検索システム、全期間本文テキストデータ公開 調査及び立法考査局議会官庁資料課、 電子情報部電子情報企画課次世代システム開発研究室 2024年8月23日、国立国会図書館(NDL)は、帝国議会の速記録の画像を閲覧できる「帝国議会会議録検索システム」において、戦前・戦中期分(1890(明治23)年11月~1945(昭和20)年8月)の画像(約27万ページ)からOCR処理により作成した本文テキストデータを公開した。これにより、既に提供していた戦後期分(1945(昭和20)年9月~1947(昭和22)年3月)と合わせて、帝国議会の全期間にわたり速記録に掲載された質疑や議案本文などの全文検索とテキスト表示が可能になった。本稿では、今回のOCRテキスト化に関する取組を紹介する。 ●本文テキストデータの作成方法 帝国議会会議録検索システムは、2005年7月のサービス開始当初から戦後期分の本文

                                                    E2744 – 帝国議会会議録検索システム、全期間本文テキストデータ公開
                                                  • 高速推論チップ開発のGroqが強力なビジュアル言語モデルLLaVA1.5 7Bの提供開始 その影響とユースケースとは? | AMP[アンプ] - ビジネスインスピレーションメディア

                                                    GroqがLLaVA1.5のAPIを公開、ビジュアル言語モデルの可能性 高速推論チップを開発するGroqが、ビジュアル言語モデルLLaVA1.5 7BのAPIをリリースした。このモデルは、LLaVA(Large Language and Vision Assistant)と呼ばれ、OpenAIのCLIPとメタのLlama 2 7Bモデルをベースに開発された最先端のマルチモーダルAIだ。 Groqは、このLLaVA 1.5 7B(llava-v1.5-7b-4096-preview)をGroqCloud Developer Consoleで提供開始したことを発表。これにより、GroqCloudはテキスト(Gemma2やLlama3.1など)、音声(Whisperモデル)に加え、画像にも対応できるプラットフォームに進化を遂げたことになる。 LLaVAの特徴は、視覚的指示に従う能力と視覚的推論能

                                                      高速推論チップ開発のGroqが強力なビジュアル言語モデルLLaVA1.5 7Bの提供開始 その影響とユースケースとは? | AMP[アンプ] - ビジネスインスピレーションメディア
                                                    • Qwen2-VLとColPaliでマニュアル用ローカルQAボットを作ってみた

                                                      はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 弊社では製造業向けのRAGを使ったチャットボットの開発を行っていますが、RAGが普及してきた昨今においてまだまだ課題があるなと感じているのが、 マニュアルのような画像と文書の複合したドキュメントの読み取り です。 例えばPC操作の説明書などは良い例かなと思うのですが、画面スクショに矢印が入っていたり、それに対して説明が入っている文書は通常のRAGとの相性が悪いです。 以下は経産省が提供しているgBizINFOというサービスの操作説明資料を抜粋したものです。 元のPDF資料はこちら このように、図と文書が混在し、かつ矢印などでそれらが関連付けられているような形になります。 また 製造業ではセキュリティ的な懸念からこういった資料のアップロードやチャットの内容をクラウドに上げたくない企業も多いです。 こういったことから

                                                        Qwen2-VLとColPaliでマニュアル用ローカルQAボットを作ってみた
                                                      • 「AIの基盤技術を作る気はもともとない」リコーがLLM開発に着手した理由とは?

                                                        国内外を問わず、LLM(Large Language Models:大規模言語モデル)の開発が日進月歩で進められている。応答の正確性やモデルサイズ、マルチモーダルな機能など、特徴は千差万別だ。近年デジタルサービスの提供を強化するリコーも、LLMの研究開発に注力するうちの一社。同社はこれまでに、130憶パラメータや700憶パラメータなど複数のモデルを発表している。 ところで、リコーといえば、やはり複合機をはじめとするOA(Office Automation)機器を中心に、オフィス業務を支援するハードウェアやサービス展開のイメージが強い。そこで今回、リコーが手掛けるLLMについて、開発の背景やリコーならではの強みについて取材した。 (写真左から)リコー AIインテグレーションセンター 所長 梅津良昭氏、リコージャパン デジタルサービス企画本部 AIソリューションセンター センター長 児玉哲氏

                                                          「AIの基盤技術を作る気はもともとない」リコーがLLM開発に着手した理由とは?
                                                        • 【生成AI×RPA】Claudeの新機能「Computer Use」 を活用したリサーチ業務の自動化|Algomatic

                                                          はじめに近年、多くの企業が業務の生産性向上のために生成AIの活用を推進しています。そのような中、Anthropic社は先日、Claudeの新機能「Computer Use」のパブリックベータ版を公開しました。 この新機能は汎用的なRPAのようなもので、テキストによる指示だけで、Web検索やデータ分析、ドキュメント作成といったPC上の作業を全て生成AIが代行してくれるのが最大の特徴です。 業務の自動化という観点では従来のRPAでも可能ですが、通常RPAツールの導入には、環境準備や自動化する業務の選定、運用体制の構築といった作業が必要です。一方、Computer Useはこれらの作業を必要とせず、従来ツールの代替として期待されています。 本記事では、Computer Useが現状の業務効率化における課題をどのように解決し得るのか、その特徴や業務活用が期待されるケース、さらに弊社で作成したデモ動

                                                            【生成AI×RPA】Claudeの新機能「Computer Use」 を活用したリサーチ業務の自動化|Algomatic
                                                          • QA4AI - Download

                                                            2019年5月17日 2019.05版公開 初版 2020年2月1日 2020.02版公開 「AI-OCR」を新設 2020年8月1日 2020.08版公開 「機械学習における説明可能性・解釈性に関する技術動向」を新設 「AIプロダクトの品質保証の分類ごとのチェックリスト」「技術カタログ」を改訂 「生成系システム」「VUI」「産業用プロセス」「自動運転」「AI-OCR」を改訂 2021年9月15日 2021.09版公開 「技術カタログ」「生成系システム」「産業用プロセス」「自動運転」を改訂 2022年1月20日 2021.09en公開 2021.09の英訳版 2022年7月15日 2022.07版公開 「Voice User Interface」「産業用プロセス」「他の文書との関係」を改訂 2023年6月2日 2023.06版公開  「Voice User Interface」「自動運転」

                                                              QA4AI - Download
                                                            • TXP Medical、24.6億円調達し生成AIと電子カルテデータを主軸としたRWD事業の国内トッププレーヤーへ

                                                              TXP Medical、24.6億円調達し生成AIと電子カルテデータを主軸としたRWD事業の国内トッププレーヤーへ TXP Medical株式会社(本社:東京都千代田区、代表取締役CEO:園生 智弘、以下TXP Medical)は、総額約24.6億円にてシリーズCラウンドをクローズいたしました。MPower Partners、NTTコミュニケーションズ株式会社、メディカル・データ・ビジョン株式会社を引受先とした第三者割当増資ならびに、複数金融機関からの融資によるものです。なお、創業からの累計資金調達額は約40億円となります。 また、経営体制及びガバナンス強化、さらには生成AIを用いた事業創出を推進するため、社外監査役としてAIガバナンス/アジャイルガバナンスの専門家である羽深宏樹氏が就任いたしました。 ■資金調達の背景と目的 TXP Medicalは「医療データで命を救う。」をミッションと

                                                                TXP Medical、24.6億円調達し生成AIと電子カルテデータを主軸としたRWD事業の国内トッププレーヤーへ
                                                              • 【驚愕アプリ】Voicepaper!あらゆるコンテンツを簡単に音声化・テキスト化#voicepaper

                                                                PDF(テキスト化なしPDF含む)、カメラ、写真、クラウドを読み上げと音声化(MP3)にできる凄いアプリを見つけました。 ーーーー2024.10.14更新ーーーーーーーーーーー 2024.10.14 現在は、以下の通りとなっています。 iPhone16サブスクリプション料金 月額 900円 年額9000円 ーーーーーーーーーーーーーーーーーーーーーーー 動画の構成 00:00 イントロ 01:13 音声化の利点 02:24 課題 04:48 Voicepaperとは? 05:50 Voicepaperの使い方 06:48 ①ファイルから読み込み方法 11:21 ②カメラからの取り込み方法 14:43 ③写真フォルダからの取り込み 17:35 ④ブラウザから取り込み 20:27 ⑤その他クラウドから 22:20 まとめ 関連動画 ・【凄いアプリ】本を高速&自動撮影vFlatScan

                                                                  【驚愕アプリ】Voicepaper!あらゆるコンテンツを簡単に音声化・テキスト化#voicepaper
                                                                • G検定チートシート(cheat sheet)2024年11月試験(G2024#6)対応  シラバス2024年5月14日第1.0版|スキルフルな人生

                                                                  新しいシラバスに対応してシラバス順に作り直しをしました。 Ctrl+Fで検索で利用してください。 私の勉強方法などの経験は「G検定受けてみた」を参照ください。 また前作成した下記のバージョンもリンク貼っておきます。 1.人工知能の定義人工知能とは何か人工知能(AI)とは、人間の知的活動を模倣するコンピュータシステムのことを指します。具体的には、問題解決、学習、理解、推論、計画、自然言語処理、視覚認識などのタスクを実行するシステムです。例としては、音声アシスタント(SiriやAlexa)、画像認識を行うアプリ(Googleフォトの顔認識機能)などがあります。 人工知能のレベル人工知能はその複雑さや能力に応じて、以下の4つのレベルに分類されます: 単純な制御プログラム 例:自動販売機 特徴:事前に決められたルールやアルゴリズムに従って動作する。入力に対する出力が決まっている。 目的:特定のタス

                                                                    G検定チートシート(cheat sheet)2024年11月試験(G2024#6)対応  シラバス2024年5月14日第1.0版|スキルフルな人生
                                                                  • Home - Docling

                                                                    Docling Docling parses documents and exports them to the desired format with ease and speed. Features 🗂️ Reads popular document formats (PDF, DOCX, PPTX, Images, HTML, AsciiDoc, Markdown) and exports to Markdown and JSON 📑 Advanced PDF document understanding incl. page layout, reading order & table structures 🧩 Unified, expressive DoclingDocument representation format 🤖 Easy integration with L

                                                                    • 株式会社コーテッグ様の AWS 生成 AI 事例 「生成 AI-OCR 機能 で診察券読取業務を効率化、月間 7,500 時間の削減に成功」のご紹介 | Amazon Web Services

                                                                      Amazon Web Services ブログ 株式会社コーテッグ様の AWS 生成 AI 事例 「生成 AI-OCR 機能 で診察券読取業務を効率化、月間 7,500 時間の削減に成功」のご紹介 みなさん、こんにちは。AWS ソリューションアーキテクトの小林大樹です。 近年、AI の進歩は目覚ましいものがありますが、特に生成 AI の発展には目を見張るものがあります。私自身もアイデアの壁打ちやプログラミングに大規模言語モデル (LLM) を活用しており、日々その有用性を実感しています。ところで、生成 AI の真価はテキスト処理だけにとどまらない、ということをご存知でしょうか。 例えば、最新のモデルには、画像も入力として利用できるマルチモーダルモデルと呼ばれるものもあります。本記事では、マルチモーダルモデルを利用した Amazon Bedrock の活用事例として、株式会社コーテッグ様の取

                                                                        株式会社コーテッグ様の AWS 生成 AI 事例 「生成 AI-OCR 機能 で診察券読取業務を効率化、月間 7,500 時間の削減に成功」のご紹介 | Amazon Web Services
                                                                      • 「生成AIは情報収集に向いていない」専門家に聞く、今日からできる「情報収集」のヒント

                                                                        私たちの生活に欠かせない、情報収集。 日々、Webサイトや本などで興味のある情報やいつか役立ちそうな情報に出合うことがあるが、情報のストックがうまくできず、アウトプットに生かせないことも……。 そんな悩みを解決する方法を、前回に引き続き、現役の大学図書館司書であり、『大学図書館司書が教える AI時代の調べ方の教科書』(BOW BOOKS)を上梓した中崎倫子氏に聞いた。 日夜せっせと情報の収集に励んでも、いざというときにその情報を引き出せないと、収集の意味がない。“情報をいつでも使える状態”にしておくためには、どのような方法で情報をキープしておけばよいのだろうか。 中崎氏によると、情報のストックには「記憶」と「記録」の2種類があるという。 ①記憶する いつでも情報を使えるよう、頭の中に情報をストックしておく方法。 話して情報を伝える場合など、いちいちメモを確認できない場合にも有効だ。 「記憶

                                                                          「生成AIは情報収集に向いていない」専門家に聞く、今日からできる「情報収集」のヒント
                                                                        • AI導入を加速させるイベントを大阪で開催 『AI博覧会 Osaka 2025』AIに焦点を当てた最先端の展示会の参加&出展登録を受付中 - ロボスタ ロボスタ - ロボット情報WEBマガジン

                                                                          AIポータルメディア「AIsmiley」を運営するアイスマイリーは「AI博覧会 Osaka 2025」を大阪で開催する。日程は2025年1月22日(水)~1月23日(木)。場所はマイドームおおさか。参加は無料。 AI博覧会は、AI・人工知能に焦点を当てた最先端の展示会。最新の技術やプロジェクト、業界のトレンドにフォーカス。日本国内のAI関連企業や専門家が集まり、展示、講演、デモンストレーション等が行われ、ビジネスを変革させるカギとなる最先端のAIトレンド情報を収集できる。 「ChatGPT」などの生成AIをはじめとした最近技術、革新的なサービスなど、最新情報や知見が得られるだけでなく、AI導入を加速させるためのネットワーキング、商談機会を得ることもできる。 2024年8月に東京で開催され、65社が出展、22講演が行われた。 来場登録を受付中(無料)。下記の公式サイトの申込みフォームから登録

                                                                            AI導入を加速させるイベントを大阪で開催 『AI博覧会 Osaka 2025』AIに焦点を当てた最先端の展示会の参加&出展登録を受付中 - ロボスタ ロボスタ - ロボット情報WEBマガジン
                                                                          • 「The Living Word of St John」スキャン& OCR変換終了中ですが近藤先生の書籍を(祈)† | 「皇族は強姦殺人魔」山を愛する霊覚者・たきざわ彰人です(祈)†

                                                                            「The Living Word of St John」の英文テキスト修正に入りたいところですが、他にもテキスト化しなければならない書籍がたくさんあります、プライオリティを考えて近藤千雄先生翻訳の書籍をやはり先にテキスト化すべきではないかという事で「コナンドイルの心霊学」のテキスト見直しを開始しています。 他にもWordPressに全文UPしたい書籍が恐ろしいほどたくさんあり、シャレじゃなく本当に一生かかっても全ての作業を終えられないかも知れないと思っていまして、作業時間の捻出を本気で考えないといけないところなのですが、現状ほとんど実現率ゼロに近い状態で、打開したくて頭をひねっているところです。 フラー26新規デザイン75%完成中、プライオリティが低いですが絵を描かない人生になってしまったら僕は心がダメになってしまいますので、何とか描き続ける事で心の平静を取り戻そうとしています。もっともイ

                                                                              「The Living Word of St John」スキャン& OCR変換終了中ですが近藤先生の書籍を(祈)† | 「皇族は強姦殺人魔」山を愛する霊覚者・たきざわ彰人です(祈)†
                                                                            • 対話型音声AI SaaSのIVRy(アイブリー)、AIインターネットFAX「IVRy AI FAX(β版)」を提供開始 〜いつでもどこでも送受信可能!文字起こし機能でメモや書き写しも不要に〜

                                                                              対話型音声AI SaaSのIVRy(アイブリー)、AIインターネットFAX「IVRy AI FAX(β版)」を提供開始 〜いつでもどこでも送受信可能!文字起こし機能でメモや書き写しも不要に〜受信通知やデータ蓄積も可能!AI活用により生産性向上に寄与 対話型音声AI SaaS「IVRy(アイブリー)」を提供する株式会社IVRy(本社:東京都港区、代表取締役/CEO:奥西 亮賀、以下「当社」)は、新機能として、AIインターネットFAX「IVRy AI FAX(β版)」の提供を開始いたします。 「IVRy AI FAX(β版)」は紙で送受信しているFAXを、パソコンやスマートフォンで送受信することができる、AIインターネットFAXサービスです。受信したFAXの内容は管理画面で確認でき、受信の都度通知を受け取れます。さらに、FAXの内容がすべてAIによって文字起こしされるため、手書きのメモや書き写

                                                                                対話型音声AI SaaSのIVRy(アイブリー)、AIインターネットFAX「IVRy AI FAX(β版)」を提供開始 〜いつでもどこでも送受信可能!文字起こし機能でメモや書き写しも不要に〜
                                                                              • AIアイネス開発記録 #5|Sakusakumura

                                                                                私が開発しているAIキャラクターである、AIアイネスフウジン(AIアイネス)の進捗です。 日々の開発の様子はTwitterにて「#AIアイネス」のハッシュタグで発信してます! 前回のあらすじ前回の内容・これまでの活動内容については、 『AIアイネス開発記録 #4』を参照してください。 進捗一覧前回記事を書いたのが9月30日なので、10月から1月までの4か月間の活動記録となります。 LLMアイネスフウジンっぽい口調に変換するモデルの作成 学習データ ・Instructionデータセット/アイネスフウジン口調のデータセットの改善 ・学習データの更新(InesFujin_JapaneseCorpus_v2) AIアイネスフウジン マルチロールマルチターンの会話に対応したモデルの作成 サービスDiscordボット「アイネスフウジン」開発 「Chat with AInes」開発 活動アイネスフウジン

                                                                                  AIアイネス開発記録 #5|Sakusakumura
                                                                                • 入手超困難な英語書籍をあと3冊入手予定ですが全く発見できず、さぁどぉなるか(祈)† | 「皇族は強姦殺人魔」山を愛する霊覚者・たきざわ彰人です(祈)†

                                                                                  日本に配送してもらえない超レア書籍をこのように手元に転送してくれるサービスがある事が分かりましたので、入手を絶望視していた残りの3冊もこの手法を使って手に入れたいところですが、まずその書籍が存在していない。発見したとしてもウソみたいな金額の可能性がある、それだと僕は手が出せない。どぉなるんでしょうか。 「Paul in Athens」のボロボロさにくらべれば今回の「When Nero Was Dictator」はまだマシな書籍でしたがそれでも十分ボロボロ、印刷されたテキストの視認性もスゴク怪しい、つまりOCR変換の精度が下がるという事で、英文見直しがまたしても地獄になるのが目に見えていてウンザリ度がスゴイです。 近藤千雄先生翻訳の霊関連書籍で何としてもテキスト化したい書籍がまだまだたくさんありますので、まずはそちらに集中するつもりです。苦しくてどうしようもない毎週の長文テキスト撃ちをやめて

                                                                                    入手超困難な英語書籍をあと3冊入手予定ですが全く発見できず、さぁどぉなるか(祈)† | 「皇族は強姦殺人魔」山を愛する霊覚者・たきざわ彰人です(祈)†