並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 148件

新着順 人気順

OCRの検索結果1 - 40 件 / 148件

  • 国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) - Qiita

    はじめに 日本語OCR, 有料の業務用ソフトには色々と高性能なものがあるんですが、無料の場合の選択肢は意外に限られてます。最近ではGeminiなどにOCRさせることも試みてますが、縦書きに弱いのが欠点。加えて、私がやっているような著作権が切れた戦前の本のデジタル化の場合、認識率の低い旧字体が多いのが悩みの種。 そこで最近知ったのが、国立国会図書館が公開しているOCRライブラリ、NDLOCRです。国会図書館のデジタル資料(国立国会図書館デジタルコレクション)から全文テキストデータを作成するために開発されたとのこと。 NDLOCRは、現在ver2.1がGithubに公開されています。古い本が多い国会図書館の資料向けに作られているだけあって、旧字体でも高い精度で認識してくれます。今回は、このライブラリを試してみました。基本、Githubサイトに書いてある通りなんですが、いくつか注意すべき点をメモ

      国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) - Qiita
    • 国立国会図書館よ、永遠なれ

      この記事の3つのポイント 国立国会図書館のオンラインサービスの充実がすごい 新自由主義に侵された図書館のダメっぷりもすさまじい 「知りたいことが調べられる」が図書館の機能かつ使命 国会図書館という名称から、「国会議員向けの図書館で、自分には無関係」と思っている人はいないだろうか。“国会”図書館という名称は、そのルーツの一つが、1890年に開設された帝国議会の図書館があることに由来する。もう一つのルーツは大日本帝国時代の文部省・帝国図書館だ。 この2つが敗戦後、1948年の国立国会図書館法制定と共に統合されて、設立されたのが、現在の国立国会図書館である。その役割は、国立国会図書館法第2条に「国立国会図書館は、図書及びその他の図書館資料を蒐集し、国会議員の職務の遂行に資するとともに、行政及び司法の各部門に対し、更に日本国民に対し、この法律に規定する図書館奉仕を提供することを目的とする。」とある

        国立国会図書館よ、永遠なれ
      • なぜ、Difyなのか - Algomatic Tech Blog

        はじめに こんにちは!Algomatic ネオセールスカンパニーでエンジニアをしている末國と申します。 私たちが1月にリリースした営業AIエージェント「アポドリ」では、一部機能にDifyを組み込んでいます。 一部といっても、すでに100個近いワークフローが作られていたり、1日1万回呼び出したりするくらいには利用しています。 Difyはいわゆるローコードツールであり、「コードが書けない人が使うもの」「DifyはPoCで使って、本番はプログラムを書く」という印象もあるかもしれません。 しかし、私たちはむしろ積極的に「コードからDifyへの移行」を行ってきました。 この記事では私たちが「なぜDifyを利用しているのか」「何がそんなにいいのか」について書いていきます。 そもそもDifyとは何か 理由の話をする前に、そもそもDifyとは何か、特にワークフロー機能についておさらいしておきます。 すでに

          なぜ、Difyなのか - Algomatic Tech Blog
        • 画像や数式、多言語も対応できるOCR「Mistral OCR」

            画像や数式、多言語も対応できるOCR「Mistral OCR」
          • 高速かつ高精度な文字認識AIモデル「Mistral OCR」が登場、LaTeXで書かれた数式や図表入りPDFのレイアウトを崩さずマークダウン形式で出力できてJSONへのデータ抽出も簡単に

            AI開発企業のMistral AIが、画像に含まれるテキストを認識してテキストデータに変換できるAIモデル「Mistral OCR」を発表しました。Mistral OCRはLaTeXで書かれた複雑な数式も認識できるのに加え、文書に含まれる図や表の位置関係を崩さずマークダウン形式で出力できます。 Mistral OCR | Mistral AI https://mistral.ai/news/mistral-ocr Mistral AIはMistral OCRの能力を示す例を複数公開しています。まず、処理前のオリジナルデータが以下。テキストだけでなく図や表も含まれています。 Mistral OCRで処理した結果はこんな感じ。図とテキストの位置関係を崩さずに変換できました。また、表の内容も行や列の関係を崩さずに変換できています。OCR結果はマークダウン形式で出力され、出力結果をJSONなどの構

              高速かつ高精度な文字認識AIモデル「Mistral OCR」が登場、LaTeXで書かれた数式や図表入りPDFのレイアウトを崩さずマークダウン形式で出力できてJSONへのデータ抽出も簡単に
            • Mistral OCR | Mistral AI

              Mistral OCRIntroducing the world’s best document understanding API. Throughout history, advancements in information abstraction and retrieval have driven human progress. From hieroglyphs to papyri, the printing press to digitization, each leap has made human knowledge more accessible and actionable, fueling further innovation. Today, we’re at the precipice of the next big leap—to unlock the collec

                Mistral OCR | Mistral AI
              • 江戸時代の言葉を話すAIチャット「からまる」 Sakana AIが公開 古文書の2500万文字を学習

                AIベンチャーのSakana AI(東京都港区)は4月1日、江戸時代の古文風テキストで会話できるAIチャットbot「からまる」を公開した。約2500万文字に及ぶ、江戸時代の文章で構成したデータセットを学習している。研究と教育を目的に、HuggingFaceで公開している。 例えば、からまるに「あなたの名前はなんですか」と聞くと「某が名はからまるにて候」と返答。「AIにとって大事なものはなんですか」と尋ねると「AIにとりて大切なるものはデータなりこれによりて己か身を成長せしむる所以也」と返し、「スマホはなんですか」という問いには「携帯する小箱にて候則ち其中に文字や画図をもつて遠所に在る人々へ伝達する道具也」と回答する。 からまるのベースモデルには、AIベンチャー・ELYZAのオープンモデル「Llama-3-ELYZA-JP-8B」を利用。江戸時代の書物などをAIくずし字OCRで楷書体に直した

                  江戸時代の言葉を話すAIチャット「からまる」 Sakana AIが公開 古文書の2500万文字を学習
                • AIで経費精算業務60%削減!製品戦略と開発ロードマップを公開! - RAKUS Developers Blog | ラクス エンジニアブログ

                  はじめに:経費精算業務の現状と課題 当社は、経費精算業務を効率化するプロダクト「楽楽精算」を提供しています。 現在、多くの企業が紙やExcelで経費精算業務を行っており、申請から承認までに膨大な時間を要しています。 特に手作業による申請チェックや書類不備の差し戻しが、経理担当者の業務負担を増大させる要因となっています。 このような状況では、経理担当者が業績管理や予算策定といったコア業務に集中することが難しくなります。 こうした問題を解決するため、「楽楽精算」ではプロダクトでのAI活用を一層推進することとしました。 プロダクト開発に関わるエンジニアの皆さんにとっても、AIを活用したプロダクトの提供価値向上は大きな関心事ではないでしょうか。 一方で、AI導入の際にはインパクトの見積もりや、不確実性の扱い方について悩む場面もあると思います。 そこで本記事では経費精算業務の効率化に向けた、AIを活

                    AIで経費精算業務60%削減!製品戦略と開発ロードマップを公開! - RAKUS Developers Blog | ラクス エンジニアブログ
                  • Mistral、PDF文書をマルチモーダルでAI対応ファイルに変換するOCRのAPI提供開始

                    仏AI企業のMistral AIは3月6日(現地時間)、PDFや画像から、マルチモーダルな要素を高精度で抽出し、構造化された形式で出力する新API「Mistral OCR」を発表した。有償で提供する他、AIチャットbot「Le Chat」で無料で試すこともできる。 生成AIの基盤となるLLMは、プレーンなテキストデータに特化しており、PDFに含まれる画像や複雑なレイアウトを十分に理解することができない。Mistral OCRがPDFのようなマルチモーダルドキュメントを抽出、出力することで、PDFを直接理解するのが困難なLLMでも、PDFに含まれる情報を効果的に活用できるようになる。 Mistral OCRは、PDFの内容を単にテキスト化するのではなく、Markdown(リンクやヘッダなどの書式設定要素を追加するための書式設定構文)でフォーマットする。 PDFからデータを抽出するサービスは既

                      Mistral、PDF文書をマルチモーダルでAI対応ファイルに変換するOCRのAPI提供開始
                    • 習慣化できない人向けのLLMライフログ

                      「日々の活動をメモしろ」というのは、個人の生産性の文脈やライフログ等でよく言われます[要出典]。 実際に私も古くはA4用紙にメモっていったり、いろいろな手帳を試したり、howmやEvernote、Obsidianで色々やっていた過去がありましたが、最終的にはどれも三日坊主になり継続しませんでした。 というのも、メモをするより作業したほうが早いですし、いつも手を動かす方を優先してつい作業をしてしまいます。 特にOSS活動や趣味開発をしている時などは、仕事の後で時間がないので手を動かす方を優先したいとなりがちです。 実際、ここ1年ぐらいは毎週振り返りの予定をカレンダーに入れているのですが、2,3回ぐらいしか成功した記憶がありません。 入れているがほぼ実行されない予定 正直、「LLMなんとかしてくれーーーーー」と思います。 なのでLLMになんとかしてもらいました LLMによる自動ライフログ こん

                      • Bet TechnologyからBet AIへ|Matsumoto Yuki

                        こんにちは。LayerX CTOの松本です。 この2年と4ヶ月、LayerXとしてひたすらLLMに取り組んできました。2022年末にChatGPTが世界中を驚かせてから、私たちのビジネスや社会の在り方は急速に変化しています。私達が向き合うデジタル化も激しい変化の時が来ています。 そして今回、LayerXは創業以来初めての行動指針の根本的な変更を行うことになりました。これまでの6年間、私たちは「Bet Technology」という指針のもとで歩んできました。この6年の間にも行動指針の順序の入れ替えや副文の変更は何度か行われてきましたが、行動指針自体を変えるのは創業以来初めてのことです。これは単なる言葉の言い換えではなく、私たちの会社としての方向性と決意を明確に示す重要な転換点です。 新しくなった行動指針なぜ今このタイミングで変更するのか。それは、今まさに社会全体が生成AI・LLMによって変革

                          Bet TechnologyからBet AIへ|Matsumoto Yuki
                        • プログラミング入門書は、なぜ初心者に役立たないのか?|Ami Otsuka「生成AIに育てられた第1世代 | 研究者x SE」

                          ※カテゴリ。本全体では81位 文法学習がつまらないプログラミング入門書は、ほぼ例外なく最初に言語の文法やルールを説明する。変数、条件分岐、ループ、関数などの基本的な仕組みを覚えることからスタートする。 しかし、これが驚くほど退屈なのだ。英語学習にたとえてみるとよくわかる。文法のルールだけを暗記しても、実際に話したり聞いたりできるようになるわけではない。 プログラミングも同じで、文法知識だけでは実際に「自分の思ったもの」を作れるようになるはずがない。結局、頭に入れるだけ入れるものの役に立たず、挫折感だけが積もっていく。 さらに、文法パートが延々と続くことで、「プログラミング=面倒なルールの塊」という印象が刷り込まれてしまう。初心者が本当に必要なことは、簡単なプログラムでもいいから自分で動かしてみる楽しさだ。それなのに、プログラミングをやろうとしてすぐに文法の説明だけが続く本を読み進めるのは苦

                            プログラミング入門書は、なぜ初心者に役立たないのか?|Ami Otsuka「生成AIに育てられた第1世代 | 研究者x SE」
                          • Mistral OCR | Mistral AI

                            Mistral OCRIntroducing the world’s best document understanding API. Throughout history, advancements in information abstraction and retrieval have driven human progress. From hieroglyphs to papyri, the printing press to digitization, each leap has made human knowledge more accessible and actionable, fueling further innovation. Today, we’re at the precipice of the next big leap—to unlock the collec

                              Mistral OCR | Mistral AI
                            • 今週のはてなブックマーク数ランキング(2025年3月第5週) - はてなブックマーク開発ブログ

                              はてなブックマークのブックマーク数が多い順に記事を紹介する「はてなブックマーク数ランキング」。3月24日(月)~3月30日(日)〔2025年3月第5週〕のトップ30です*1。 順位 タイトル 1位 【保存版】親が亡くなったらやること全52項目を解説!一覧チェックシート付き - リハコ 2位 昨年入社した新人さんが、あまりにも助けを求めるのがうまくて、「こいつ人生二度目か?」と思った話。 | Books&Apps 3位 転職したら話し相手がいなかったんだけど 4位 なんか私のChatGPTだけ生成下手じゃない? なんでみんなそんなに上手にコントロールできるの? - posfie 5位 労働基準監督官だった頃の思い出 6位 ChatGPT『GPT-4o』の画像生成が大幅アップデート!新機能を徹底解説|ChatGPT研究所 7位 「ふつう」ではない人間が、なぜ金を貯められないのかを説明しよう |

                                今週のはてなブックマーク数ランキング(2025年3月第5週) - はてなブックマーク開発ブログ
                              • AMDが独自のビジュアル言語モデル「Instella-VL-1B」を公開、AMD製GPUでトレーニングし競争力のある性能を実現

                                半導体大手のAMDが、初の視覚言語モデル(VLM)となる「Instella-VL-1B」を発表しました。Instella-VL-1Bは、AMDが2025年3月に発表した言語モデル「Instella」ファミリーの一員で、AMDの生成AI向けGPUであるAMD Instinct MI300XでトレーニングされたVLMです。 Instella-VL-1B: First AMD Vision Language Model — ROCm Blogs https://rocm.blogs.amd.com/artificial-intelligence/Instella-BL-1B-VLM/README.html Instella-VL-1Bは、「パラメーター数が3億のビジョンエンコーダー」と「パラメーター数が12億の言語モデル」を組み合わせたパラメーター数15億のマルチモーダルモデルです。 AMDはI

                                  AMDが独自のビジュアル言語モデル「Instella-VL-1B」を公開、AMD製GPUでトレーニングし競争力のある性能を実現
                                • Sakana AI

                                  April 01, 2025 「からまる」はSakana AIが開発した江戸古文風チャットボットです。現代日本語で質問すると、江戸時代の世界観と当時の古文風テキストで回答してくれます。学術プロジェクトと協力して、江戸時代の書物から約2500万文字のデータセットを構築し、大規模言語モデルを継続学習しました。からまるのデモはこちらでお試しいただけます。 概要 Sakana AIは、江戸時代の古文風テキストで会話できるチャットボット「からまる」を公開します。現代のテキストを学習した大規模言語モデル(LLM)に対して、江戸時代の書物など数千点以上から構築した江戸テキストデータセットを継続学習させることにより、現代日本語で質問すると江戸時代の古文風テキストで回答できるチャットボットを開発しました。回答の内容には江戸時代の世界観が反映されているため、過去の文化への没入感がより高い会話を楽しめるようにな

                                    Sakana AI
                                  • Sarashina2-Vision: 日本語特化の大規模視覚言語モデルの公開 - SB Intuitions TECH BLOG

                                    概要 SB Intuitionsでは、日本語や日本の文化・慣習に強い大規模視覚言語モデル(Vision-Language Model; VLM)の開発を進めており、2025年3月に弊社の日本語大規模言語モデル(Large Language Model; LLM)のSarashina2をベースに開発したVLMであるSarashina2-Vision (8B・14B)を公開しました。 Sarashina2-Visionは、日本に関連する画像に基づいた専門的タスクの処理能力を測るベンチマークや日本語の複雑図表の理解能力を測る内製ベンチマークなど、複数の日本語ベンチマークにおいて国内最高の性能を実現しています。 この記事ではVLM学習チームがSarashina2-Visionのモデル構成と学習の詳細について紹介します。評価については別記事をご参照ください。 使い方 Sarashina2-Visio

                                      Sarashina2-Vision: 日本語特化の大規模視覚言語モデルの公開 - SB Intuitions TECH BLOG
                                    • Here’s how I use LLMs to help me write code

                                      11th March 2025 Online discussions about using Large Language Models to help write code inevitably produce comments from developers who’s experiences have been disappointing. They often ask what they’re doing wrong—how come some people are reporting such great results when their own experiments have proved lacking? Using LLMs to write code is difficult and unintuitive. It takes significant effort

                                        Here’s how I use LLMs to help me write code
                                      • 士業の方々へ。AI-OCRの勧め。|行政書士 辻󠄀 太輔

                                        はい、こんにちは。 猫背とストレートネックのダブルパンチで、最近は逆腹筋にハマり中、目指せウエスト-6cm!(…って、いつ達成できるのやら…)な行政書士の辻です。 さてさて、しょうもない冗談は置いといて、本題に入りましょうか。 「ちょ、先生!まさか、その書類の山、全部手打ちするつもりじゃないですよね…?」 時は令和ですよ、令和。 士業の先生方、いまだに紙の書類とガチンコ勝負、本当にお疲れ様です…! お客さんから渡された手書きの申請書、役所の年季の入った資料…。 「デジタル化?なにそれ美味しいの?」状態になってませんか? もし、あなたが「OCR?…ああ、目の検査のやつね」とか思っちゃったなら、この記事は絶対に見逃しちゃダメです。 え?「OCRは知ってるけど、なんか難しそう…」って? だったら、なおさら必読ですよ。 実は、あのGoogle様が開発した天才AI「Gemini」を使えば、ビックリす

                                          士業の方々へ。AI-OCRの勧め。|行政書士 辻󠄀 太輔
                                        • 31日の日曜日|mri

                                          LayerX バクラク事業部でプロダクトのデザインを担当しています森です。 突然ですが、どんな日付選択のUI(所謂Date Picker)を使っていますか? バクラクには内製したライブラリがあります。 内製した理由はいくつかあるのですが、その内の一つはカレンダーの第一週目の表示にあります。 カレンダーの第一週目どういうことかと言うと、第一週目の空いている部分に、前月の日付を表示させ、カレンダーを遷移させることなく、前月の月末を選択したいという要望からです。 空き部分に前月を表示シンの月末それっぽいことができるライブラリはあるのですが、第一週の空白を埋めているにすぎないので、1日が日曜であった場合、前月が表示されません。 第一週目に空きがないと前月は表示されないそしてもう一つ、この場合。 前月の31日は表示されているが…バクラクではこう表示しています。 前月をもう一週分表示する31日は確かに

                                            31日の日曜日|mri
                                          • Mistral OCR

                                            Mistral OCR (via) New closed-source specialist OCR model by Mistral - you can feed it images or a PDF and it produces Markdown with optional embedded images. It's available via their API, or it's "available to self-host on a selective basis" for people with stringent privacy requirements who are willing to talk to their sales team. I decided to try out their API, so I copied and pasted example cod

                                              Mistral OCR
                                            • 「あなた2号」は意識をもつのか?→「AI研究の世界的権威」の答えが正論過ぎて、ぐうの音も出ない

                                              1948年ニューヨーク生まれ。Google社で機械学習と自然言語処理の研究を率い、現在は同社の主任研究員兼AIビジョナリー。MIT在学中に20歳で起業。以来、数々の発明品を世に送りだしてきた。おもなものに、CCDフラットベッドスキャナー、オムニフォント式OCRソフト、視覚障碍者用の文章読みあげ機、オーケストラ楽器を再現できるシンセサイザー「Kurzweil K250」などがある。「MITレメルソン賞」やアメリカの技術分野で最高の栄誉とされる「国家技術賞」を受賞し、全米発明家殿堂入りした。音楽技術における優れた業績によりグラミー賞も受賞。21の名誉博士号をもつ。PBS(公共放送サービス)「アメリカをつくった16人の革命家」のひとりにも選ばれている。 ニュースな本 ビジネス・経済から、エンタメに教育、政治まで……。世の中には山のように書籍が存在する。その中から「読んでためになる」「成長できる」

                                                「あなた2号」は意識をもつのか?→「AI研究の世界的権威」の答えが正論過ぎて、ぐうの音も出ない
                                              • OCR and Document Understanding | Mistral AI Large Language Models

                                                Document OCR processor​ The Document OCR (Optical Character Recognition) processor, powered by our latest OCR model mistral-ocr-latest, enables you to extract text and structured content from PDF documents. Key features: Extracts text content while maintaining document structure and hierarchy Preserves formatting like headers, paragraphs, lists and tables Returns results in markdown format for eas

                                                  OCR and Document Understanding | Mistral AI Large Language Models
                                                • 複雑なレイアウトや方程式、多言語も読み取れる「Mistral OCR」の実力とは

                                                  Mistral AIは2025年3月6日(仏国時間)、OCR(Optical Character Recognition:光学的文字認識)API「Mistral OCR」を発表した。同社は以下のように紹介している。 Mistral OCRは、ドキュメント理解の新たな標準となる光学式文字認識APIだ。他のモデルとは異なり、Mistral OCRはドキュメントの各要素(メディア、テキスト、表、数式)をかつてない精度と認識力で理解する。Mistral OCRは画像やPDFを入力とし、テキストと画像を順序よくインターリーブしてコンテンツを抽出する。 Mistral OCRは、マルチモーダル文書(スライドや複雑なPDFなど)を入力とするRAG(検索拡張生成)システムと組み合わせて使用するのに理想的なモデルといえる。 当社では、対話型AIアシスタント「Le Chat」の数百万人のユーザーが文書を理解で

                                                    複雑なレイアウトや方程式、多言語も読み取れる「Mistral OCR」の実力とは
                                                  • ケネディ大統領暗殺事件の陰謀論を公開文書から探る|七誌

                                                    ケネディ大統領暗殺に関する陰謀論を決定的に証明するような証拠が公開文書に含まれるのかを探ります。 出典データの出典は以下の記事を参照してください。 AI による分析を翻訳して引用します。 ソビエトJFK暗殺事件の文脈では、ソ連が特にKGBを通じて関与または影響力を持つ可能性が懸念されるため、ソ連は重要な位置を占めている。文書は、CIAがソ連の活動を積極的に監視し、暗殺事件に関連する人物や事件との潜在的なつながりを調査していたことを示唆している。ソ連からの亡命者とKGBによる潜在的な個人の採用に焦点を当てていることは、この時期に継続されていた防諜活動の取り組みを浮き彫りにしている。 重要性この文書は、ヘルシンキにおけるオズワルドの活動の時系列と、ソビエト領事館との接触について明らかにしており、これは、彼の旅行中の潜在的なつながりや影響力を理解する上で関連している。 104-10004-101

                                                      ケネディ大統領暗殺事件の陰謀論を公開文書から探る|七誌
                                                    • 日本語特化OCR&文章画像解析エンジン「YomiToku」解説!日本語ポスターや漫画を解析してみた | WEEL

                                                      YomiToku以外にもOCRでテキストを読み取るものはありますが、日本語特化のOCRは初めてなのではないでしょうか。本記事ではYomiTokuがどういったものなのか、google colaboratoryでどのように実装するのかをお伝えします。 また、OCRの精度も検討してみたいと思いますので、ぜひ最後までお読みください! 日本語の文書画像解析、OCRに対応したPythonパッケージ「YomiToku」を公開しました。 独自に学習したAIが搭載されており、ローカルサーバーでPDFや文書画像の解析、OCRや表の構造解析、レイアウト解析が可能です。結果はHTMLやCSV, JSON, Markdownといった形式でエクスポート可能です。… pic.twitter.com/d7cYXWjAUo — Kotaro Kinoshita (@KINOCOAI) November 26, 2024 Y

                                                      • 仏Mistral AI、Markdown出力も可能な「Mistral OCR」

                                                          仏Mistral AI、Markdown出力も可能な「Mistral OCR」
                                                        • 生成AI(gemini)を使って16進ダンプリストを入力する | ず@沖縄

                                                          過去のプログラムで遊ぶ時に 避けられないのがプログラムリストの入力である。 BASICであれば、入力時・実行時にエラーが出るので、まだなんとかなる。 でも、16進ダンプは打ち間違えると、プログラムが暴走してどこで間違えたかわからない。 後年になると、縦横チェックサムが考案されて チェックは楽になったのだが、入力の手間は変わらなかった。 近年、“Program List OCR” などの優秀なOCRソフトウェアが開発され、入力の手間は格段に楽になったのだが、それでも事前・事後の整形やチェックに少々手間がかかる。 Program List OCR: 808 Midwayもっと手間を省けないかと考えているうちに閃いた! 生成OCRに全部やらせれば良いんじゃない? Geminiに16進ダンプを喰わせてみたいくつかの生成AIで試してみたのですが、私が使った範囲では Google gemini が 精

                                                            生成AI(gemini)を使って16進ダンプリストを入力する | ず@沖縄
                                                          • 「AI履歴書読み取り機能」開発の舞台裏 ── ぜんぶ見せます! - SmartHR Tech Blog

                                                            こんにちは、AIインテグレーションユニットの木村です。 この記事では、AIインテグレーションユニットで行ってきた「AI履歴書読み取り機能」開発の舞台裏を、検証プロセスや得られた知見を中心に紹介します。 目次 目次 「AI履歴書読み取り機能」の開発理由 「AI履歴書読み取り機能」のコンセプト 「AI履歴書読み取り機能」の技術検証 技術検証のやり方 各LLMモデルへの期待値と検証後の評価 GPT-4o ── 高い期待値で始めたものの、思ったほどの精度が出ず GPT-4o mini ── 画像を添付した際にトークン数が跳ね上がり、そこまで安くならなかった Gemini 1.5 Pro ── PDFをそのまま添付できるのが便利。サーバー高負荷エラーがしばしば Gemini 1.5 Flash ── 十分な精度と速度と使い勝手、圧倒的なコストパフォーマンス Claude 3.5 Sonnet ──

                                                              「AI履歴書読み取り機能」開発の舞台裏 ── ぜんぶ見せます! - SmartHR Tech Blog
                                                            • Mistral OCR | Mistral AI

                                                              Mistral OCRIntroducing the world’s best document understanding API. Throughout history, advancements in information abstraction and retrieval have driven human progress. From hieroglyphs to papyri, the printing press to digitization, each leap has made human knowledge more accessible and actionable, fueling further innovation. Today, we’re at the precipice of the next big leap—to unlock the collec

                                                                Mistral OCR | Mistral AI
                                                              • 8 Perfect List Of Free Adobe Software Alternatives

                                                                Exploring Adobe Software Alternatives has become increasingly popular as creators seek cost-effective and versatile options for their digital projects. This comprehensive guide delves into free and freemium substitutes for eight essential Adobe applications, including Photoshop, Lightroom, After Effects, Illustrator, Premiere Pro, Express, InDesign, and Acrobat. Perfect List of Free Adobe Software

                                                                  8 Perfect List Of Free Adobe Software Alternatives
                                                                • Mistral AIのOCR機能使ってみた

                                                                  import os from mistralai import Mistral api_key = os.environ["MISTRAL_API_KEY"] client = Mistral(api_key=api_key) ocr_response = client.ocr.process( model="mistral-ocr-latest", document={ "type": "document_url", "document_url": "https://arxiv.org/pdf/2201.04234" }, include_image_base64=True ) { "pages": [ { "index": 0, "markdown": "# LEVERAGING UNLABELED DATA TO PREDICT OUT-OF-DISTRIBUTION PERFORM

                                                                    Mistral AIのOCR機能使ってみた
                                                                  • 2025/03/27(木)の出来事 - My Bookmark

                                                                    琵琶湖にある有人島・沖島に伊勢大神楽が来る日 【洗濯初心者向け】洗濯機の使い方から干し方までわかりやすく紹介【新生活】 | Lidea(リディア) by LION 『スペースコブラ』のアクションゲームが8月26日に発売決定!ストーリーはアニメ版の12エピソードをなぞる。おなじみのサイコ・ガンや“博物館入りのシロモノ”「パイソン77マグナム」も登場し、2人協力プレイモードも実装。PC(Steam)、PS5、Xbox、Nintendo Switchに向けて GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか 独身時代はビビットな感覚があったが、出産を機に頭にモヤがかかったような状態になってしまい、アイデンティティが崩れてずっと苦しむ→友人に救われた話 書籍関係者たちが「ヤバい」と声を揃える『大人も知らない みのまわりの謎大全』、300pにおよぶゲーム攻略本みたいな情報

                                                                      2025/03/27(木)の出来事 - My Bookmark
                                                                    • Anthropic prepares Harmony, AI agent to work with local files

                                                                      Anthropic is actively developing Harmony, a new feature designed to let users integrate a local directory of files into Claude’s context. This will enable users to interact with their files seamlessly, allowing the AI to read, index, and analyze content within the directory. BREAKING 🚨: Early preview of the upcoming Harmony feature for Claude. Harmony will allow users to give Claude FULL access t

                                                                        Anthropic prepares Harmony, AI agent to work with local files
                                                                      • アプリ不要!iPhoneの標準機能で写真や画像から簡単に文字起こしする方法

                                                                        本投稿はnote投稿「iPhone画像から文字起こし」より移管しました この投稿の対象者 写真や画像内の文字を簡単にテキストデータに変換したいiPhoneユーザー​ 追加のアプリをインストールせずに、iPhoneの標準機能を活用したいユーザー​ 手書きメモや印刷物をデジタル化して効率的に管理したい方​ 名刺や書類の情報を手軽に取り込みたいビジネスパーソン​ 外国語の看板やメニューを翻訳したい旅行者 この投稿を読むメリット 時間と労力の節約:​手動入力の手間を省き、効率的にテキストデータを作成できます。​ 高い正確性:​手入力によるミスを防ぎ、正確なデータ変換が可能です。​ 多言語対応:​外国語のテキストも認識し、翻訳機能を通じて理解できます。​ 手書きメモのデジタル化:​手書きのメモやノートを簡単にデジタル化し、整理や共有が容易になります。​ 連絡先情報の即時利用:​名刺や看板の電話番号や

                                                                          アプリ不要!iPhoneの標準機能で写真や画像から簡単に文字起こしする方法
                                                                        • PDFをMarkdownにしてからNotebookLMに読んでもらったら想像より良かった|tnkt

                                                                          NotebookLMに自炊したPDFを読んでもらいたかったのですが、イマイチ回答精度が低く使い物にならず。試しにMarkdown(マークダウン)にしてから読んでもらったら良い感じに使えるようになりました。 ※自炊したPDFを利用しているので以降の作業は個人の環境で行っています。 OCRなしのPDFは読み込み精度が低いGoogleのNotebookLMに自炊したPDF(OCRなし)を読み込ませていろいろ質問してみたのですが、それっぽい事を言いつつも提示されたソースに話している内容が含まれておらず、回答精度にイマイチ納得がいきませんでした。 そこで、PDFをAIが理解しやすいとされるMarkdownにしてからNotebookLMに読み込ませてみることにしました。 Document intelligenceでPDFを読み込むPDFをMarkdownにするためにAzureのAIサービス「Docum

                                                                            PDFをMarkdownにしてからNotebookLMに読んでもらったら想像より良かった|tnkt
                                                                          • Computer useでサブスクの解約をほぼ自動化してみた話

                                                                            はじめに 最近、多くのサービスがサブスクリプション方式になっていますよね。Netflix、Spotify、Amazon Prime、各種SaaSツールなど、私たちの生活や仕事を便利にするサービスが月額や年額で提供されています。これらは確かに便利である一方、気づかないうちに毎月の固定費が増えてしまい、「これ、何の支払いだったっけ?」と明細を見て驚くことも少なくありません。 さらに厄介なのが解約手続きです。サービスごとに解約方法が異なり、以下のような問題が生じています: 「解約ページがどこにあるのか見つからない」 「解約手順が複雑で、途中で諦めてしまう」 「解約しようと思っても後回しにしてしまい、無駄な出費が続いてしまう」 「解約ページに辿り着いても、引き止めの策略に引っかかってしまう」 このような悩みをAIの力と最新の自動化技術を使って完全に解決したいと考え、本プロジェクトを立ち上げました。

                                                                              Computer useでサブスクの解約をほぼ自動化してみた話
                                                                            • えっ、もう働かなくていいの?「AI研究の世界的権威」が予測する「10年後の世界」が想像の斜め上だった

                                                                              1948年ニューヨーク生まれ。Google社で機械学習と自然言語処理の研究を率い、現在は同社の主任研究員兼AIビジョナリー。MIT在学中に20歳で起業。以来、数々の発明品を世に送りだしてきた。おもなものに、CCDフラットベッドスキャナー、オムニフォント式OCRソフト、視覚障碍者用の文章読みあげ機、オーケストラ楽器を再現できるシンセサイザー「Kurzweil K250」などがある。「MITレメルソン賞」やアメリカの技術分野で最高の栄誉とされる「国家技術賞」を受賞し、全米発明家殿堂入りした。音楽技術における優れた業績によりグラミー賞も受賞。21の名誉博士号をもつ。PBS(公共放送サービス)「アメリカをつくった16人の革命家」のひとりにも選ばれている。 ニュースな本 ビジネス・経済から、エンタメに教育、政治まで……。世の中には山のように書籍が存在する。その中から「読んでためになる」「成長できる」

                                                                                えっ、もう働かなくていいの?「AI研究の世界的権威」が予測する「10年後の世界」が想像の斜め上だった
                                                                              • キャディ機械学習勉強会: Qwen2-VL - CADDi Tech Blog

                                                                                こんにちは、Data&Analysis部(D&A)です。 D&Aでは週1回、機械学習の勉強会を開催しており、本記事は、勉強会の内容を生成AIを活用して記事にまとめたものものです。 ※勉強会内容公開の経緯はこちら ※過去の勉強会は「社内勉強会」タグからもご覧いただけます。 概要 Qwen2-VL の概要 技術的な特徴 主なベンチマーク結果と性能 関連モデル モデルの利用とライセンス 結論と感想 参考リンク 概要 今回の勉強会ではAlibaba Cloud が開発した Vision-Language Model (VLM) である Qwen シリーズ、特に Qwen2-VL の特徴、性能、関連モデルについて話しました。 調査した動機は、Qwenシリーズは日本語の性能が高いとされており、そのマルチモーダルモデルが画像解析を扱う我々の事業領域にマッチしていることです。またDeepSeek R1の蒸

                                                                                  キャディ機械学習勉強会: Qwen2-VL - CADDi Tech Blog
                                                                                • 講義動画における生成 AI を活用した字幕生成 - スタディサプリ Product Team Blog

                                                                                  こんにちは、『スタディサプリ』の iOS エンジニアのヴァンサンです。 先日、『スタディサプリ』の一部の講座の動画に日本語字幕が追加されました。音声と同じ言語の字幕は、聴覚に障がいのあるユーザーだけでなく、音声が聞こえづらい環境や、イヤホンが手元になく音を出せない環境でも有用です。さらに、字幕データ自体も検索や内容のまとめなど、さまざまな用途での活用が期待できます。そのデータがなければ、せっかく制作したコンテンツをフル活用できないでしょう。 この記事では、私たちが自動生成を選んだ経緯や字幕生成のプロセスを紹介します。私の生成 AI に関する知識はまだ浅く、改善の余地は多分にあります。また、AI 技術は急速に進化しているため、ここで紹介する方法はすぐに時代遅れになる可能性もあります。それでも、この取り組みが何かの参考になれば幸いです。 字幕 まず、生成について説明する前に、字幕の基本的な概念

                                                                                    講義動画における生成 AI を活用した字幕生成 - スタディサプリ Product Team Blog