OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか? さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。 普通にテキストでのやり取りをしつつも画像データを扱えるということで、「実はこれいい感じのOCRとして使えるんじゃね?」って思っちゃったわけです。 ということで、今回はChatGPT-4oを使ってOCRを使うとどんなもんなのかやってみたいと思います。 やりたいこと やってみる とりあえずやってみる 請求書 名刺 参考文献 感想 やりたいこと 今回やりたいことはOCRです。早い話が画像ファイルを突っ込んでテキストを読み取りたいって感じです。 ただ、当たり前のようにOCRって言葉を使用していますがOCRって結構奥が深いです。 mediadrive.jp 単純に画像から文字を見つけて対応するテ
昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ
科学的知識は主に書籍や科学誌に保存されていますが、PDF形式が一般的です。しかし、この形式は特に数学的表現においてセマンティック情報の損失を引き起こします。この問題に対処するために、Meta AIの研究チームは『Nougat(Neural Optical Understanding for Academic Documents)』という新しいOCR(光学式文字認識)技術を開発しました。 Nougatは、数式や文章が複雑に配置された画像であっても、それをマークアップ言語に高品質で変換する能力を持っています。この技術は、新しい論文だけでなく、電子データが存在しない古い書類などの解析にも非常に有用です。 参照論文情報 タイトル:Nougat: Neural Optical Understanding for Academic Documents 著者:Lukas Blecher, Guillem
この記事はLayerXテックアドカレ2023の5日目の記事です。 昨日はmakogaさんがEngineering Career Ladderを作るときに気をつけたこと 其の一を書いてくれました。 次回はyuya-takeyamaさんがMicrosoft Graph APIについて書いてくれます!乞うご期待! こんにちは、機械学習を通じて誰かをラクにしたい yakipuです。 今回は、10月から始まったインボイス制度に伴う適格請求書発行事業者登録番号(以下「登録番号」と表記します)のOCR読み取りの戦いについて記したいと思います。 インボイス制度は、売手が買手に対して正確な税率や消費税額を示す適格請求書(インボイス)を交付することで、買手が仕入税額控除の適用を受けるために必要な制度です。売手側は登録事業者として登録番号などが記載されたインボイスを交付し、買手側はインボイスを保存する必要があり
はじめに 日々の業務作業で、画面や画像を見てその内容によって、その後の作業の流れや結果を変更する場面があります。そういった業務作業をPower Automate for desktopで自動化する際に、OCRのアクションを利用できます。 今回は、文字列が含まれた画像ファイルが複数入ったフォルダーを用意して、その中の各画像の文字列を抽出するサンプルフローを作成します。 [注意] アクションには、MicrosoftコグニティブのOCRの機能もありますが今回は使用しません。Azureアカウントなどは不要です。 「ファイル選択ダイアログ」アクションの後に「OCRを使ってテキストを抽出」アクションを使用するとデッドロックしてフリーズしてしまう問題があるようですので、ご注意ください。 フォルダー/素材の準備 まずはOCR読み込みのもととなる画像ファイルと、サンプル実行に必要なフォルダーを準備します。
LayerX バクラク事業部 機械学習チームの機械学習エンジニア兼マネージャーの松村(@yu-ya4)です。半年間に結婚祝いでいただいたたくさんのお酒が順調に減ってきているのですが、サントリーウイスキー角瓶 4Lペットだけはなくなる気配がありません。 この記事はLayerXテックアドカレ2023の16日目の記事のはずです。 前回はosukeさんの『Azure AI SearchのSemantic Ranker』という記事でした。 次回はminako-phさんによるタメになる記事、『Notionでスプリントのあれこれをダッシュボードで可視化する 』が公開予定ですされました。 昨今のAIの進化には目を見張るものがあります。先日のOpenAI DevDayやMicrosoft Igniteでも様々な衝撃的な発表がなされました。今週は違う意味で衝撃的なニュースが多かったですが。 そのような時代です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く