タグ

OpenAIとOCRに関するmisshikiのブックマーク (4)

  • OpenAIのGPT-4oを日本語OCRとして使ってみる

    昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

    OpenAIのGPT-4oを日本語OCRとして使ってみる
    misshiki
    misshiki 2024/05/14
    文字認識率が劇的によくなったらしいです。
  • GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics

    こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそうですが、GPTも進化が目覚ましいので分かりませんね。 検証では、日語(漢字/ひらがな/カタカナ)・英語の2言語で精度など比較していきます。 また、手書き・活字での違いも見ていきましょう。 一番簡単に試せるChatGPT(Web版)でOCRをさせようとするとエラーになることが多かったので、 ここではAPIを使っていくこととします。 APIを呼び出すプログラム 以下のコードを使い、gpt-4-vision-previewというモデルを呼び出しています。 画像は個人のgithu

    GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
    misshiki
    misshiki 2023/12/18
    “今回は、GPT-4Vのモデル(gpt-4-vision-preview)を使ってOCRを試してみました。結論としては、英語であれば手書き・活字ともにかなりの精度でOCRできますが、日本語はまだまだ難しそうでした。”
  • OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる

    先日のOpenAI DevDayで、GPT-4 Turbo with visionというものが発表されました。Chat Completions APIで画像ファイルをインプットとして渡して、画像解析をしてくれるAPIです。 私は以前、「Azure Computer Vision APIの日語OCR機能を使ってみる」や「Google Cloud Vision APIの日語OCR機能を使ってみる」で、各クラウドの画像認識APIの日語OCR機能を検証するエントリーを書きました。OpenAIも画像認識APIが使えるようになったので、まったく同じ検証方法で評価してみました。 GPT-4 Turbo with vision OCR機能の利用 OpenAIAPI Keyを準備します。API Keyを取得されていない方は、「OpenAI API Key取得」で検索してください。 今回の検証コードは

    OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる
    misshiki
    misshiki 2023/11/15
    “フォントによって認識精度に結構な差が付きました。” やっぱりOCRは専門のものでやった方が良さそう。
  • ChatGPT APIのFunction callingを使って、請求書の構造化データを抽出する | gihyo.jp

    いまからわかる!ChatGPT活用プログラミング ChatGPT APIのFunction callingを使って⁠⁠、請求書の構造化データを抽出する 先月、OpenAIからFunction calling(関数呼び出し)機能がリリースされました。これが何なのか、何のために使うべきなのか、ちょっと見ただけでは分かりづらいと思います。 今回は請求書から情報抽出をするというよくありがちなケースを題材に、Function callingの利便性を示してみます。 Function callingとは OpenAI2023年6月13日にリリースしたChat APIの追加機能です。主にできることとして以下の3つが挙げられています。 外部ツールを呼び出して質問に答えるチャットボットを作成する 自然言語を内部APIの呼び出しやSQLに変換する テキストから構造化データを抽出する たとえば天気予報と血液型

    ChatGPT APIのFunction callingを使って、請求書の構造化データを抽出する | gihyo.jp
  • 1