タグ

ブックマーク / zenn.dev/tomioka (2)

  • OpenAIのGPT-4oを日本語OCRとして使ってみる

    昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

    OpenAIのGPT-4oを日本語OCRとして使ってみる
    misshiki
    misshiki 2024/05/14
    文字認識率が劇的によくなったらしいです。
  • OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる

    先日のOpenAI DevDayで、GPT-4 Turbo with visionというものが発表されました。Chat Completions APIで画像ファイルをインプットとして渡して、画像解析をしてくれるAPIです。 私は以前、「Azure Computer Vision APIの日語OCR機能を使ってみる」や「Google Cloud Vision APIの日語OCR機能を使ってみる」で、各クラウドの画像認識APIの日語OCR機能を検証するエントリーを書きました。OpenAIも画像認識APIが使えるようになったので、まったく同じ検証方法で評価してみました。 GPT-4 Turbo with vision OCR機能の利用 OpenAIAPI Keyを準備します。API Keyを取得されていない方は、「OpenAI API Key取得」で検索してください。 今回の検証コードは

    OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる
    misshiki
    misshiki 2023/11/15
    “フォントによって認識精度に結構な差が付きました。” やっぱりOCRは専門のものでやった方が良さそう。
  • 1