misshikiのブックマーク - はてなブックマーク

OpenAIのGPT-4oを日本語OCRとして使ってみる
昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成（Text To Speech）の表現力について非常に興味を持っています。私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ
misshiki 2024/05/14
文字認識率が劇的によくなったらしいです。

OpenAI

OCR

人工知能

GPT-4
リンク
OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる
先日のOpenAI DevDayで、GPT-4 Turbo with visionというものが発表されました。Chat Completions APIで画像ファイルをインプットとして渡して、画像解析をしてくれるAPIです。私は以前、「Azure Computer Vision APIの日本語OCR機能を使ってみる」や「Google Cloud Vision APIの日本語OCR機能を使ってみる」で、各クラウドの画像認識APIの日本語OCR機能を検証するエントリーを書きました。OpenAIも画像認識APIが使えるようになったので、まったく同じ検証方法で評価してみました。 GPT-4 Turbo with vision OCR機能の利用 OpenAIのAPI Keyを準備します。API Keyを取得されていない方は、「OpenAI API Key取得」で検索してください。今回の検証コードは
misshiki 2023/11/15
“フォントによって認識精度に結構な差が付きました。” やっぱりOCRは専門のものでやった方が良さそう。

OCR

OpenAI

人工知能
リンク
1

はてなブックマーク

タグ

ブックマーク / zenn.dev/tomioka (2)

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / zenn.dev/tomioka (2)

OpenAIのGPT-4oを日本語OCRとして使ってみる

OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス