マルチモーダルLLMで日本語OCR試してみた。

テクノロジーカテゴリーの変更を依頼記事元:

beanslabo.co.jp

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

マルチモーダルLLMで日本語OCR試してみた。

・bilingual-gpt-neox-4b-minigpt4　(以下Rinna-4bとする) 「Rinna」が3.8Bパラメータの「GPT-NeoX」と... ・bilingual-gpt-neox-4b-minigpt4　(以下Rinna-4bとする) 「Rinna」が3.8Bパラメータの「GPT-NeoX」と「BLIP-2」を組み合わせて作成した英日バイリンガルのマルチモーダル会話モデルです。・japanese-instructblip-alpha (以下BLIP-Alphaとする) 「Stability AI」が開発した日本語向け画像言語モデルです。画像から説明を生成できる画像キャプションに加え、画像についての質問応答も可能です。・GPT-4V Open AI社がリリースした、マルチモーダルのLLMです。 GPT-4が元になっていて、画像での入力が可能になっています。マルチモーダルLLMでのOCRに期待する事については以下の通りです。・プロンプトの指示通りにOCRを行ってくれるのではないか (例)動物を意味する文字のみを抽出して

あとで読む

ブックマークしたユーザー

samurairodeo2024/05/29

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx