エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
マルチモーダルLLMで日本語OCR試してみた。
・bilingual-gpt-neox-4b-minigpt4 (以下Rinna-4bとする) 「Rinna」が3.8Bパラメータの「GPT-NeoX」と... ・bilingual-gpt-neox-4b-minigpt4 (以下Rinna-4bとする) 「Rinna」が3.8Bパラメータの「GPT-NeoX」と「BLIP-2」を組み合わせて作成した 英日バイリンガルのマルチモーダル会話モデルです。 ・japanese-instructblip-alpha (以下BLIP-Alphaとする) 「Stability AI」が開発した日本語向け画像言語モデルです。 画像から説明を生成できる画像キャプションに加え、画像についての質問応答も可能です。 ・GPT-4V Open AI社がリリースした、マルチモーダルのLLMです。 GPT-4が元になっていて、画像での入力が可能になっています。 マルチモーダルLLMでのOCRに期待する事については以下の通りです。 ・プロンプトの指示通りにOCRを行ってくれるのではないか (例)動物を意味する文字のみを抽出して