Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/rinna

12 usersがブックマークコメント

コメント

2

記事へのコメント2件

注目コメント
新着コメント

secondlife 内容の興味深さもさることながら、学習リソースがA100 80Gx4 で10時間程度の少なさ・学習時間の短さというのもすごいな～

LLM

2023/07/27 リンク

misshiki “rinnaで取り組まれているjapanese-gpt-neox-3.6bを用いたマルチモーダルチャットのモデル構築（Japanese MiniGPT-4）について紹介”画像の内容に関して高度な対話を実現。いらすとや画像について対話するデモ。

2023/07/28 リンク

secondlife 内容の興味深さもさることながら、学習リソースがA100 80Gx4 で10時間程度の少なさ・学習時間の短さというのもすごいな～

LLM

2023/07/27 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る

はじめに LLMの応用先の一つに，テキストに加えて画像や音声といった複数のモーダルの入出力を行うマル... はじめに LLMの応用先の一つに，テキストに加えて画像や音声といった複数のモーダルの入出力を行うマルチモーダル情報処理があります．例えば，2023年3月に発表されたGPT-4の論文では，テキストと画像から構成されるプロンプトを入力することで，画像の内容に関して高度な対話を実現できることが報告されています．GPT-4のように，テキスト以外の情報を考慮して対話を行うタスクはマルチモーダルチャットと呼ばれています．マルチモーダルチャットを実現する方法として，テキストの情報のみで事前学習されたLLMを改良し，マルチモーダル情報を扱えるようにする手法が多数提案されています．例えば，テキストと画像を入力可能なタスクであれば，画像データで学習された画像のエンコーダとなるモデルをLLMに接続することで，画像とテキストを同じ枠組みで処理する手法（BLIP-2やMiniGPT-4）が提案されています．今回

ブックマークしたユーザー

yuiseki2023/08/11
toshikish2023/08/03
Wacky2023/07/28
knok2023/07/28
misshiki2023/07/28
pokutuna2023/07/28
secondlife2023/07/27

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx