![](https://cdn-ak-scissors.b.st-hatena.com/image/square/450398ece406ada1649d080bb36c635c723c3413/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--nKiibCXG--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E3%252580%252590Gemini-1.5-Pro%2525E3%252580%252591%2525E3%252583%25259E%2525E3%252583%2525AB%2525E3%252583%252581%2525E3%252583%2525A2%2525E3%252583%2525BC%2525E3%252583%252580%2525E3%252583%2525ABLLM%2525E3%252582%252592%2525E4%2525BD%2525BF%2525E3%252581%2525A3%2525E3%252581%2525A6%2525E5%25258B%252595%2525E7%252594%2525BB%2525E6%2525A4%25259C%2525E7%2525B4%2525A2%2525E3%252581%252597%2525E3%252581%2525A6%2525E3%252581%2525BF%2525E3%252581%25259F%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3A%2525E3%252582%2525AF%2525E3%252583%2525A9%2525E3%252582%2525A6%2525E3%252583%252589%2525E3%252582%2525A8%2525E3%252583%2525BC%2525E3%252582%2525B9%2525E6%2525A0%2525AA%2525E5%2525BC%25258F%2525E4%2525BC%25259A%2525E7%2525A4%2525BE%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzE2OGMwYmM4MTIuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)
エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
【Gemini-1.5-Pro】マルチモーダルLLMを使って動画検索してみた
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
【Gemini-1.5-Pro】マルチモーダルLLMを使って動画検索してみた
こんにちは、クラウドエース SRE ディビジョン所属の茜です。 今回は、マルチモーダル LLM として注目さ... こんにちは、クラウドエース SRE ディビジョン所属の茜です。 今回は、マルチモーダル LLM として注目されている Gemini-1.5-Pro を使用して、自然言語での動画検索が可能な簡易的なアプリケーションを作成します。 マルチモーダル LLM とは マルチモーダル LLM (Large Language Model) は、テキストだけでなく、画像、音声、動画などの複数のモダリティのデータを理解し、処理することができる大規模言語モデルです。 従来の LLM がテキストのみを扱うのに対し、マルチモーダル LLM は異なる種類のデータを統合し、より幅広いタスクに対応することができます。 マルチモーダル LLM は、以下のような特徴を持っています。 テキスト、画像、音声、動画の双方向のやり取りが可能 以下のようなタスクが実行可能です。 写真の情報をテキストで出力する テキストの内容を基に画