エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
LLaVA-NeXTで作業動画から画像入りの手順書を作成してみる
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
LLaVA-NeXTで作業動画から画像入りの手順書を作成してみる
はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 生成AIによる文章生成が発展... はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 生成AIによる文章生成が発展してく中で、入力に関して文章だけでなく様々な入力を扱えるようになってきています。音声や画像だけでなく、 GoogleのGemini 1.5 Proでは最大で1時間程度の動画を入力として扱うことができます。 弊社では製造業向けの生成AIを活用したプロダクト・サービス展開を行っており、この動画入力の技術を用いて、 製造現場での作業動画から作業手順書 を作るということを今回試してみたいと思います。 以下の2つのモデルで作業手順書の作成を行います。 Google Gemini 1.5 Pro Exp 0806 LLaVa-NexXT 前者はGoogleが提供しているクラウド環境で動く生成AIモデルです。 後者はByteDanceなどの研究者たちによって作られた オープンなマルチモーダル生成AI