はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 生成AIによる文章生成が発展してく中で、入力に関して文章だけでなく様々な入力を扱えるようになってきています。音声や画像だけでなく、 GoogleのGemini 1.5 Proでは最大で1時間程度の動画を入力として扱うことができます。 弊社では製造業向けの生成AIを活用したプロダクト・サービス展開を行っており、この動画入力の技術を用いて、 製造現場での作業動画から作業手順書 を作るということを今回試してみたいと思います。 以下の2つのモデルで作業手順書の作成を行います。 Google Gemini 1.5 Pro Exp 0806 LLaVa-NexXT 前者はGoogleが提供しているクラウド環境で動く生成AIモデルです。 後者はByteDanceなどの研究者たちによって作られた オープンなマルチモーダル生成AI
![LLaVA-NeXTで作業動画から画像入りの手順書を作成してみる](https://cdn-ak-scissors.b.st-hatena.com/image/square/ee0a6b416cecd319adc33faf65a96abfb6523795/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--X8cPsJ-a--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3ALLaVA-NeXT%2525E3%252581%2525A7%2525E4%2525BD%25259C%2525E6%2525A5%2525AD%2525E5%25258B%252595%2525E7%252594%2525BB%2525E3%252581%25258B%2525E3%252582%252589%2525E7%252594%2525BB%2525E5%252583%25258F%2525E5%252585%2525A5%2525E3%252582%25258A%2525E3%252581%2525AE%2525E6%252589%25258B%2525E9%2525A0%252586%2525E6%25259B%2525B8%2525E3%252582%252592%2525E4%2525BD%25259C%2525E6%252588%252590%2525E3%252581%252597%2525E3%252581%2525A6%2525E3%252581%2525BF%2525E3%252582%25258B%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_34%3A%2525E3%252581%252597%2525E3%252582%25258D%2525E3%252581%25258F%2525E3%252581%2525BE%252Cx_220%252Cy_108%2Fbo_3px_solid_rgb%3Ad6e3ed%252Cg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzMxODFlZGI0MTkuanBlZw%3D%3D%252Cr_20%252Cw_90%252Cx_92%252Cy_102%2Fco_rgb%3A6e7b85%252Cg_south_west%252Cl_text%3Anotosansjp-medium.otf_30%3A%2525E6%2525A0%2525AA%2525E5%2525BC%25258F%2525E4%2525BC%25259A%2525E7%2525A4%2525BE%2525E3%252583%252595%2525E3%252582%2525A1%2525E3%252583%2525BC%2525E3%252582%2525B9%2525E3%252583%252588%2525E3%252583%2525BB%2525E3%252582%2525AA%2525E3%252583%2525BC%2525E3%252583%252588%2525E3%252583%2525A1%2525E3%252583%2525BC%2525E3%252582%2525B7%2525E3%252583%2525A7%2525E3%252583%2525B3%252Cx_220%252Cy_160%2Fbo_4px_solid_white%252Cg_south_west%252Ch_50%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzM0NjU3ODEwYjQuanBlZw%3D%3D%252Cr_max%252Cw_50%252Cx_139%252Cy_84%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)