3行でまとめると LLM分散学習ハッカソンに参加し、Vision-Languageモデルの一つであるBLIP2のHuggingFaceモデルを拡張して動画からテキスト生成するVideoBLIPを作成しました。ソースコードはGithubで公開しています。 運転映像に対する説明文章を学習に用いてVideoBLIPの学習を行い、運転映像を説明するモデルを作成しました。(以下のように運転映像に対して説明文が出力されます) 学習を高速化するためにマルチノードで学習を行えるようにし、実際にABCIのGPU80台を使って分散学習を行い、4GPUで行った場合の20倍の計算速度が実現できました(Strong Scaling!) 分散並列学習にはDeepSpeedを用いました。 はじめに Brain Researchチームで自動運転AIを開発している棚橋です。Brain Researchチームではレベル5の完
![走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話](https://cdn-ak-scissors.b.st-hatena.com/image/square/8534349ce959338032fdf28a7dad430d64d82bef/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--CxxEHR1L--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E8%2525B5%2525B0%2525E8%2525A1%25258C%2525E5%25258B%252595%2525E7%252594%2525BB%2525E3%252582%252592%2525E8%2525AA%2525AC%2525E6%252598%25258E%2525E3%252581%252599%2525E3%252582%25258BLLM%2525E3%252582%252592%2525E4%2525BD%25259C%2525E6%252588%252590%2525E3%252581%252597%2525E3%252580%25258180%2525E5%25258F%2525B0%2525E3%252581%2525AEGPU%2525E3%252581%2525A7%2525E5%252588%252586%2525E6%252595%2525A3%2525E4%2525B8%2525A6%2525E5%252588%252597%2525E5%2525AD%2525A6%2525E7%2525BF%252592%2525E3%252581%252595%2525E3%252581%25259B%2525E3%252581%25259F%2525E8%2525A9%2525B1%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_34%3AKotaro%252520Tanahashi%252Cx_220%252Cy_108%2Fbo_3px_solid_rgb%3Ad6e3ed%252Cg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzBhNjYyMDc4ZDMuanBlZw%3D%3D%252Cr_20%252Cw_90%252Cx_92%252Cy_102%2Fco_rgb%3A6e7b85%252Cg_south_west%252Cl_text%3Anotosansjp-medium.otf_30%3ATech%252520Blog%252520-%252520Turing%252Cx_220%252Cy_160%2Fbo_4px_solid_white%252Cg_south_west%252Ch_50%252Cl_fetch%3AaHR0cHM6Ly9saDMuZ29vZ2xldXNlcmNvbnRlbnQuY29tL2EvQUdObXl4WURxRGNlaE5FM2hPQTBIVGRQT2tOUUZVTmY2ODFpaU9iSzI4WlQ9czk2LWM%3D%252Cr_max%252Cw_50%252Cx_139%252Cy_84%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)