はじめに TuringのBrain Research teamで頑張ってる井ノ上です。(Twitter: いのいち) Turingは完全自動運転の開発を目指しており、その実現のためには賢い頭が必要だと考えています。その方法の一つとして、近年の大規模言語モデル(LLM)に見られるような文脈理解力をうまく取り入れられないかと考えており、LLMとVisionの情報をかけ合わせたモデルに注目して研究を行っています。自動運転とVision and languageモデルについては、ぜひこちらの記事を読んでみてください。 今回の記事は2023年7月に開催されたABCI LLMハッカソンで取り組んだときに開発していたGIT-LLMというモデルの開発について解説する記事となっています。途中のコードの解説部分などは少し退屈に感じるかもしれませんので、その場合はぜひ結果のパートだけでも見てみてください。いろい
![作って遊ぼう!LLMを搭載した君だけのV&Lモデル!](https://cdn-ak-scissors.b.st-hatena.com/image/square/72cb3ad7b264aa2abdc58884ba013a31d35af8b4/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--PaZkaUgT--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E4%2525BD%25259C%2525E3%252581%2525A3%2525E3%252581%2525A6%2525E9%252581%25258A%2525E3%252581%2525BC%2525E3%252581%252586%2525EF%2525BC%252581LLM%2525E3%252582%252592%2525E6%252590%2525AD%2525E8%2525BC%252589%2525E3%252581%252597%2525E3%252581%25259F%2525E5%252590%25259B%2525E3%252581%2525A0%2525E3%252581%252591%2525E3%252581%2525AEV%252526L%2525E3%252583%2525A2%2525E3%252583%252587%2525E3%252583%2525AB%2525EF%2525BC%252581%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_34%3A%2525E3%252581%252584%2525E3%252581%2525AE%2525E3%252581%252584%2525E3%252581%2525A1%252Cx_220%252Cy_108%2Fbo_3px_solid_rgb%3Ad6e3ed%252Cg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzBhNjYyMDc4ZDMuanBlZw%3D%3D%252Cr_20%252Cw_90%252Cx_92%252Cy_102%2Fco_rgb%3A6e7b85%252Cg_south_west%252Cl_text%3Anotosansjp-medium.otf_30%3ATech%252520Blog%252520-%252520Turing%252Cx_220%252Cy_160%2Fbo_4px_solid_white%252Cg_south_west%252Ch_50%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzIxYTZmMTg4NjYuanBlZw%3D%3D%252Cr_max%252Cw_50%252Cx_139%252Cy_84%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)