はじめに Turingでは完全自動運転実現に向けて、LLMやそれを用いたVision Langauge(V&L)モデルの開発に取り組んでいます。最近は経済産業省/NEDOの「競争力のある生成AI基盤モデルの開発を支援する「GENIACプロジェクト」」にも採択されるなど、大規模な生成AIの開発に精力的に取り組んでいます。 特に、Vision Languageモデルについては、Heronというライブラリとモデル群を公開しており、今回は新しいモデルとその学習レシピを公開します。また、日本語のV&LモデルをGPT-4を用いて評価するためのプログラムも公開します。 Heronとは V&Lモデルは、画像を認識する「ビジョンエンコーダ」、文章を生成する「LLM」、それら2つをつなぐ「アダプタ」から構成されます。heronのコードを用いることで、これらの様々な組み合わせのオリジナルV&Lモデルを作成するこ
![日本語Vision Languageモデル heron-blip-v1の公開](https://cdn-ak-scissors.b.st-hatena.com/image/square/52f653068476ef471462b9d4b6e7c2280d0394f3/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--N-E6JXqI--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E6%252597%2525A5%2525E6%25259C%2525AC%2525E8%2525AA%25259EVision%252520Language%2525E3%252583%2525A2%2525E3%252583%252587%2525E3%252583%2525AB%252520heron-blip-v1%2525E3%252581%2525AE%2525E5%252585%2525AC%2525E9%252596%25258B%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_34%3AKotaro%252520Tanahashi%252Cx_220%252Cy_108%2Fbo_3px_solid_rgb%3Ad6e3ed%252Cg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzBhNjYyMDc4ZDMuanBlZw%3D%3D%252Cr_20%252Cw_90%252Cx_92%252Cy_102%2Fco_rgb%3A6e7b85%252Cg_south_west%252Cl_text%3Anotosansjp-medium.otf_30%3ATech%252520Blog%252520-%252520Turing%252Cx_220%252Cy_160%2Fbo_4px_solid_white%252Cg_south_west%252Ch_50%252Cl_fetch%3AaHR0cHM6Ly9saDMuZ29vZ2xldXNlcmNvbnRlbnQuY29tL2EvQUdObXl4WURxRGNlaE5FM2hPQTBIVGRQT2tOUUZVTmY2ODFpaU9iSzI4WlQ9czk2LWM%3D%252Cr_max%252Cw_50%252Cx_139%252Cy_84%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)