Turing株式会社の自動運転チームでインターンしている東大B3の大野です。 自動運転チームでは、完全自動運転の実現を目指して自動運転AIを開発しています。モデル開発の際に、「雨の日に高速を走っていて先行車がいない」や「交差点で歩行者がいる中、右折している」など、特定の状況の走行データが必要になることがあります。 今回私は、動画に対して天気や歩行者の数などのラベルをデータベース化し、検索できるシステムを、Vision-Languageモデルを使って開発しました。この記事では、このシステムの作成にあたって取り組んだことについて説明します。 作成したGUI 課題 Turingでは、走行パートナーの方々とともに、大量の走行データを収集してきました。走行データには、車両に載せたカメラによる動画や、その際の車両のログ(速度やステアリング角、位置情報など)が含まれます。また、すべてのデータをAWSのS