Wackyのブックマーク - はてなブックマーク

日本語Vision Languageモデル heron-blip-v1の公開

はじめに Turingでは完全自動運転実現に向けて、LLMやそれを用いたVision Langauge（V&L）モデルの開発に取り組んでいます。最近は経済産業省／NEDOの「競争力のある生成AI基盤モデルの開発を支援する「GENIACプロジェクト」」にも採択されるなど、大規模な生成AIの開発に精力的に取り組んでいます。特に、Vision Languageモデルについては、Heronというライブラリとモデル群を公開しており、今回は新しいモデルとその学習レシピを公開します。また、日本語のV&LモデルをGPT-4を用いて評価するためのプログラムも公開します。 Heronとは V&Lモデルは、画像を認識する「ビジョンエンコーダ」、文章を生成する「LLM」、それら2つをつなぐ「アダプタ」から構成されます。heronのコードを用いることで、これらの様々な組み合わせのオリジナルV&Lモデルを作成するこ

Wacky 2024/03/07

リンク

自動運転のための大規模なVisual QAデータセット・AutoScenesQAの作成

本記事では、Turing のサマーインターンでの成果を紹介します。2 週間のサマーインターンで、自動運転のための Visual Question Answering データセット・AutoScenesQA の作成を行いました。 AutoScenesQA は、手作業によるアノテーションではなく、LLM(GPT 3.5)とルールベースのロジックを活用し、完全に自動で作成されています. 今回作成した AutoScenesQA は、nuScenesという自動運転用のデータセットをベースとしており、「車載カメラから撮影した 6 方向の画像(1 フレーム)」と「その画像に対応した QA のペア」で構成されています。自動生成した QA の総数は全部で約 280 万件です。本記事では、AutoScenesQA とその作成方法に関して詳しく紹介します。自動運転と Visual Question Answ

Wacky 2023/10/23

リンク

車両サイバーセキュリティの実現に向けて

はじめに Turing Vehicleチームのチーフエンジニアの徳弘 (@res_circ uit) です。 Turingは、完全自動運転システムを搭載した車を商品として販売することを目指しており、これに向けて量産を見据えた完全独自の車両の設計に取り組んでいます。お客様の元に届く商品としての車両を自社で開発する上では、膨大な数の課題を解決する必要が出てきます。今回は、そのうちの一つであるサイバーセキュリティについての概要を説明した上で、Turingでの取り組みを少し紹介します。車両サイバーセキュリティとは？車両のサイバーセキュリティとは、車両に対するサイバー攻撃の防衛策が実施されており、車両を構成する部品や資産が保護されていることを意味します。現代の車両システムは多数のECU（電子制御ユニット）で構成され、車両内でネットワークを構築しています。車両の走行に関する制御指令や、ユーザーの個

Wacky 2023/10/21

リンク

完全自動運転にLLMは必要か？

この記事を3行でまとめると.. Turingでは1年以上前から完全自動運転に自然言語処理が必要と考えてきた自動運転におけるロングテールなデータに対して、LLMの一般常識に基づく判断能力が必要 Chat-GPTをきっかけにLLMを自動運転に利用する研究が盛り上がってきている TuringのBrain Researchチームの棚橋です。Brain Researchチームでは、中長期的に自動運転においてキーとなるコア技術の開発を行っています。最近ではVision LanguageモデルのフレームワークとしてHeronをリリースしました。なぜ自動車を製造する会社が、LLMの開発を行っているのでしょうか。 Turingでは1年以上前から自動運転における複雑な文脈理解には自然言語が必要であると主張してきました。今年の7月にはLLMで実際の車を動かしてみるプロジェクトをデモとして公開しました。このデモ

Wacky 2023/10/17

リンク

自動運転カメラの高負荷、その原因はLinuxカーネルのどこに？

はじめに Turing株式会社ソフトウェアエンジニアの堀ノ内です！私が所属する自動運転チームでは2024 ~ 2025年に発売予定の自動車に搭載する自動運転システムの開発を行っています。Turingでは車両前方に取り付けられたカメラの画像を入力とし、機械学習モデルが進むべき経路を推論、その経路に沿って実際に車両を動かすための制御信号(ステアリング、アクセル、ブレーキ)をCANで車両に送信することで以下の画像のような自動運転を実現しています。今回のブログでは以下について記載し、私達のチームの仕事内容について知って頂くきっかけになればと思います。 Turingの自動運転システムの紹介 GMSLカメラの評価と発生した問題 Linuxカーネル及びドライバのデバッグ Turingの自動運転システム Turingでは「カメラ画像入力 → 機械学習モデルで経路を推論 → 車両制御」の流れを実現するた

Wacky 2023/10/10

リンク

Androidと自動車を接続してみよう！

はじめに Turing株式会社 UXチームでインターンをしている東京大学3年の勝見とエンジニアの佐々木(@kento_sasaki1) です。 UXチームでは、Androidを採用して独自のIVI (車載インフォテイメント) の開発を行なっています。本記事では、AOSP (Android Open Source Project) の枠組みで車両と接続するのに肝となるVHAL (Vehicle Hardware Abstraction Layer) とCar APIについて概説し、Androidと自動車を接続する方法について紹介します。なお、本記事はAOSPのソースコード (Android12.1.0 rivision11) を適宜参照しながらご覧ください。概要図：Android Automotive OSは車載ECUとCANプロトコルで情報を送受信する Android Automotiv

Wacky 2023/09/28

リンク

作って遊ぼう！LLMを搭載した君だけのV&Lモデル！

はじめに TuringのBrain Research teamで頑張ってる井ノ上です。(Twitter: いのいち) Turingは完全自動運転の開発を目指しており、その実現のためには賢い頭が必要だと考えています。その方法の一つとして、近年の大規模言語モデル（LLM）に見られるような文脈理解力をうまく取り入れられないかと考えており、LLMとVisionの情報をかけ合わせたモデルに注目して研究を行っています。自動運転とVision and languageモデルについては、ぜひこちらの記事を読んでみてください。今回の記事は2023年7月に開催されたABCI LLMハッカソンで取り組んだときに開発していたGIT-LLMというモデルの開発について解説する記事となっています。途中のコードの解説部分などは少し退屈に感じるかもしれませんので、その場合はぜひ結果のパートだけでも見てみてください。いろい

Wacky 2023/08/10

リンク

オリジナルの自動車用Android OSを作る - AOSP開発はじめの一歩

はじめに Turing株式会社UXチームエンジニアの井上(@yoinoue5212)です。 Turingは完全自動運転EVの開発を目標に、自動運転AIとEV本体の両面での開発に挑戦しています。UXチームでは、自社EVのIVI(In-Vehicle Infotainment)つまりセンターディスプレイ等に表示されるシステムのOSとして、Androidを基盤とする独自車載OSの開発を行っています。本記事では、ソースコードの公開されているAndroid Open Source Project(AOSP)を題材に、Android OSを開発するとはどういうことか、開発のための環境構築についてお話しします。 AOSPとは何の略？ AOSPはAndroid Open Source Projectの略で、Android OSを構成するすべての要素がオープンソースで公開されています。 Googleの開

Wacky 2023/08/03

リンク

走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話

3行でまとめると LLM分散学習ハッカソンに参加し、Vision-Languageモデルの一つであるBLIP2のHuggingFaceモデルを拡張して動画からテキスト生成するVideoBLIPを作成しました。ソースコードはGithubで公開しています。運転映像に対する説明文章を学習に用いてVideoBLIPの学習を行い、運転映像を説明するモデルを作成しました。（以下のように運転映像に対して説明文が出力されます）学習を高速化するためにマルチノードで学習を行えるようにし、実際にABCIのGPU80台を使って分散学習を行い、4GPUで行った場合の20倍の計算速度が実現できました（Strong Scaling!）分散並列学習にはDeepSpeedを用いました。はじめに Brain Researchチームで自動運転AIを開発している棚橋です。Brain Researchチームではレベル5の完

Wacky 2023/07/26

リンク

Bardのようなimage2textAIを構築して動画検索システムを作る

Turing株式会社の自動運転MLチームでインターンをしている東大B4の中村です。突然ですが、web検索のように簡単に、ストレージ内に保存されている、日時以外のメタ情報のない動画が検索出来るようになったら幸せになれると思いませんか？例えば「赤信号で車が停止している」という検索クエリに対して、実際に赤信号で停止している動画が返ってきたら、簡単にそれを信号検知＋停止のモデル学習に使えるようになります。今回私が開発した動画検索システムはこれをAIの力を借りて実現しました。これにより、格段に動画検索の利便性が増し、より多様な動画を簡単に使用できるようになりました。今回はそのシステムについて紹介します。ワンパンで動画を探せると嬉しい課題 Turingでは、走行パートナーの方々と共に大量の走行データを収集してきました。車両にカメラ・データ収集キットを載せて、文字通り毎日朝から晩までデータを取

Wacky 2023/07/21

リンク

Android OS向けGPSドライバ開発：要求仕様の解説と実装ガイド

こんにちは。Turing株式会社でインターンをしている、東京大学学部4年の三輪です。 TuringのUXチームでは、Android OSを採用して独自の車載UI開発を進めています。Android OSはセンターディスプレイにあたる部分で主に利用される予定で、エアコン、ドア、ライトなどの操作をディスプレイ上で行えるようにするほか、ナビアプリや音声アシスタントなどの実装をAndroidプラットフォーム上で進めていく予定です。自動車に搭載するOSを開発していくうえで、さまざまなハードウェアをOS上で扱えることは必須の要件になります。しかし、Android OSでのハードウェアの取り扱いはベースであるLinuxとは異なる独自の部分が多く、慣れが必要です。この記事では、GPSデバイスのドライバを実装し、AndroidのネイティブフレームワークからHALを介してGPSデバイスを透過的に扱えるように

Wacky 2023/06/26

リンク

大規模モデルを支える分散並列学習のしくみ Part1

はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。自然言語処理分野における大規模深層学習の重要性は日に日に高まっていますが、GPT-3, GPT-4 などのモデルの学習には膨大な計算コストがかかり、容易に学習できなくなっています。実際、モデルサイズが近年急速に大きくなっていることにより、学習に必要な計算量(FLOPs)は以下のように年々膨大になっています。近年の大規模モデルでは、NVIDIA H100 80GB であっても 1 つの GPU では、モデルをのせることすらできません。 Compute Trends Across Three Eras of Machine Learning よりまたScaling Laws によると、大規模なモデルは小さいモデルと比較してより優れた性能を発揮するため、自動

Wacky 2023/06/20

リンク

創業2年目のスタートアップが自社工場を立ち上げた話

はじめにはじめまして。Turing株式会社で事業開発を担当している山崎です。 Turingは完全自動運転EVの実現を目指すスタートアップです。自動運転に必要な頭脳・ソフトウェアだけではなく、それと相互に連携する車体・ハードウェアの開発にも自ら取り組んでいます。そんな当社ではこの度初の自社工場を整備し、今年6月12日に晴れて操業開始しました。2021年の創設から社歴2年にも満たないスタートアップ企業が、なんのために大規模な投資を伴う自社工場の整備に踏み切り、完全な手探り状態からどのように拠点整備を進めたのか。世間的にも結構珍しいケースではないかと思いますので、その過程の一部をご紹介します。いつものTuringテックブログとは少し趣が異なりますが、社内の雰囲気が少しでも伝われば幸いです。なぜ今のタイミングで工場を立ち上げたのか今回整備した工場は、Turingの事業戦略の中で研究開発拠

Wacky 2023/06/16

リンク

自動車のスマホ化 - Android Automotive OS完全入門！

はじめに Turing株式会社のUX Engineeringチームでエンジニアをしています佐々木です。Turingは「We Overtake Tesla」をミッションに完全自動運転EVの開発をしています。UX Engineeringチームは、車載インフォテインメント (IVI : In-Vehicle Infotainment) システムの開発を担当しており、Android Open Source Project (AOSP) をベースに車載OSを開発しています。本記事では、AOSPの枠組みに含まれるAndroid Automotive OS (AAOS)を概説し、また、実機でAAOSを体験するためにRaspberryPi 4BでAAOS13.0を実行する方法を紹介します。 Android Automotive OSの概要 Android Automotive OS (AAOS) は自動

Wacky 2023/06/13

リンク

Pythonコードを35000倍に高速化したい

はじめに Pythonは世界的にも人気のあるプログラミング言語ですが、実行速度については課題があります。Pythonの実行速度を高速化したい、という要求は根強く、これまでにも様々な処理系が開発されています。この記事はPythonで書かれたコードを35000倍に高速化するにはどのような方法があるかについてまとめたものです。この記事は： Pythonで書かれたアルゴリズムを35000倍に高速化する事前コンパイル、並列化、SIMD演算を駆使する最終的に44000倍まで高速化できたなぜ35000倍？ 2023年5月2日にModular社よりPythonの使いやすさとC言語の性能を兼ね備える新しいプログラミング言語、Mojoの開発について発表がありました。低レベルのハードウェア向けにコンパイル可能なこと、文法的にはPythonを踏襲しており、既存のPythonライブラリを利用可能であること

Wacky 2023/05/08

リンク

あなたのPythonを100倍高速にする技術 / Codon入門

はじめに Pythonは世界的にも人気のあるプログラミング言語ですが、実行速度については課題があります。Pythonの実行速度を高速化したい、という要求は根強く、これまでにも様々なツールや処理系が開発されています。この記事ではMITの研究者らが開発したPythonを高速化するツール「Codon」について紹介します。この記事を3行でまとめると：高性能で簡単に扱えるPythonコンパイラ「Codon」 Pythonとの互換性がありながら、CやC++に匹敵する高速化を実現実際にPythonコードが100倍速くなることを検証 Codonとは Codonは高性能なPythonコンパイラです。実行時のオーバーヘッドなしにPythonコードをネイティブなマシンコードにコンパイルし、シングルスレッドで10-100倍以上の高速化が実現できます。Codonの開発はGithub上で行われており、2021

Wacky 2023/03/22

リンク

テスラに迫る!? 中国の自動運転をリードするBaidu/ApolloのAI戦略

こんにちは。Turingの機械学習チームでエンジニアをしている塩塚です。 Turingは「We Overtake Tesla」を合言葉に、完全自動運転EVの開発・販売を目指しているスタートアップです。TuringではAIの強力さとそのさらなる成長を信じ、AIベースの自動運転システムを開発しています。 AIベースで自動運転を開発している会社はいくつかありますが、例えば米国の電気自動車メーカーTeslaはその代表的な会社の一つです。Teslaはカメラを主たるセンサーとして採用し、AIによって走行経路などを決定しています。詳しい内容は、Tesla AI Day 2021というイベントの内容を弊社のエンジニアがまとめているのでぜひ見てみてください。一方、私たちはTeslaだけでなく、Apolloという中国企業にも大きく注目しています。 Apolloは、中国の巨大IT企業Baidu傘下の会社で、自

Wacky 2023/02/22

リンク

詳解V4L2 (video for linux 2)

この記事は「自動運転システムをエッジデバイスに組み込むための技術」を3回に分けて紹介するTURINGのテックブログ連載の第3回の記事「詳解V4L2 (video for linux2)」です。第1回の「C++でOpenCV完全入門！」、第2回の「OpenCVをNPPにした結果→10倍高速に！」もぜひご覧ください！はじめにこんにちは。TURING株式会社（以下、TURING）で、インターンをしている東大B3の中村です。 TURINGは、完全自動運転EVを作ることを目的に設立されたベンチャー企業です。自動運転システムとそれを搭載したEV車の開発を行っています。 TURINGの自動運転システムは、カメラからの映像入力を肝としています。これまではOpenCVを入力のインターフェイスとして利用していました。OpenCVを使用していたのは、 buildや使用法についての情報が多いコードが簡単に

Wacky 2023/02/10

リンク

OpenCVをNPPにした結果→10倍高速に！

この記事は「自動運転システムをエッジデバイスに組み込むための技術」を3回に分けて紹介するTURINGのテックブログ連載の第2回の記事「OpenCVをNPPにした結果→10倍高速に！」です。第1回の「C++でOpenCV完全入門！」、第3回の「詳解V4L2 (video for linux 2)」もぜひご覧ください！はじめに TURINGで働いている木更津高専の越智です。TURINGでは「We Overtake Tesla」を目標に掲げて、完全自動運転EVの開発・製造を行っています。 TURINGでは、社内で使っている自動運転ソフトウェアにおいて、画像処理部分のライブラリをOpenCVからNVIDIA Performance Primitives(NPP)に変更するプロジェクトに取り組んでいました。これによって、CPUで動かしていた画像処理をGPUバックエンドで動かすことができるようにな

Wacky 2023/02/03

リンク

【自動運転】信号機認識に挑む / 走行画像15,000枚のアノテーションとYOLOXモデルによる深層学習実践

こんにちは。TURING株式会社でインターンをしている、東京大学学部3年の三輪と九州大学修士1年の岩政です。 TURINGは完全自動運転EVの開発・販売を目指すスタートアップです。私たちの所属する自動運転MLチームでは完全自動運転の実現のため、AIモデルの開発や走行データパイプラインの整備を行っています。完全自動運転を目指すうえで避けて通れない課題の一つに信号機の認識があります。AIが信号機の表示を正しく理解することは、自動運転が手動運転よりも安全な運転を達成するために欠かせません。信号機を確実に認識したうえで、周囲の状況を総合的に判断して車体を制御し、安全かつ快適な走行を実現する必要があります。 TURINGでは信号機の認識に取り組むため、15,000枚規模のデータセットを準備し、高精度なモデルのための調査・研究を開始しました。この記事ではデータセットの内製とその背景にフォーカスしつつ

Wacky 2023/01/06

リンク

はてなブックマーク

タグ

ブックマーク / zenn.dev/turing_motors (22)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス