sys-bioのブックマーク - はてなブックマーク

Heron-Bench: 日本語Vision＆Languageモデルの性能評価ベンチマークの公開

はじめに Turing Researchチームの佐々木(kento_sasaki1)です。Researchチームでは、完全自動運転の実現に向けて、マルチモーダル基盤モデルの開発に取り組んでいます。先日、私たちは日本語Vision Language Model (VLM) のベンチマーク「Heron-Bench」を新たに公開しました。本記事ではHeron-Benchについて解説し、日本語VLMの現状と今後の展望について述べます。詳細についてはarXiV論文「HERON-BENCH: A BENCKMARK FOR EVALUATING VISION LANGUAGE MODELS IN JAPANESE 」も公開していますので、合わせてご覧ください。自動運転とVision Language Model 本題に入る前に、まず「TuringがなぜVision Language Modelの

sys-bio 2024/04/15

リンク

自動運転のための大規模なVisual QAデータセット・AutoScenesQAの作成

本記事では、Turing のサマーインターンでの成果を紹介します。2 週間のサマーインターンで、自動運転のための Visual Question Answering データセット・AutoScenesQA の作成を行いました。 AutoScenesQA は、手作業によるアノテーションではなく、LLM(GPT 3.5)とルールベースのロジックを活用し、完全に自動で作成されています. 今回作成した AutoScenesQA は、nuScenesという自動運転用のデータセットをベースとしており、「車載カメラから撮影した 6 方向の画像(1 フレーム)」と「その画像に対応した QA のペア」で構成されています。自動生成した QA の総数は全部で約 280 万件です。本記事では、AutoScenesQA とその作成方法に関して詳しく紹介します。自動運転と Visual Question Answ

sys-bio 2023/10/23

自動運転X自然言語のデータセット！既存のリッチな物体情報をフル活用していい感じの自然言語アノテーションを生成してる！

リンク

完全自動運転にLLMは必要か？

この記事を3行でまとめると.. Turingでは1年以上前から完全自動運転に自然言語処理が必要と考えてきた自動運転におけるロングテールなデータに対して、LLMの一般常識に基づく判断能力が必要 Chat-GPTをきっかけにLLMを自動運転に利用する研究が盛り上がってきている TuringのBrain Researchチームの棚橋です。Brain Researchチームでは、中長期的に自動運転においてキーとなるコア技術の開発を行っています。最近ではVision LanguageモデルのフレームワークとしてHeronをリリースしました。なぜ自動車を製造する会社が、LLMの開発を行っているのでしょうか。 Turingでは1年以上前から自動運転における複雑な文脈理解には自然言語が必要であると主張してきました。今年の7月にはLLMで実際の車を動かしてみるプロジェクトをデモとして公開しました。このデモ

sys-bio 2023/10/17

自動運転と大規模言語モデルの関係がすごくわかりやすくまとめてあります！最新の研究もめっちゃ紹介されててとても良い記事です！！！

リンク

自動運転AI開発：学習からシミュレーション、実車テストまで

Turingの自動運転・AIモデル開発チームの塩塚です。Turingは2030年までに完全自動運転の達成を目指しています。その未来のためにTuringでは2つの機械学習チームで研究開発を進めています。一つはBrain Researchチームで、マルチモーダル学習ライブラリ「Heron」を公開したりと2030年の完全自動運転に向けて研究を行っています。もう一つは自動運転・AIモデル開発チームで、こちらは2024、2025年にTuringから発売される電気自動車の自動運転システムを開発しています。このチームの目標は国内の市販車に搭載されている自動運転の中で最もよいものを作ることです。開発したモデルをテストしている様子この記事では、そんな自動運転・AIモデル開発チームがどのようにして自動運転を作っているのか、主に評価プロセスについてお話したいと思います。自動運転・AIモデル開発チームについ

sys-bio 2023/10/12

めちゃくちゃ面白いし、しっかりと評価システム構築しててすごい！

リンク

自動運転カメラの高負荷、その原因はLinuxカーネルのどこに？

はじめに Turing株式会社ソフトウェアエンジニアの堀ノ内です！私が所属する自動運転チームでは2024 ~ 2025年に発売予定の自動車に搭載する自動運転システムの開発を行っています。Turingでは車両前方に取り付けられたカメラの画像を入力とし、機械学習モデルが進むべき経路を推論、その経路に沿って実際に車両を動かすための制御信号(ステアリング、アクセル、ブレーキ)をCANで車両に送信することで以下の画像のような自動運転を実現しています。今回のブログでは以下について記載し、私達のチームの仕事内容について知って頂くきっかけになればと思います。 Turingの自動運転システムの紹介 GMSLカメラの評価と発生した問題 Linuxカーネル及びドライバのデバッグ Turingの自動運転システム Turingでは「カメラ画像入力 → 機械学習モデルで経路を推論 → 車両制御」の流れを実現するた

sys-bio 2023/10/10

リンク

Androidと自動車を接続してみよう！

はじめに Turing株式会社 UXチームでインターンをしている東京大学3年の勝見とエンジニアの佐々木(@kento_sasaki1) です。 UXチームでは、Androidを採用して独自のIVI (車載インフォテイメント) の開発を行なっています。本記事では、AOSP (Android Open Source Project) の枠組みで車両と接続するのに肝となるVHAL (Vehicle Hardware Abstraction Layer) とCar APIについて概説し、Androidと自動車を接続する方法について紹介します。なお、本記事はAOSPのソースコード (Android12.1.0 rivision11) を適宜参照しながらご覧ください。概要図：Android Automotive OSは車載ECUとCANプロトコルで情報を送受信する Android Automotiv

sys-bio 2023/09/28

リンク

作って遊ぼう！LLMを搭載した君だけのV&Lモデル！

はじめに TuringのBrain Research teamで頑張ってる井ノ上です。(Twitter: いのいち) Turingは完全自動運転の開発を目指しており、その実現のためには賢い頭が必要だと考えています。その方法の一つとして、近年の大規模言語モデル（LLM）に見られるような文脈理解力をうまく取り入れられないかと考えており、LLMとVisionの情報をかけ合わせたモデルに注目して研究を行っています。自動運転とVision and languageモデルについては、ぜひこちらの記事を読んでみてください。今回の記事は2023年7月に開催されたABCI LLMハッカソンで取り組んだときに開発していたGIT-LLMというモデルの開発について解説する記事となっています。途中のコードの解説部分などは少し退屈に感じるかもしれませんので、その場合はぜひ結果のパートだけでも見てみてください。いろい

sys-bio 2023/08/09

テックブログを書きました！Vislon and languageモデルの開発のお話といくつか実験結果を載せました！ぜひ読んでください！

リンク

TFRecordとWebDatasetを使った分散並列学習とパフォーマンス調査

はじめに Turing株式会社の自動運転MLチームでエンジニアをしている越智 (@chizu_potato)と塩塚 (@shiboutyoshoku) です。 Turingが目指す自動運転は、大量のデータで学習された非常に賢い機械学習モデルを活用することです。そのために、走行パートナーの方たちと協力して創業時からこれまで大量の走行データを取得してきました。走行データは車両に取り付けられた複数カメラによる360度をカバーした動画と、そのときの速度やGPSなどの走行ログを含んでいます。データサイズは80TBを超え、時間換算で3500時間程度です。これだけのデータサイズでモデルを学習するためには、1枚のGPUだけで頑張るには限界があり複数のGPU (multi-GPU) による分散並列学習が必要となってきます。しかし、ただ分散並列学習を行うだけではmulti-GPUに対し、データの入出力 (I

sys-bio 2023/07/28

ほんとのほんとのほんとに重要な技術。これを日本語で読めるのありがたすぎる。

リンク

走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話

3行でまとめると LLM分散学習ハッカソンに参加し、Vision-Languageモデルの一つであるBLIP2のHuggingFaceモデルを拡張して動画からテキスト生成するVideoBLIPを作成しました。ソースコードはGithubで公開しています。運転映像に対する説明文章を学習に用いてVideoBLIPの学習を行い、運転映像を説明するモデルを作成しました。（以下のように運転映像に対して説明文が出力されます）学習を高速化するためにマルチノードで学習を行えるようにし、実際にABCIのGPU80台を使って分散学習を行い、4GPUで行った場合の20倍の計算速度が実現できました（Strong Scaling!）分散並列学習にはDeepSpeedを用いました。はじめに Brain Researchチームで自動運転AIを開発している棚橋です。Brain Researchチームではレベル5の完

sys-bio 2023/07/27

みんな大好きBLIP2の動画対応！自動運転とも絡めてて面白い！

リンク

大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part2

はじめに Turing 株式会社リサーチチームの藤井(@okoge_kaz)です。 Turingでは、自動運転を支える技術のひとつとして大規模言語モデル(Large Language Model: LLM)に注目しており、関連する技術の研究開発を行っています。つい先日、大規模言語モデルの事前学習を行う際に用いられることが多いmicrosoft/Megatron-DeepSpeedが大きくupdateされました。(日本時間 2023/6/13, 2023/7/21に大きな変更がありました。) 具体的には、fork元であるNVIDIA/Megatron-LMの最新の変更を取り込むことを行ったようです。セットアップ方法は以下の記事で紹介している通りで、変化はないのですが、Job Scriptの引数や、新機能を使用するためのTipsなど補足するべきことが多数存在します。そのため、今回は前回の

sys-bio 2023/07/24

今回も重厚長大なガチ記事

リンク

Bardのようなimage2textAIを構築して動画検索システムを作る

Turing株式会社の自動運転MLチームでインターンをしている東大B4の中村です。突然ですが、web検索のように簡単に、ストレージ内に保存されている、日時以外のメタ情報のない動画が検索出来るようになったら幸せになれると思いませんか？例えば「赤信号で車が停止している」という検索クエリに対して、実際に赤信号で停止している動画が返ってきたら、簡単にそれを信号検知＋停止のモデル学習に使えるようになります。今回私が開発した動画検索システムはこれをAIの力を借りて実現しました。これにより、格段に動画検索の利便性が増し、より多様な動画を簡単に使用できるようになりました。今回はそのシステムについて紹介します。ワンパンで動画を探せると嬉しい課題 Turingでは、走行パートナーの方々と共に大量の走行データを収集してきました。車両にカメラ・データ収集キットを載せて、文字通り毎日朝から晩までデータを取

sys-bio 2023/07/21

コレ、ほんとにメチャクチャ便利で役立ちまくってるのがすごい

リンク

大規模言語モデル(LLM)の作り方 GPT-NeoX編 Part 1

はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 の藤井(@okoge_kaz)です。大規模モデルへの注目の高さを肌で感じる今日このごろですが、事前学習の知見については依然として十分に共有されているとは言い難いと個人的に感じています。 Turing株式会社では、次世代の自動運転技術を支える技術の1つとして大規模言語モデルに注目しており、独自に研究開発を行っています。今回は大規模言語モデルを学習する際、用いるライブラリ候補の１つに上がるであろうGPT-NeoXについて解説します。以下で環境構築方法、学習を行う方法などについて詳しく解説します。 GPT-NeoXとは EleutherAIが管理しているNIDIA/Megatron-LM ベースの大規模言語モデル(Large Language Model: LLM)を学習するためのライブラリです。 Mi

sys-bio 2023/07/19

これでスクラッチからLLMを学習できますね！続編ではさらに効率よく学習する方法が紹介されるらしい！

リンク

大規模言語モデルを使って自動車走行時の状況説明をさせてみる？ -社内LLMハッカソン記-

Turing株式会社の自動運転MLチームでエンジニアをしている岩政です。 Turingの自動運転MLチームでは、完全自動運転の開発に向けて、走行データから自動走行が可能な深層学習モデルの作成およびデータ基盤の整備、視覚情報以外にも言語を活用したマルチモーダルな基盤モデルの作成に取り組んでいます。本記事では、視覚情報を認識するモデルと大規模言語モデルを組み合わせて、「自動車走行時の特に危険な状況を説明することができないか？」という観点から、社内ハッカソンで取り組んだことを紹介します。社内LLMハッカソン事の発端は、4月のある1日に急遽開催された大規模言語モデル(以下LLM)を活用した社内ハッカソンでした。高度な自動運転の実現において、一般的な社会常識のもと複雑な状況を理解して適切に行動するための「知能」は必要不可欠です。現在、Turingでは、LLMはその知能として高いポテンシャルがあ

sys-bio 2023/06/30

LLMハッカソン！1 dayハッカソンでPoCできていい感じ！

リンク

大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編 Part1

はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。大規模言語モデル(Large Language Model: LLM)への注目がGPT-4のリリース以降高まっていますが、LLMを作るための知見は十分に共有されているとは言い難いと個人的に感じています。 Turingでは、Vision and Language, Video and Languageなどのマルチモーダルなモデルの研究開発を行っている一環として、Megatron-DeepSpeed, GPT-NeoXなどを用いて数十Bのモデルの学習を行う知見を蓄積しています。今回はLLMの事前学習を行う際に候補となるMegatron-DeepSpeedを用いてGPT-2-7B(6.6B)の学習をどのように行うのかについて解説します。分散並列学習がどのよう

sys-bio 2023/06/29

有益すぎる…！！！

リンク

Android OS向けGPSドライバ開発：要求仕様の解説と実装ガイド

こんにちは。Turing株式会社でインターンをしている、東京大学学部4年の三輪です。 TuringのUXチームでは、Android OSを採用して独自の車載UI開発を進めています。Android OSはセンターディスプレイにあたる部分で主に利用される予定で、エアコン、ドア、ライトなどの操作をディスプレイ上で行えるようにするほか、ナビアプリや音声アシスタントなどの実装をAndroidプラットフォーム上で進めていく予定です。自動車に搭載するOSを開発していくうえで、さまざまなハードウェアをOS上で扱えることは必須の要件になります。しかし、Android OSでのハードウェアの取り扱いはベースであるLinuxとは異なる独自の部分が多く、慣れが必要です。この記事では、GPSデバイスのドライバを実装し、AndroidのネイティブフレームワークからHALを介してGPSデバイスを透過的に扱えるように

sys-bio 2023/06/26

デバイスドライバ開発の記事すごい

リンク

創業2年目のスタートアップが自社工場を立ち上げた話

はじめにはじめまして。Turing株式会社で事業開発を担当している山崎です。 Turingは完全自動運転EVの実現を目指すスタートアップです。自動運転に必要な頭脳・ソフトウェアだけではなく、それと相互に連携する車体・ハードウェアの開発にも自ら取り組んでいます。そんな当社ではこの度初の自社工場を整備し、今年6月12日に晴れて操業開始しました。2021年の創設から社歴2年にも満たないスタートアップ企業が、なんのために大規模な投資を伴う自社工場の整備に踏み切り、完全な手探り状態からどのように拠点整備を進めたのか。世間的にも結構珍しいケースではないかと思いますので、その過程の一部をご紹介します。いつものTuringテックブログとは少し趣が異なりますが、社内の雰囲気が少しでも伝われば幸いです。なぜ今のタイミングで工場を立ち上げたのか今回整備した工場は、Turingの事業戦略の中で研究開発拠

sys-bio 2023/06/16

Turingの工場を作ったお話です！

リンク

GPT-3.5-turboの新機能を使ってCVPRの論文を良い感じに検索・推薦・要約するシステム

はじめに 5月からTuringに中途入社した棚橋です。リクルートで広告配信システムの開発や量子アニーリングに関する研究開発に関わっていました。現在、Turingのリサーチチームで完全自動運転システムの研究開発に取り組んでいます。 3行でまとめ今月開催されるCVPR2023では約2400本もの論文が発表されるため、見るべき論文を事前に検索しておきたい。社内で行われた大規模言語モデル（LLM）ハッカソンをきっかけに、LLMのEmbeddingを用いて論文の「検索・推薦・要約」システムを作成し公開した。検索クエリに文章を使った曖昧な検索が行えたり、類似論文の推薦ができる。6/13にアップデートされたGPT3.5の新機能であるファンクション機能を使うことで、複数観点に分けて研究内容の要約を出力させた。 ↓ 今回作成した、LLMを使ったCVPR論文検索システム事の発端 Turingは、ハンド

sys-bio 2023/06/14

CVPR2023の約2400本の論文の中から関連論文を検索し、要約もできる！

リンク

自動車のスマホ化 - Android Automotive OS完全入門！

はじめに Turing株式会社のUX Engineeringチームでエンジニアをしています佐々木です。Turingは「We Overtake Tesla」をミッションに完全自動運転EVの開発をしています。UX Engineeringチームは、車載インフォテインメント (IVI : In-Vehicle Infotainment) システムの開発を担当しており、Android Open Source Project (AOSP) をベースに車載OSを開発しています。本記事では、AOSPの枠組みに含まれるAndroid Automotive OS (AAOS)を概説し、また、実機でAAOSを体験するためにRaspberryPi 4BでAAOS13.0を実行する方法を紹介します。 Android Automotive OSの概要 Android Automotive OS (AAOS) は自動

sys-bio 2023/06/13

自動車のスマホ化！

リンク

あなたのPythonを100倍高速にする技術 / Codon入門

はじめに Pythonは世界的にも人気のあるプログラミング言語ですが、実行速度については課題があります。Pythonの実行速度を高速化したい、という要求は根強く、これまでにも様々なツールや処理系が開発されています。この記事ではMITの研究者らが開発したPythonを高速化するツール「Codon」について紹介します。この記事を3行でまとめると：高性能で簡単に扱えるPythonコンパイラ「Codon」 Pythonとの互換性がありながら、CやC++に匹敵する高速化を実現実際にPythonコードが100倍速くなることを検証 Codonとは Codonは高性能なPythonコンパイラです。実行時のオーバーヘッドなしにPythonコードをネイティブなマシンコードにコンパイルし、シングルスレッドで10-100倍以上の高速化が実現できます。Codonの開発はGithub上で行われており、2021

sys-bio 2023/03/22

Codon使ったらPythonでc++並みに高速化できるのスゴい！

リンク

基盤モデルを使ったTuringの完全自動運転戦略

基盤モデルが自動運転車を操ってる筆者のイメージ created by DALL-E Turingで機械学習チームでエンジニアをしている井ノ上です。(Twitter: いのいち) Turingは2030年までにあらゆる場所で自動走行が可能で、ハンドルが必要ない完全自動運転システム（Level 5自動運転）の開発を目指して様々な技術の調査や検証を行っています。このテックブログではTuringがどのようにしてLevel 5完全自動運転にアプローチしていくのか、近年の基盤モデルやGoogleのロボティクス研究から考えていきたいと思います。 TuringのLevel 5への仮説 Level 5の自動運転をどのようにして作るのか。これは多くの人が気になるところだと思います。TuringではLevel 5自動運転の実現の鍵は「知能」にあると考えています。従来の自動運転の開発によって、LiDARやレーダー

sys-bio 2023/03/17

テックブログ書きました！基盤モデルを使って完全自動運転を作っていくぞ！

リンク

はてなブックマーク

sys-bioのブックマーク (37)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第3週）

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス