DEIM2023 第15回データ工学と情報マネジメントに関するフォーラム チュートリアル講演資料 Part2: Vision-and-Language

DEIM2023 第15回データ工学と情報マネジメントに関するフォーラム チュートリアル講演資料 Part2: Vision-and-Language
要点 マルチモーダル深層学習って何?Vision-Language Modelって何?という方向けに、 Google Colabで実際に学習済みモデルを動かしながら技術概要を理解していただけるチュートリアル記事です。 マルチモーダルの時代が到来 この10年、ディープラーニングの登場により、画像の分類や、文章読解(日本語等の自然言語によるQA)などが高い精度で自動化できるようになりましたね。 しかし、画像は画像、自然言語は自然言語・・・と、それぞれに特化した手法の開発が中心で、それらが混在したマルチメディア(マルチモーダル)の問題へのチャレンジは少ない状況に長らくありました。マルチモーダルの重要性は人間の様々な知的判断の場面を思い返せば分かりますね。実課題解決において重要なAI技術分野といえます。 シングルモーダルが中心だった潮目はこの1年くらいで変わり、昨今、マルチモーダルな深層学習モデル
はじめに こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている加藤です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。前回の 2D Human Pose Estimation 編 に引き続き、今回は 3D Human Pose Estimation 編として加藤直樹 ( @nk35jk ) が調査を行いました。 本記事では 3D Human Pose Estimation に関する代表的な研究事例を紹介するとともに、コンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された論文を中心に 3D Human Pose Estimation の最新の研究動向を紹介します。 過去の他タスク編については以下をご参照ください。 Human Recognition 編 (2019/04/26) 3D Visio
はじめに こんにちは、AIシステム部でコンピュータビジョンの研究開発をしている加藤です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回は 2D Human Pose Estimation 編として加藤直樹 ( @nk35jk ) が調査を行いました。 本記事では 2D Human Pose Estimation に関する代表的な研究事例を紹介するとともに、2019年10月から11月にかけて開催されたコンピュータビジョンのトップカンファレンスである ICCV 2019 に採録された 2D Human Pose Estimation の最新論文を紹介します。 過去の他タスク編については以下をご参照ください。 Human Recognition 編 (2019/04/26) 3D Vision 編 (2019/06/04) キーポイント検
We live in an age of amazing new visual art created with artificial intelligence (AI) technology. The recent wave began with neural stylization apps and the trippy, evocative DeepDream. Many fine artists now work with neural network algorithms, creating high-profile works appearing in major venues.1 Together with these new developments comes the hype: technologists who claim that their algorithms
Convolutional Neural Networks (ConvNets) are commonly developed at a fixed resource budget, and then scaled up for better accuracy if more resources are available. In this paper, we systematically study model scaling and identify that carefully balancing network depth, width, and resolution can lead to better performance. Based on this observation, we propose a new scaling method that uniformly sc
Powered by AI: Advancing product understanding and building new shopping experiences Today we’re announcing: We’ve built and deployed GrokNet, a universal computer vision system designed for shopping. It can identify fine-grained product attributes across billions of photos — in different categories, such as fashion, auto, and home decor. GrokNet is powering new Marketplace features for buyers and
The CILVR Lab (Computational Intelligence, Learning, Vision, and Robotics) regroups faculty members, research scientists, postdocs, and students working on AI, machine learning, and a wide variety of applications, notably computer perception, natural language understanding, robotics, and healthcare. Follow us @CILVRatNYU on Twitter! CILVR News 05/03/25 – Congratulations to NYU Assistant Professor
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く