タグ

*algorithmとcvに関するsh19910711のブックマーク (160)

  • 論文輪読: Order-Embeddings of Images and Language

    CEDEC2021 ダウンロード時間を大幅減!~大量のアセットをさばく高速な実装と運用事例の共有~

    論文輪読: Order-Embeddings of Images and Language
    sh19910711
    sh19910711 2025/09/16
    2016 / "半順序関係をモデル化し学習するためのシンプルな手法 / Image Captioning: 画像の抽象化と考えられる + 意味論的な上下関係を表してるに過ぎない"
  • クロスモーダル表現学習の研究動向: 音声関連を中心として

    Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models

    クロスモーダル表現学習の研究動向: 音声関連を中心として
    sh19910711
    sh19910711 2025/09/16
    2024 / "モーダル間で共有可能な表現空間を仮定した学習 / あるモーダルに関するリッチな知識を他のモーダルを扱う際に知識転移 / デュアルエンコーダ方式 + 共有エンコーダ方式"
  • Open-Vocabulary Object Detection の研究動向

    初めまして! 株式会社 Elith で Computer Vision Reseacher をしている下村です。 今回は、Open-Vocabulary Object Detection の論文について、学習データに焦点を当てた手法を中心に概要を紹介します。記事内で使用する図は参考文献から引用しています。 Open-Vocabulary Object Detection とは Open-Vocabulary Object Detection (OVD) は、事前に定義された物体クラスに制限されず、任意のテキスト (Open-Vocabulary) で指定された未知の物体クラスを検出するタスクです。この手法は、従来の弱教師あり学習やゼロショット学習に比べて高い精度を達成します。 この手法は、2021年のコンピュータビジョンやパターン認識に関する国際会議 CVPR(Computer Visi

    Open-Vocabulary Object Detection の研究動向
    sh19910711
    sh19910711 2025/09/01
    2023 / "人手で付与されたキャプションを一切使用せずに学習をしたところ、精度が大きく低下 / キャプションの一貫性がない場合は精度低下に繋がるため Pseudo-Caption の使い方には注意"
  • 可変品質での圧縮を実現する画像トークナイザ「One-D-Piece」を公開しました

    Turingの基盤AIチームの三輪です。 Turingで研究・開発した結果をまとめた「One-D-Piece: Image Tokenizer Meets Quality-Controllable Compression」という論文を公開したので、紹介します。 これは何? 「One-D-Piece」という新たな「画像トークナイザ」を提案しました。これによって256段階の可変品質で画像を圧縮し、Transformerベースのモデルと相性のいいトークン列での表現に変換することができます。 背景 テキストトークナイザと画像トークナイザ Transformer型のモデルは、「トークン」の列を入力に取ります。そのため、Transformer型のモデルを用いるためには、データを何らかの方法でトークンにする「トークナイザ」が必要です。 トークナイザといって一般に想起されるのはテキストトークナイザ、つまり

    可変品質での圧縮を実現する画像トークナイザ「One-D-Piece」を公開しました
    sh19910711
    sh19910711 2025/08/22
    "Transformerベースのモデルと相性のいいトークン列での表現に変換 / オリジナルのアイデアでは、埋め込みベクトルの「末尾」ほど高いドロップアウト率を割り当てることにより、重要な情報をより先頭側に"
  • メタ動画データセットによる動作認識の現状と可能性

    第74回産総研人工知能セミナー「日常生活知識とAI」での講演スライドです。

    メタ動画データセットによる動作認識の現状と可能性
    sh19910711
    sh19910711 2025/08/16
    2024 / "知識グラフを利用したゼロショット動作認識 / ノードが動作ラベル + 各ノードの特徴量は、動作ラベルから得た文埋め込みベクトル / GNNの最終層と動画から得られる特徴量で動作認識"
  • 軽量なセグメンテーションモデルのNanoSAM を試す

    こんにちは、HACARUS でインターンをしている山下です。 今回は、Segment Anything Model (SAM)  のような高性能のセグメンテーションモデルを限られたリソース下で利用したい場合の選択肢となる NanoSAM (Apache License 2.0) を紹介します! NanoSAM は通常の SAM とどう違うのか? SAM は Meta によって公開された高性能のセグメンテーションモデルです。SAM の基的な使い方 や 他のモデルと組み合わせて使う方法 は、以前の記事で紹介しました。 SAMは、入力画像を image encoder でテンソルに変換した上で座標指定などのプロンプトと組み合わせ、mask decoder でマスクを出力するという構造になっています。 SAM の構造(パラメータ数は実測値) 上の画像中にも示したとおり、NanoSAM の構造上の

    軽量なセグメンテーションモデルのNanoSAM を試す
    sh19910711
    sh19910711 2025/08/16
    2024 / "NanoSAM: encoder として ResNet18 を使用 + Jetson Orin シリーズなど GPU を搭載したエッジデバイス上での動作に最適化 / リアルタイムでのセグメンテーションにも応用可能"
  • MIRU2025参加レポート: 西野先生の講演「見えないモノを視ようとして」から見えた研究の姿勢

    株式会社SCIEN 機械学習エンジニアの川田です。 先日、画像認識とコンピュータビジョン分野における国内最大の会議、MIRU2025に参加してきました。数多くの刺激的な発表がありましたが、中でも特に私の心に深く刻まれたのが、京都大学 西野恒 先生による講演「見えないモノを視ようとして」です。 この講演は、単に研究事例を紹介するだけでなく、そこから『見るとは何か?』という根源的な問いを私たちに考えさせる内容でした。 CVの研究というと、つい最新のモデルの精度や、斬新なモデルアーキテクチャに目を奪われがちです。しかし西野先生は、その原点に立ち返り、目の前の画像や映像そのものを深く観察することの重要性を説きました。 レポートでは、特に私の心を揺さぶったこの講演の要点を、3つの「見えないモノ」をテーマにご紹介します。 現象の奥に隠された物理法則を視る 「なぜ、風が強く吹く水面は黒く見えるのか?」

    MIRU2025参加レポート: 西野先生の講演「見えないモノを視ようとして」から見えた研究の姿勢
    sh19910711
    sh19910711 2025/08/16
    "CVの研究というと、つい最新のモデルの精度や、斬新なモデルアーキテクチャに目を奪われがち / データやモデルに全てを委ねるのではなく、まず自分の目で世界を観察し、問いを立てる"
  • 論文メモ: Conditional PixelCNN - PixelCNNベースの条件付き画像生成モデル

    論文 Conditional Image Generation with PixelCNN Decoders 表記 LL: log likelihood 概要 PixelCNNをベースにした条件付き生成モデルを提案する。モデルに与えるコンテクストは任意のラベルやタグ、埋め込みベクトルを指定できる。例えばImageNetのクラスラベルをコンテクストに与えた場合は動物、物体、風景、構造物などのリアルかつ多様な画像を生成する。また、未知の特定の人物の埋め込みベクトルを与えた場合はその人物の様々な表情、ポーズ、照明条件の画像を生成する。また、提案モデルをオートエンコーダのデコーダとして用いた場合、高精細かつ多様な画像を生成する。さらに、提案手法はPixelCNNのLLを改善し、PixelRNNと同等のLLのモデルをPixelRNNの半分以下の時間で学習することに成功した。 研究分野における位置付け

    論文メモ: Conditional PixelCNN - PixelCNNベースの条件付き画像生成モデル
    sh19910711
    sh19910711 2025/08/11
    2022 / "PixelCNNは層を深くしても右側に参照されないピクセル(=盲点)がある / これを克服するために、提案手法は垂直方向と水平方向の2つのCNNに分割"
  • Visual-Inertial Odometryが自動運転に与えるインパクトと応用への課題 - TIER IV Tech Blog

    こんにちは、ティアフォーでVisual SLAMの研究開発をしている石田です。今回はVisual-Inertial Odometryという、カメラとIMU(慣性計測装置)を用いた経路推定手法を紹介し、これを自動運転に応用できた場合のインパクトと、応用までに乗り越えなければならない課題についてお話します。 走行経路の推定結果 なお、ティアフォーでは、「自動運転の民主化」をともに実現していく様々なエンジニア・リサーチャーを募集しています。もしご興味があればカジュアル面談も可能ですので以下のページからコンタクトいただければと思います。 tier4.jp 自動運転における自己位置推定 自己位置推定とは、名前のとおり車両やセンサーデバイスなどが地図の中でどこにいるのかを推定するための技術であり、自動運転において欠かせない要素のひとつです。自分がどこを走っているか把握できなければ迷子になってしまいます

    Visual-Inertial Odometryが自動運転に与えるインパクトと応用への課題 - TIER IV Tech Blog
    sh19910711
    sh19910711 2025/08/02
    2021 / "公道を走る車両の自己位置推定は少なくとも数十センチの精度 / 計算するのに1秒かかっていたら、その間に車が動いてしまい、周囲の物体にぶつかってしまい / カメラとIMU(慣性計測装置)を使って移動経路を求める"
  • 単眼深度推定のアルゴリズム Depth-Anything を試す

    こんにちは! HACARUS でインターンをしている長野です。 記事では深度推定の最新モデルの一つである Depth-Anything と、その簡単な実行方法を紹介します。 深度推定とは カメラから被写体までの距離のことを深度と言い、画像から深度を推測することを深度推定と呼びます。以下の画像は深度推定を行った例です。右の画像ではカメラから近い物体ほど明るい色で表現されていることがわかります。 元画像: https://github.com/LiheYoung/Depth-Anything/blob/main/assets/examples/demo3.png 人間は過去の経験から物体ごとのおおよそのサイズ感や遠近感などをわかっているため、画像を一目見て大体の距離感が掴めますが、コンピュータにはその判断が非常に難しいです。そのため、以前はステレオカメラなど複数の視点の画像をもとに深度の推定

    単眼深度推定のアルゴリズム Depth-Anything を試す
    sh19910711
    sh19910711 2025/07/28
    2024 / "人間は過去の経験から物体ごとのおおよそのサイズ感や遠近感などをわかっているため、画像を一目見て大体の距離感が掴めますが、コンピュータにはその判断が非常に難しい"
  • 【CVPR'22】物体検出アルゴリズムの新しい評価指標 | | AI tech studio

    Media fundamentalsチームの大谷です。今回は物体検出を評価するための新しい指標を設計したので、その研究について概要を解説します。この研究成果はCVPR2022に採択されています。論文のリンクはこちらです。 Mean Average Precisionはなにを見ている? 物体検出の評価では多くの場合Mean Average Precision (mAP)が使われています。まずAPについて概要を確認しておきましょう。APは検出したオブジェクトをconfidence score順に並べてprecision-recall curveを求め、その曲線の下の面積で求められます。これをカテゴリごとに計算し、全てのカテゴリ上で平均したものがmAPです。ここでは詳細に触れませんが、実際のAPの計算では諸々の実装上の事情があり、それらがAPの振る舞いにおいて少なくない影響を及ぼしています。ここ

    【CVPR'22】物体検出アルゴリズムの新しい評価指標 | | AI tech studio
    sh19910711
    sh19910711 2025/07/26
    2022 / "mAPは物体検出をデータセット全体から見つけたオブジェクトのランキング問題として評価 / クラス識別を重視するという点もAPの特徴的なスタンス / クラス識別が位置推定よりも重視される"
  • 3次元点群の地表面抽出の方法であるCSF (Cloth Simulation Filter) について

    sh19910711
    sh19910711 2025/07/26
    "CSF: 3次元点群から地表面を抽出 + 点群データを上限反転させ、その上から仮想の布を落とすことで、地面と非地面を分類する / 布の全体が固定された後、各点群と布の最短距離が計算"
  • 点群処理Backbone Networkと点群の事前学習/表現学習

    Spatial AI Network 勉強会 (2025/07/08)での発表スライドをアップデートして公開します.以前のように時間をつっこんでサーベイできてはいないのですが,自分なりの定点観測としての共有です. 図は各論文から引用しています. 内容に誤りなどあればお知らせ下さい.

    点群処理Backbone Networkと点群の事前学習/表現学習
    sh19910711
    sh19910711 2025/07/20
    "点群Transformerの課題: トークン化の難しさ + 全点独立したトークンは非現実的 / FPS+kNNでパッチ化 / PTv3: 点群を並べて区切ってトークン化 + 過去の点群畳み込みがこだわってきた順序不変性を気にしない"
  • 3D Gaussian Splatting (3DGS)のモデルを Cesiumの地球の上で可視化する方法

    sh19910711
    sh19910711 2025/07/20
    "任意の角度から見たときの対象の画像情報の再構成 / 従来のNeRF(Neural Radiance Fields)に比べて高速化つ高精細な表現 / 点群にガウス分布を割り当て、視点に応じてその分布をレンダリングする"
  • SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~

    SSII2019 オーガナイズドセッション3「深層学習の高速化 ~高速チップ、分散学習、軽量モデル~」 6月14日(金) 10:35〜12:05 (メインホール)

    SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
    sh19910711
    sh19910711 2025/07/12
    2019 / "複数workerでミニバッチ学習 + 学習後にパラメータ同期が必要 / Batch Sizeが大きくなることにより学習精度の劣化 + 同期処理のオーバーヘッドにより学習時間が逆に増加"
  • Kaggleの画像コンペでかっこよく勝ちたい話 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Kaggleでコンペに参加されている方の中には、 メダルが欲しい! 上位になりたい! 賞金が欲しい! など、様々なモチベーションで勝つことを目標にしている方も多いのではないかと思います。もちろん勉強やコミュニケーションなどの側面もありますが、競い合う楽しさというのはデータ分析コンペの醍醐味の1つです。 私自身もそういう楽しさにハマってしまった者の1人のですが、さらなるロマンを求め、あわよくばカッコよく勝ちたいという気持ちで取り組んできました。狙いがガチッとはまったコンペもあれば、箸にも棒にもかからなかったものもありました。記事ではそん

    Kaggleの画像コンペでかっこよく勝ちたい話 - Qiita
    sh19910711
    sh19910711 2025/07/12
    2023 / "2019年前後は今よりもシンプルなコンペも多く + 当時は苛烈なimagenet sota争いの時勢を受け、コンペにおいてもいち早く最新技術を取り込もうとする動き"
  • 論文紹介 Learning by Association [CVPR 2017]

    The document outlines key bullet points but does not provide specific content or context. As such, it lacks essential information and cannot be summarized effectively. Further details are needed for an accurate summary.

    論文紹介 Learning by Association [CVPR 2017]
    sh19910711
    sh19910711 2025/07/10
    2017 / "Walker損失: 同じクラスなら似たような特徴量になって欲しい + 行って帰った先が同じクラスなら正解 / Visit損失: 各教師なしデータへの流入確率がすべて等確率になるようにする"
  • Kubricで機械学習用の合成データを作成する

    記事は 2022年07月執筆時の情報です。 はじめに 機械学習プロジェクトでは良質な教師データが重要とされています。しかし、データ収集やアノテーション作業には手間と時間がかかります。そこでシミュレーションで生成される合成データの利用が提案されています。 Kubric は Google Research が公開している、機械学習用の合成データを生成するためのパイプラインです。3D モデルを使ってインスタンスセグメンテーション、深度画像、オプティカルフローなどのデータセットを作成することができます。物理シミュレーションには PyBullet、レンダリングには Blender が使われています。 Kubric のインストール README と Installing を参考に Kubric が動く環境を作ります。 Kubric のリポジトリをクローンします。

    Kubricで機械学習用の合成データを作成する
    sh19910711
    sh19910711 2025/07/08
    2022 / "Kubric: 3D モデルを使ってインスタンスセグメンテーション、深度画像、オプティカルフローなどのデータセットを作成 / 物理シミュレーションには PyBullet、レンダリングには Blender"
  • GroupViT CVPR2022読み会スライド

    sh19910711
    sh19910711 2025/07/06
    2022 / "GroupViT: セグメンテーション + ピクセル単位ラベルではなく画像・テキストペア / 認識カテゴリをテキストとして入力できる / 背景カテゴリは精度が低い + テキストとして描写されづらい"
  • 予知保全利用を目指した外観検査AIの開発 〜画像処理AIを用いた外観画像に対する異常検知〜

    sh19910711
    sh19910711 2025/07/05
    2024 / "SAA: Segment Anything Model (Meta社)を利用した異常検知 + 大規模データセットによる学習 + プロンプトを使用して特定の異常を検出"