ブックマーク / takmin.hatenablog.com (7)

  • 今さらNetVLADの日本語解説 - takminの書きっぱなし備忘録 @はてなブログ

    NetVLADは結構メジャーな手法だと思ってたんだけど、案外日語解説はネットに落ちてないんだね。昨今、有名な手法は誰かしらブログ書いてるイメージだったので意外。— Minagawa Takuya (@takmin) 2024年3月22日 というわけで、自分が解説記事を書こうかと思い立ちました。 NetVLADが発表されたのは2016年のCVPRなので[1]、進化の早いAI分野では古めの技術となってしまいますが、画像検索(Image Retrieval)や、撮影場所の推定(Visual Place Recognition)などの論文に未だに現役で出てくる手法なので、この日語記事が色んな人の役に立ったら良いなと期待してます。 NetVLADは1枚の画像全体を1つの特徴ベクトル(Global Feature)に変換するためのもので、例えば画像検索タスクであれば、クエリー画像から抽出した特徴ベ

    今さらNetVLADの日本語解説 - takminの書きっぱなし備忘録 @はてなブログ
  • 点群SegmentationのためのTransformerサーベイ - takminの書きっぱなし備忘録 @はてなブログ

    今回、主に点群に対してSemantic Segmentationを行うためにTansformerを適用した研究についてサーベイしてみたので、資料を公開します。 元々は、前回開催したコンピュータビジョン勉強会@関東「深層学習+3D論文読み会」で発表するために準備していたのですが、発表者が十分に集まったことと、ハイブリッド開催のため運営が大変になりそうだったので、発表は断念しました。 最初は画像と点群でのTransformerの適用方法の違いが気になって調べだしたので、PointTransformerとPointMixerあたりまでを発表するつもりだったのですが、発表を取りやめて調べる時間もできたので、色々と追加で調べているうちに分量が増えてしまいました。 調べてみて、果たしてTransformerは畳み込みと比べて点群処理に最適か?というのはよくわかりませんでした。ただ、PointBERTの

    点群SegmentationのためのTransformerサーベイ - takminの書きっぱなし備忘録 @はてなブログ
  • Visual SLAM概観 - takminの書きっぱなし備忘録 @はてなブログ

    先日勉強会でVisual SLAMについて発表しましたが、そこではカメラを用いたVisual SLAMについてのみ紹介しただけでした。 takmin.hatenablog.com 今回はカメラを用いたものだけでなく、RGB-DセンサーやIMUを用いたVisual SLAMの研究についてもまとめました。 ただ、Visual SLAMの研究はとても膨大なので、紹介する研究の数はかなり絞り込んでいます。そのため、「サーベイ」ではなく「概観」という表現にしています。 20190307 visualslam summary from Takuya Minagawa www.slideshare.net というわけで、今回の調査はなかなかしんどかったです。 slam系論文、デップラで認識しました系とくらべて全然読み飛ばせない。大意を掴むだけでも結構時間がかかってしまう。 — Minagawa Taku

    Visual SLAM概観 - takminの書きっぱなし備忘録 @はてなブログ
  • 働きながら7年間かけて博士号を取得しました - takminの書きっぱなし備忘録 @はてなブログ

    昨日、学位授与式がありました。このタイミングを逃すと面倒くさくなってもう二度とブログを書かない気がするので、社会人博士を考えている方々の参考となるように自分の紆余曲折をまとめておきます(長文注意)。 進学までの経緯 1999年にコンピュータビジョン(以下CV)と呼ばれる分野で修士号を取得しました。この時の修論は黒歴史です。 この時に自分は研究者に向かないことを痛感したので、まさかその後博士課程に進むことになるとは夢にも思っていませんでした。 就職後は外資系IT企業で、4年半ほどCVとはまったく関係ない分野(ITインフラ系)でSEをやっていました。 その後リストラを機に入社したベンチャー企業がたまたまCVの会社で、そこで自分の学生時代の専門がビジネスとして面白くなりそうだと感じ、この分野で飯をっていきたいと思うようになりました。 その後ブラック会社勤務を経て、顔認識ソフトウェアを扱っている

    働きながら7年間かけて博士号を取得しました - takminの書きっぱなし備忘録 @はてなブログ
  • コンピュータビジョンのソースコード/ライブラリのまとめ - takminの書きっぱなし備忘録 @はてなブログ

    今まで自分が見つけたコンピュータビジョンの研究に役に立ちそうなフリーのライブラリやソースコードをまとめてみました。自分ではまだ使っていないものも多いので、そこはご容赦を。主にC/C++が中心です。 またライブラリ形式でない、いわゆる学会で発表した研究のコードをそのまま公開しているという人がたくさんいて、それに関しては特にメジャーなもののみ紹介しています。なにぶん僕の観測範囲は限られてますので、「このライブラリに触れないのはおかしい」、「説明が間違っている」等、ご意見大歓迎です。 定番(Standard) OpenCV 定番中の定番です。コンピュータビジョンに関して広範なアルゴリズムが実装されています。 http://code.opencv.org/projects/OpenCV/wiki/WikiStart Point Cloud Library 3次元点群データを扱うならこれ。Kinec

    コンピュータビジョンのソースコード/ライブラリのまとめ - takminの書きっぱなし備忘録 @はてなブログ
  • FaceTrackerの論文を読んでみた:"Deformable Model Fitting by Regularized Landmark Mean-Shift" - takminの書きっぱなし備忘録 @はてなブログ

    ちょっとお仕事でFaceTrackerの論文を読む機会がありました。 FaceTrackerはConstrained Local Modelという手法を用いた顔の目、鼻、口などの特徴を検出して追跡してくれるソフトウェアで、動画をここで見ることができます。 というわけで、読んだ内容をまとめました。お客さんからも許可頂いたので公開しておきます。 201205016 deformablemodelfitting View more presentations from Minagawa Takuya

    FaceTrackerの論文を読んでみた:"Deformable Model Fitting by Regularized Landmark Mean-Shift" - takminの書きっぱなし備忘録 @はてなブログ
  • 第14回コンピュータビジョン勉強会@関東「CVPR2011祭り」を開催しました - takminの書きっぱなし備忘録 @はてなブログ

    表題の通り、7/31(日)にCVPRというコンピュータビジョンの国際会議の論文読み会を開催しました。 http://atnd.org/events/17265 Togetter http://togetter.com/li/168739 以下、自分用の備忘録としてまとめておきます。 ちなみに今回は私は発表しませんでした。(名古屋で発表したので他の方に譲りましたw) 東大 原田達也先生 「CVPR2011における一般物体・シーン認識のトレンド」というタイトルで、 Unbiased Look at Dataset Bias(リンク先:PDF) What You Saw is Not What You Get: Domain Adaptation Using Asymmetric Kernel Transforms(リンク先:PDF) の二の論文をご紹介されました。当はもう二くらいあったみ

    第14回コンピュータビジョン勉強会@関東「CVPR2011祭り」を開催しました - takminの書きっぱなし備忘録 @はてなブログ
  • 1