[B! cv] [6ページ] sh19910711のブックマーク

OpenMMLabの始め方@SUMMER 2023 - Qiita

Rist Kaggle チームの藤本(@fam_taro)です。今回は Rist Kaggle合宿2023夏の時間を使って、最近の OpenMMLab の始め方をまとめてみました。本記事内ではその中の mmdetection を使って説明していきますが、他の OpenMMLab の使い方もカバーする内容となってます。また記事の後半では Kaggle のコードコンペなどに参加したいときの使い方も記載します。 1. OpenMMLabとは下図と紹介文は公式サイトより引用 OpenMMLab builds the most influential open-source computer vision algorithm system in the deep learning era. It aims to provide high-quality libraries to reduc

sh19910711 2024/05/02

"OpenMMLab: タスクごとのライブラリをまとめた OSS + 大体 Config でなんとかなる + 高い再現性 + Deploy(e.g. ONNX への変換) まで対応 + 慣れるまで大変 / 長期間での業務となると自作パイプラインだと負債が大きくなってしまう" 2023

リンク

ゼロからわかる3次元計測 3Dスキャナ，LiDARの原理と実践 - ぱたへね

ゼロからわかる3次元計測 3Dスキャナ，LiDARの原理と実践 www.ohmsha.co.jp カメラを使った計測に興味がある人に呼んで欲しい本。そもそも3次元計測とはなにかから説明があり、結構小難しい話がとても良くまとまっています。特にカメラの補正機能が何をやっていて測量時にどういう影響があるかは、仕事でやる人は目を通して欲しいなと思いました。 OpenCVを使ったキャリブレーションも、単にライブラリの使い方を説明するのではなく、原理や実際にやる上での注意点が書いてありとても良かったです。後半は、実際に3D計測をやってみようという内容になります。ここでも原理をさらっと説明した上で、実際にやっている様子やソースコードもあって分かりやすいです。まあ、実際仕事でやるならお金払って市販の3D Scannerを買うことになるので、どちらかというとホビーか勉強用の情報ですね。ただ、読んでい

sh19910711 2024/05/02

"カメラの補正機能が何をやっていて測量時にどういう影響があるか / OpenCVを使ったキャリブレーションも、単にライブラリの使い方を説明するのではなく、原理や実際にやる上での注意点が書いてありとても良かった" 2023

リンク

点群深層学習 Meta-study

cvpaper.challenge2019のMeta Study Groupでの発表スライド点群深層学習についてのサーベイ ( https://www.slideshare.net/naoyachiba18/ss-120302579 )を経た上でのMeta StudyRead less

sh19910711 2024/05/02

"三次元点群の難しさ: 順不同な入力 + 画像のようには畳み込みができない / 入力点群の順序が変わっても出力が変わらないことが望ましい / PointNet: Symmetric Functionによって順不同な入力を扱う + 点ごとに独立した変換" 2019

リンク

夏のトップカンファレンス論文読み会 / InnovationMeetup20170918csn_cvpr2k17

夏のトップカンファレンス論文読み会（2017/09/18）での発表資料です。 - connpass: https://abeja-innovation-meetup.connpass.com/event/63466/ - 著者実装: https://github.com/andreasveit/conditional-similarity-networks - 散布図: https://github.com/crcrpar/conditional_similarity_networks_pytorch

sh19910711 2024/05/01

"類似度計算: 「似ている」は画像の属性ごとに計算できると嬉しい + 1つの基準につき、1つのモデルを用意するのは効率が悪い / ベクトルにマスクを適用 + 空間を分割することで複数の類似度計算を可能に" arXiv:1603.07810 2017

リンク

Metric LearningでTWICEのメンバー9人を見分けるPyTorch入門 - Qiita

エンジニア＆リサーチインターンの佐藤(Twitter: TodayInsane)です。 ABEJA Advent Calendarの21日目を担当します。もうすぐクリスマスですね！"Merry&Happy"！！！軽い自己紹介今年の4月からフロントエンドのデザイン→Vue.js実装をメインの業務とし、半年間とあるプロダクトの開発・案件受注を長期インターンとしてお手伝いさせて頂いてました。本記事と直接の関係はありませんが、このプロダクトの開発者兼ぼくのメンターさんによる思いとテックと面白さが詰まったABEJA Tech Blogも是非ご一読ください。そして9月に初案件が無事成功した話を、インターン体験記兼続編として執筆中です。現在はエンジニア業務と同時並行で、10月から機械学習のリサーチインターンもしています。上述の人物認証を使ったプロダクトやABEJAのサービスであるInsight

sh19910711 2024/04/29

"Person Re-Identification: 画像または映像を解析し、写っている人物が既知(登録済みの人)か未知かを判定 / domain gap: 「学習データセットの人たちは推論時には多分1人も出てこない」問題" 2019

リンク

PyTorchで学習したモデルをOpenCVで使う (Custom Layer編) - takminの書きっぱなし備忘録 @はてなブログ

この記事はOpenCV Advent Calendar 2020 18日目の記事です。はじめに OpenCVにはDNNモジュールという畳み込みニューラルネットワークの機能が実装されています。この機能は推論専用のため、CaffeやTensorflowなどの深層学習ライブラリ上で学習したモデルを読み込んで使用します。DNNモジュールはPyTorchのモデルを直接はサポートしていませんが、ONNXをサポートしているため、PyTorchからONNX経由でモデルを読ませることができます。参考： takmin.hatena blog.com さて、自分たちで開発をしていると、既存のネットワーク層ではなく、自分たちで独自に開発した層を使いたいという要求が出てくると思います。TensorflowやPyTorchなどほとんどの深層学習ライブラリにはこのようなカスタマイズしたネットワーク層を作成する機能がつ

sh19910711 2024/04/27

"既存のネットワーク層ではなく、自分たちで独自に開発した層を使いたい / OpenCV: PyTorchのモデルを直接はサポートしていませんが、ONNXをサポートしている / CaffeやTensorflowのモデルを取り込む例 + チュートリアルに解説" 2020

リンク

【論文読み】画像をグラフ構造として特徴抽出するVisionGNN - Qiita

以下の論文の内容をまとめた。 Vision GNN: An Image is Worth Graph of Nodes 2022/06 https://arxiv.org/abs/2206.00272 Kai Han, Yunhe Wang, Jianyuan Guo, Yehui Tang, Enhua Wu パッチ化した画像でグラフを構築し、グラフニューラルネットワークで特徴抽出、画像分類や物体検出タスクに利用する。Transf ormerやMLPを使った画像処理の研究とコンセプトは似ている。まとめ前提/課題 CNN, transf ormer, MLP, 等を利用してコンピュータビジョンモデルが改善されている画像中の物体は通常、形状が不規則で四角形ではないため、ResNetやViTなどの従来のネットワークで一般的に使われているグリッドやシーケンス構造は、冗長で柔軟性がなく、処理しに

sh19910711 2024/04/17

"VisionGNN: 画像をノードと見なせるいくつかのパッチに分割し、近傍のパッチを連結してグラフを構成 + GNNで特徴抽出、画像分類や物体検出 / 深層部では中心ノードの近傍はより意味的" arXiv:2206.00272 2022

リンク

irisで試す相互情報量の最大化による教師なし学習手法IIC - Qiita

概要実験結果のファイルをGitHubに保存しています概要未知ラベルの画像にノイズをのっけて、相互情報量を最大化するように学習することで画像のクラスタリングを行えるとのこと。つまり、画像に対して事前のアノテーション（ラベリング）作業不要でクラスタリングが可能詳細はarxiv読んでください。 Invariant Information Clustering for Unsupervised Image Classification and Segmentation（arxiv） xu-ji/IIC （本家Gitリポジトリ）教師あり学習の精度を超えた！？相互情報量の最大化による教師なし学習手法IICの登場！（日本語解説） RuABraun/phone-clustering （比較的シンプルな実装例Gitリポジトリ） MNISTはいろんなひとが実装しているので、画像ではなく、もっと

sh19910711 2024/04/05

"IIC: 未知ラベルの画像にノイズをのっけて、相互情報量を最大化するように学習 + 画像に対して事前のアノテーション作業不要でクラスタリング / バッチ正規化を利用しないと学習が進まない" arXiv:1807.06653 2020

リンク

CIFAR-10を疑似ラベル（Pseudo-Label）を使った半教師あり学習で分類する - Qiita

TL;DR 半教師あり学習の1つの手法である、疑似ラベルをCIFAR-10で試したサンプル数が少ない場合は、疑似ラベルを使うことでテスト精度を引き上げることができたただし、転移学習と比べると若干見劣りすることもある元ネタかなり平易に書かれた論文なので読みやすいと思います。 Dong-Hyun, Lee. Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks. 2013 http://deeplearning.net/wp-content/uploads/2013/03/pseudo_label_final.pdf 半教師あり学習とは「教師あり学習」と「教師なし学習」の間の子。教師あり学習のように$(X, y)$とラベル付けされたデータと、教師

sh19910711 2024/03/06

"疑似ラベルによる半教師あり学習: 未ラベルデータと、本物のラベルがついたラベル付データを混ぜて同時に訓練 / 訓練させるたびに、疑似ラベルを再度推論 / 本物のラベルと疑似ラベルの間のバランスが重要" 2018

リンク

画像データに対するGraph Neural Network（GNN）入門 - Qiita

はじめに最近、グラフニューラルネットワーク（Graph Neural Network; GNN）を用いた気象予測の論文が話題を呼んでいました。 Learning skillful medium-range global weather forecasting | Science https://www.science.org/doi/10.1126/science.adi2336 Google DeepMindの気象予測AI「GraphCast」、1分で前例ない精度の10日間予報を出力 https://www.techno-edge.net/article/2023/11/15/2259.html Learning skillful medium-range global weather forecasting (Lam et al. 2023) こちらの研究では空間スケールの異なる様々

sh19910711 2024/02/29

arXiv:2206.00272 / "Vision GNN (Han et al. 2022): GNNで画像認識することで、Vision Transformer等の最新モデルを超えるパフォーマンス + 画像をいくつかのパッチに分割し、それらをノードと見なす" / 2023

リンク

BERTとResnetのマルチモーダルモデル「MMBT」を徹底解説 - Qiita

はじめに実務でECサイトのレコメンド精度改善のために、画像とテキストの両方を用いたマルチモーダル分類モデルを実装しました。当初社内にマルチモーダル・ディープラーニングについての知見がなく、web記事を片っ端から漁りましたが執筆時点（2021年11月）には参考になるような日本語記事はほとんど見当たりませんでした。何とかしてマルチモーダルモデルを構築できないものかと調査したところMMBTの論文にたどり着きました。そして、自社データを用いてモデル構築したところベースラインを上回る精度が出ましたのでここで紹介したいと思います。これからマルチモーダルモデルに挑戦される方の参考になれば幸いです。原論文：Supervised Multimodal Bitransf ormers for Classifying Images and Text github：MultiModal BiTransf

sh19910711 2024/01/18

"データサイエンスVtuber アイシアさんの自然言語処理シリーズ / MMBT: BERTとResNet-152のベクトルを結合した後にさらにBERTに入力 / 判断根拠の可視化: nike,fear,airといった単語が注目され、画像側ではNikeのロゴマーク" / 2021

リンク

深層学習を利用した食事画像変換で飯テロ - Qiita

はじめにこれは，NTTコミュニケーションズ Advent Calendar 2018 2日目の記事です．関連記事は目次にまとめられています．（更新したら12/3になってました．．．） ⚠ 魅力的な飯テロ画像をご用意し，圧倒的な飯テロを狙った記事となっていますので，夜中に見る場合はご注意ください．おまえだれ？！普段の業務では，マルチモーダル深層学習や機械学習分析ツール開発などをメイン業務としていて，趣味はプロテインです．学生時代，学部までは画像認識（モバイル+深層学習）をテーマに研究していまして，修士からは画像生成・画像変換を主に研究していました．Neural Style TransferとかGenerative Adversarial Networksの論文が出始めた頃ですね．大学院を卒業してからは，中々，GAN分野の動向を追っていないのですが，まだ流行ってたりするのかな？ (th

sh19910711 2022/12/07

2018 / "GAN: pix2pix -> CycleGAN + ACGAN -> StarGAN の流れで調べていくとスムーズ / 「ラーメン」のカテゴリに至ってはその種類の多様性が他のカテゴリと比べて高かった / HoloLensと組み合わせて質素な見た目の料理を豪華な食事へ"

リンク

Web2.0時代の画像補完技術－＠IT

2007/08/29 1万枚の写真を使ってできないことで、200万枚の写真ならできることがある。それは熟練したPhotoshopの使い手が1時間かかってやる写真加工の作業を、コンピュータ処理で自動化してしまうこと――。8月初頭に米国サンディエゴで開催された画像処理技術の祭典、SIGGRAPH 2007で発表されたシーン補完技術は、何百万枚もの写真をネットで集められるWeb2.0時代の画像処理技術だ。写っている邪魔な対象物を自然に置換「数百万枚の写真を使ったシーン補完」と題した論文と、その成果を発表したのは、カーネギーメロン大学のジェームズ・ヘイズ（James Hays）氏とアレクセイ・A・エフロス（Alexei A. Efros）氏。この補完技術のアイデアは、元となる写真に似た構図や配色の写真を、ネット上で集めた膨大な数の写真データベースから探し出し、元の写真の消したい部分、あるいは復

sh19910711 2022/10/13

2007 / "画像の数を1万枚から200万枚に増やしたところ、クオリティが飛躍的に向上 / 世界のすべてを表現できるほど十分に大きなデータを集めることはできるか > 必要とされる画像の数は天文学的な数字にならないのでは"

リンク

PyTorchによる人工衛星画像から車の推定分布地図を作成してみる． - Qiita

1. 概要．こちらの記事を読んだとき”この内容を理解し自分で実装できたらいいな〜”と憧れていました. Deep Learning で航空写真から自動車をカウントするこちらを自分で実装できることをターゲットに，PyTorchを学びました．ある程度できましたので，せっかくだから公開されている人工衛星の撮影画像に構築したモデルで車の台数を推量し，同様に車のマッピングを求めてみました． Copyright©2016DigitalGlobe. 学習用および検証用の画像データの取得，PyTorchでモデル化するためのDatasetおよびDataloader処理，学習，検証と人工衛星の撮影画像によるデモンストレーションを紹介します．Pytorchによる航空画像の建物セグメンテーションの作成方法.と同様に，PyTorchや画像分類が初めての方を対象としたため，かなり細かく紹介しています．そのため長文と

sh19910711 2022/09/23

2020 / "航空写真を用いた車の台数の推定モデルの構築 + 衛星画像の車の台数分布地図を作成 / 画像に写っている車の数を画像の模様（テクスチャー）として識別 + 画像分類にて車をカウント / アノテーションコストが低減"

リンク

DeepStream プラグイン入門1 〜サンプルプラグインを実行してみる〜 - 技ラボ

DeepStream をきちんと使えるようになりたい！！ということで、オリジナルのプラグインを作ってストリーム処理に組み込むことを最終目標に DeepStream の勉強をしてみました。まず今回は手始めに配布されているサンプルのプラグインを実行し動作確認、さらにそこから『何もしない』サンプルプラグインを作ってみます。 DeepStreamとは？ NVIDIA DeepStream SDK NVIDIA が提供する IVA (Intelligent Video Analytics) 向けのライブラリ。GPU を使って高速に映像の入出力、物体検出等を行うことができます。マルチメディアフレームワーク「GStreamer」がベースとなっていて、GStreamer のプラグインと合わせて使用することも可能です。環境本シリーズ記事では、以下の環境で動作確認を行ってます。 Jetson Nan

sh19910711 2022/07/11

2021 / "DeepStream: NVIDIA が提供する IVA (Intelligent Video Analytics) 向けのライブラリ。GPU を使って高速に映像の入出力、物体検出等を行うことができます"

リンク

画像をハッシュ化しRDBMSに記録し、SQLで類似画像を検索する - Qiita

概要大量の画像の中から類似画像を検索するソリューションを開発するとします。類似画像を検索したいが、その都度ファイルを読み出したり、メモリに乗せて処理するのは速度やHWコスト面で大変です。検索を容易にするためにはRDBMSを活用するのが楽です。そのため今回は画像の形状パターンをハッシュ化して予めDBに登録しておき、検索したい画像のハッシュ値とSQLだけで類似画像を検索できるようにします。画像の形状パターンをハッシュ化するには Avarage Hash(aHash) や Perceptual Hash(pHash) などの手法があります。 Avarage Hash 画像を8x8に縮小してグレースケール化した各点の輝度値の平均値を取り、その平均値と比べ各点大きいか小さいかで2値化して一列にすることで64bit値を取得します。 Perceptual Hash 画像を8x8より大きい適当な

sh19910711 2022/07/07

"Avarage Hash: 画像の形状パターンをハッシュ化 + 画像を8x8に縮小してグレースケール化した各点の輝度値の平均値を取り、その平均値と比べ各点大きいか小さいかで2値化 / ハミング距離が小さいほど類似している"

リンク

[テスト] 畳み込みニューラルネットワークを用いたモノクロ動画の自動彩色 | BLOG | Nao Tokui / 徳井直生

遅ればせながら… 2016年もよろしくお願いします. 今年のお正月、元旦から体調を崩してしまったために期せずして寝正月となってしまいました。その間、ベッドに横になりながら、なんとなくNHK BSを見ていたのですが、「映像の世紀」のデジタルリマスター版の再放送に釘付けになってしまいました。気づいたら元旦はほとんどぶっ通しで見ていたように思います。その中で感じたのは、ぼやけた白黒映像からクリアなカラー映像になるだけで、歴史映像の視聴体験が体感として大きく異なるということです。山に囲まれた別荘で愛犬と戯れるヒトラー。映画プラトーンさながらにベトナムの村を焼き払うアメリカ兵。鮮明なカラー映像として目の当たりにすることで、歴史が「遠い昔のこと」ではなく、いまにつながる自分ごととして感じられる、そんな風に思いました。昨今憲法改正などをめぐっての議論がきなくさくなりつつある昨今ですが、もし仮に太平洋戦

sh19910711 2022/06/19

2016 / "ぼやけた白黒映像からクリアなカラー映像になるだけで、歴史映像の視聴体験が体感として大きく異なる / 歴史が「遠い昔のこと」ではなく、いまにつながる自分ごととして感じられる"

リンク

7帖の室内で球速を測ってみる話 - すぎやまたいちのブログ

こちらはドワンゴ Advent Calendar 2021 4日目の記事です。はじめに新型コロナウイルス対策の一環としてテレワークが急速に普及し、今はご自宅でお仕事をされている方も多いのではないでしょうか。私が働く会社でも、感染対策として昨年2月という比較的早い時期から原則在宅勤務が導入され、昨年7月にその制度が恒久化されました。さて突然ですが、みなさんの仕事部屋に防球ネットは置いてありますか？私はあります。（マウント）仕事部屋です防球ネットが仕事部屋にあると非常に便利です。仕事で溜まったストレスをいつでも軟式M号球に込めて防球ネットにぶつけて発散することが出来ます。ただ、仕事部屋の広さは約7帖で、日本の一般的な住宅の1室としては普通の広さかなと思いますが、軟式球を投げるにはあまりに狭過ぎます。それでも防球ネットは安定して私の投げたボールを受け止めてくれるので素晴らしい

sh19910711 2022/06/15

"防球ネットが仕事部屋にあると非常に便利です。仕事で溜まったストレスをいつでも軟式M号球に込めて防球ネットにぶつけて発散することが出来ます / 白色のボールを白色の壁の部屋で検出するのは難しい"

リンク

Cramér GANでいらすとや画像生成してみる - 緑茶思考ブログ

Cramér GAN arXiv:https://arxiv.org/abs/1705.10743v1 このGANは数日前(5/30)に投稿されたもの。これまでGANのベースラインとして， vanilla GAN，DCGAN，WGAN，WGAN-gpなどが使われてきた．この中のWGANやWGAN-gpより優れているという主張が論文内でされている．（abstで it performs significantly better than the related Wasserstein GAN との記述）また，twitter上では「WGANは死んだ」などの強めのつぶやきが観測されている．その強さを見てみたいので，このCramér GANの論文を読み，実装していらすとや画像を生成してみたというのが本記事の主旨。ついでにWGAN-gpも実装して比較した。論文の概要機械学習に使う確率

sh19910711 2022/06/05

2017 / "機械学習に使う確率分布間の距離指標には，次の3つの性質が必要: sum invariance + scale sensitivity + unbiased sample gradients / Cramér距離はWasserstein距離とKL divergenceのいいとこ取りした指標"

リンク

着彩済イラストから綺麗に線画を抽出する方法 - 午睡二時四十分

機械学習のテーマの一つとして自動着彩があります。この中で、特にイラストの自動着彩を考えると未着彩と着彩済みのペアが学習用サンプルとして大量に必要となりますが、まとまった量を入手するのはなかなか難しいという問題があります。すると、カラーイラストから線画を抽出することを考えたくなるのですが、一般的な輪郭検出を用いると「輪郭線自体の輪郭」が抽出されてしまい、線がぼやけてしまうという問題があります。例えばに対して輪郭検出を実施すると、となります。（拡大）右頬の輪郭線に対して、肌側、背景側それぞれの境界が検出されてしまい、線が2本引かれてしまっていることがわかります。で、綺麗な輪郭抽出ができず困っていたのですが、ﾋﾟｰFN（一体何FNなんだ...）のtaizanさんが投稿されたこちらのエントリ qiita.com では非常に綺麗に線画抽出ができており、どのようにやっているか気になっ

sh19910711 2021/09/12

cv2.dilate + cv2.subtract / "自動着彩を考えると未着彩と着彩済みのペアが学習用サンプルとして大量に必要となりますが、まとまった量を入手するのはなかなか難しい > イラストから線画を抽出することを考えたくなる"

リンク

はてなブックマーク

タグ

関連タグで絞り込む (62)

cvに関するsh19910711のブックマーク (156)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス