[B! computer vision] tokuryooのブックマーク

tokuryoo id:tokuryoo

computer visionに関するtokuryooのブックマーク (178)

GitHub - JunMa11/SegLossOdyssey: A collection of loss functions for medical image segmentation
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
tokuryoo 2020/06/02
segmentation

computer vision
リンク
Amazon.co.jp: 実践GAN　敵対的生成ネットワークによる深層学習 (Compass Booksシリーズ): Jakub Langr (著), Vladimir Bok (著), 大和田茂 (翻訳): Digital Ebook Purchas
tokuryoo 2020/03/22
book

deep learning

computer vision
リンク
最新のRegion CNN(R-CNN)を用いた物体検出入門 ~物体検出とは? R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN~ - Qiita
最新のRegion CNN(R-CNN)を用いた物体検出入門 ~物体検出とは? R-CNN, Fast R-CNN, Faster R-CNN, Mask R-CNN~DeepLearningR-CNNfaster-r-cnn物体検出PyTorch （参考）：2022年における物体検出ライブラリについてまとめました。更新履歴 Mask R-CNNについて加筆(12/13)。 F-RCNNのAnchorについて記述(12/23)。 Chainerのrepoについて追記(1/3/19)。 Detectronについて追記(3/28/19)。高速化について追記（9/10/19)。 Torchvision FasterR CNNについて追記(7/6/20) SSD,YOLOについて準備中。本記事は2018に記述したものです。RCNNの基本などは本記事の記述からさほど大きな変化はないものの、Eff
tokuryoo 2020/02/16
computer vision

deep learning
リンク
データのお気持ちを考えながらData Augmentationする
オプティマイザーはMomentumで係数は0.9です。このオプティマイザーの設定はケースを通じて変更しません。ただしその他の設定は途中で変更します。なお、試行回数はすべて1回なので精度に誤差があるかもしれません。 10層CNNは、32×32×64が3層、16×16×128が3層、8×8×256が3層、Global Average PoolingしてSoftmaxが1層という構成です。詳しくは末尾のコードを見てください。 Data Augmentationなしでの精度（テスト精度）は88.95%とりました。テストデータ1万個に対する混同行列は次の通りです。さすがにミス多いですね。ベースライン：Standard Data Augmentation ここからData Augmentationを入れます。まず、CIFAR-10のData Augmentationとして定番の左右反転＋上下左右4ピ
tokuryoo 2019/09/03
deep learning

data augmentation

computer vision
リンク
How to do Semantic Segmentation using Deep learning
Published: May 19, 2021 ● Updated: Mar 25, 2024 This article is a comprehensive overview including a step-by-step guide to implement a deep learning image segmentation model. We shared a new updated blog on Semantic Segmentation here: A 2021 guide to Semantic Segmentation Nowadays, semantic segmentation is one of the key probl ems in the field of computer vision. Looking at the big picture, semanti
tokuryoo 2019/08/16
segmentation

deep learning

computer vision
リンク
畳み込みニューラルネットワークの高精度化と高速化
2012年の画像認識コンペティションILSVRCにおけるAlexNetの登場以降，画像認識においては畳み込みニューラルネットワーク (CNN) を用いることがデファクトスタンダードとなった．CNNは画像分類だけではなく，セグメンテーションや物体検出など様々なタスクを解くためのベースネットワークとしても広く利用されてきている．本講演では，AlexNet以降の代表的なCNNの変遷を振り返るとともに，近年提案されている様々なCNNの改良手法についてサーベイを行い，それらを幾つかのアプローチに分類し，解説する．更に，実用上重要な高速化手法について、畳み込みの分解や枝刈り等の分類を行い，それぞれ解説を行う． Recent Advances in Convolutional Neural Networks and Accelerating DNNs 第21回ステアラボ人工知能セミナー講演資料 http
tokuryoo 2019/05/15
もう一歩精度上げたいので、ぜひ参考にしたい。明後日読む！

cnn

deep learning

computer vision
リンク
コンピュータビジョンの最新論文調査 Human Recognition編 | BLOG - DeNA Engineering
はじめにこんにちは、AIシステム部でコンピュータビジョンの研究開発をしております本多です。我々のチームでは、常に最新のコンピュータビジョンに関する論文調査を行い、部内で共有・議論しています。今回我々が読んだ最新の論文をこのブログで紹介したいと思います。今回論文調査を行なったメンバーは、洪嘉源、林俊宏、本多浩大です。論文調査のスコープ 2018年11月以降にarXivに投稿されたコンピュータビジョンに関する論文を範囲としており、その中から重要と思われるものをピックアップして複数名で調査を行っております。今回はHuman Recognition編として、ポーズ推定をはじめとする人物の認識に関する最新論文を取り上げます。前提知識今回紹介するHuman Recognitionとは、RGB画像を入力として、人物の姿勢推定やセグメンテーション、モーションキャプチャ情報を推定するタスク
tokuryoo 2019/04/26
computer vision

paper
リンク
ハーバード大学など、画像内の物体を背景から分離する対話型画像セグメンテーションアルゴリズムを発表
ハーバード大学など、画像内の物体を背景から分離する対話型画像セグメンテーションアルゴリズムを発表 2019-04-24 ハーバード大学と高麗大学校による研究チームは、画像において物体を背景から分離する対話型画像セグメンテーションアルゴリズムを発表しました。論文：Interactive Image Segmentation via Backpropagating Refinement Scheme 著者：Won-Dong Jang, Chang-Su Kim 所属：Harvard University Cambridge, MA, Korea UniversityRepublic of Korea 対話型画像セグメンテーションとは、ターゲットオブジェクト（または前景）を背景から分離するタスクです。タスク処理した画像データセットは、学習において活用されます。そのため、膨大な画像が必要な訓練用
tokuryoo 2019/04/24
computer vision

segmentation

dataset
リンク
[最新論文]NVIDIAさんがまた本気を出してしまった。 - Qiita
論文紹介・画像引用・GIF引用 NVIDIAより2019.3.18提出 https://arxiv.org/pdf/1903.07291v1.pdf https://github.com/NVlabs/SPADE https://www.youtube.com/watch?v=MXWm6w4E5q0&feature=youtu.be https://gadgets.evolves.biz/2019/03/20/nvidia_smartpaintbrush/ 本研究について・セマンティックセグメンテーションマスクからリアルな画像への変換・エンコーダーを使うことでスタイルの選択も可能・SPADE（後述）という正規化層を加えることによって、少ないパラメータで意味情報を捉えた画像合成ができるようになった欲しい画像を簡単につくれる・ユーザーがセグメンテーションマスクを描くことで、それに対応
tokuryoo 2019/03/29
deep learning

computer vision

segmentation
リンク
最新最強の物体検出技術M2Detを動かしてみた - Qiita
はじめに先日以下の記事を書きました。最新最強の物体検出技術M2Det で、著者らによる実装がGitHubで公開されたので動かしてみると共にSSDとざっくり比較しました。結論を言ってしまうと、今回試した範囲ではM2DetはSSDよりも遅かったですが、特に小さな物体に対する検出精度がかなり高いです。実験環境今回はASUSのゲーム向けラップトップROG ZEPHYRUSGX 501GIを使いました。GTX 1080を積んでるにも関わらずまぁ持ち歩けなくはないというレベルのサイズを実現している優秀なマシンです。スペックはざっとこんな感じです。 CPU: Intel Core i7-8750H @ 2.2GHz MEM: 24GB GPU: NVIDIA GeForce GTX 1080 Max-Q OS: Ubuntu 16.04 LTS 実装冒頭にも書いたように著者らの実装をそのまま使
tokuryoo 2019/03/15
computer vision

deep learning

object detection
リンク
最新最強の物体検出技術M2Det - Qiita
はじめに AAAI19で北京大学、アリババ、テンプル大学の合同チームにより発表された物体検出技術M2Detについての解説です。 Qijie Zhao et al., M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network. 下記は論文から引用した他手法との性能比較図ですが、水色の★がM2Detです。横軸が処理時間、縦軸が検出精度なので、左上にいくほど性能が高い（高速かつ高精度）ことになりますが、M2DetはRetinaNetやRefineDet、SSDやYOLOなどの有名な既存手法を凌駕していることがわかります。ざっくりとしたアーキテクチャは以下のように図示されていますが、これだけではよくわからないので細かく中身を見ていきたいと思います。アーキテクチャ概要 M2Detのアーキテク
tokuryoo 2019/03/15
computer vision

deep learning

object detection
リンク
【Deep Learning入門】0から勉強して3ヶ月でポリープ検出AIをつくったった - Qiita
３ヶ月で出来たものまずは蠢く内臓の成果物から、これが今回作ったポリープ検出AIです！上の映像が元の内視鏡の動画で、下が今回開発した検出AIの動作動画です。青い枠で「ポリープだよ！」と主張してくれてますね！３ヶ月の学習の流れ基礎的な機械学習手法のスクラッチまずは数学的な理解から始めました。手法ごとの数式を読んで、それを実装に落としていきます。 -　線形回帰 -　重回帰 -　主成分分析 -　Kmeans -　決定木 -　SVM 悶え苦しんだのですが、この時期に数式に対するアレルギーがほぐれていきました！最初は2乗誤差の微分変形を理解するのに苦労した思い出があります。このときに一番参考になった書籍は「やさしく学ぶ機械学習を理解するための数学のきほん」ですこれで機械学習の更新の概念が腹落ちしました。オススメ！ kaggleへの挑戦定番のタイタニックや良質なコンペの
tokuryoo 2019/01/31
computer vision

cnn

deep learning

study
リンク
たった1000枚の画像分類『Train with 1000』で遊ぶ、学ぶ。 - Qiita
参考： GPipe、ARS-Aug、AutoAugment、森下らの手法ただし、最も優れているGPipeはImageNetの学習済みモデルを利用するため、Train with 1000の条件から外れます。 GPipeを除くと、ARS-AugとAutoAugmentの双方でPyramidNet-SDが現時点で最も優れたモデルとなります。従って、Train with 1000において現時点で最高水準の分類精度を達成しうるモデルはPyramidNet-SDと言えます。 (後記で言及しますが、実際は一応更に優れたモデルが提案されています。じ、実装できなかったんや…。) 実際にTrain with 1000に対してPyramidNet-SDを利用した所、分類精度は64.5%を達成しました。本実験ではPyramidNet-SDをベースラインとし、更に認識精度を改善しうる手法について検討を行いまし
tokuryoo 2018/12/29
deep learning

cnn

computer vision
リンク
Video-to-Video Synthesis
- 3 users
- arxiv.org
- 学び
We study the probl em of video-to-video synthesis, whose goal is to learn a mapping function from an input source video (e.g., a sequence of semantic segmentation masks) to an output photorealistic video that precisely depicts the content of the source video. While its image counterpart, the image-to-image synthesis probl em, is a popular topic, the video-to-video synthesis probl em is less explored
tokuryoo 2018/08/22
paper

computer vision
リンク
Video-to-Video Synthesis
We study the probl em of video-to-video synthesis, whose goal is to learn a mapping function from an input source video (e.g., a sequence of semantic segmentation masks) to an output photorealistic video that precisely depicts the content of the source video. While its image counterpart, the image-to-image synthesis probl em, is a popular topic, the video-to-video synthesis probl em is less explored
tokuryoo 2018/08/22
paper

computer vision
リンク
与えられた輪郭からAIがリアルな実写風映像を自動的に生成する「vid2vid」
あるムービーをベースにし、そこに含まれる要素を実在しない別のものに置き換えるムービーをAIが新たに生成する分野「Video-to-Video Synthesis」で、従来にはないリアルさを持つ新しい技術「vid2vid」が開発されました。 Video-to-Video Synthesis https://tcwang0509.github.io/vid2vid/ [1808.06601] Video-to-Video Synthesis https://arxiv.org/abs/1808.06601 vid2vidは、マサチューセッツ工科大学とNvidiaの専門家による開発チームによって開発されたもの。どれほどリアルな映像を生成できるかは、以下のムービーを見ればよくわかります。 Video-to-Video Synthesis - YouTube コンピューターに与えられるのは、以下のよ
tokuryoo 2018/08/22
paper

computer vision
リンク
MIRU2018 tutorial
3. Team year Error (top-5) AlexNet 2012 15.3% Clarifai 2013 11.2% VGG 2014 7.32% GoogLe Net 2014 6.67% ResNet 2015 3.57% ResNet+ 2016 2.99% SENet 2017 2.25% human expert 5.1% 14. • 2012年のILSVRC優勝モデル • Rectified Linear Units (ReLU) • Local Response Normalization (LRN) • Dropout（全結合層） • Pre-training（事前学習） A. Krizhevsky, "Imagenet classification with deep convolutional neural networks”, NIPS, 2012.
tokuryoo 2018/08/06
paper

slideshare

computer vision
リンク
趣味なし奴のメモ帳: LSD-SLAMの特徴
前に導入したLSD-SLAMの特徴について書きたいと思いますまず，LSD-SLAMは，こんな感じのやつです．特徴ベースとDirectの話 ORB-SLAMやPTAMのような，マップを特徴的な点のみからあらわす(特徴ベース)のSLAMと違い，DirectなSLAMは直接輝度をマップに反映したり，自己位置推定に用いているので，作成される地図が目で見てわかりやすい(傾向が強い)です．＊厳密には，目で見てわかりやすいのはdirectであることよりも，密であることの影響である．だが，directであるものは密で，特徴ベースのものは逆に疎であることがほとんど．密な地図は再利用性が高くなります．直接(directに)輝度を用いることで，点ではなくて線でデータを扱うことができます．面ではなくて線なのは，全部の輝度を使うと計算負荷が高いので輝度勾配の高いところをデータとして扱っているからです．DTA
tokuryoo 2018/07/12
slam

computer vision
リンク
Deep learningで画像認識⑦〜Kerasで畳み込みニューラルネットワーク vol.3〜
DeepLearningで画像分類というと、万単位の大量の画像を学習させる必要があるイメージがあるかもしれませんが、少ない画像数でもDeepLearningで分類が可能となる方法があります。その1つの方法が画像データの水増し（データ拡張：Data Augmentation）です。 Kerasでは、「ImageDataGenerator」というクラスが用意されており、元画像に移動、回転、拡大・縮小、反転などの人為的な操作を加えることによって、画像数を増やすことができます（もちろん、元画像によく似た画像になる点は否めないため、過学習ぎみになる不安は拭いきれません）。下に示すように、17種類の操作項目がありますが、今回は回転や水平方向のフリップ等、3項目のみ使用しました。下に示す最初の4項目は、画像の正規化の方法を意味しており、画像の前処理としてかなり重要ですが、今回はこのクラスを使用せずに自
tokuryoo 2018/07/06
cnn

computer vision
リンク
エッジにおける深層学習の推論処理の効率化
1. 487-8501 1200 Tel 0568-51-8249 Fax 0568-51-9409 487-8501 1200 Tel 0568-51-9670 Fax 0568-51-1540 487-8501 1200 Tel 0568-51-9096 Fax 0568-51-9409 miya@vision.cs.chubu.ac.jp http://vision.cs.chubu.ac.jp MACHINE PERCEPTION AND ROB Chubu University Department of Robotics Science a College of Engineering Ayumi Miyako Machine Perception and Robotic 1200 Matsumoto-cho, Kasugai, A 487-8501 Japan Tel +81
tokuryoo 2018/06/27
slideshare

cnn

computer vision
リンク
1 2 3 4 5 6 7 8 9 次のページ