タグ

*algorithmとconvに関するsh19910711のブックマーク (43)

  • 論文メモ: Conditional PixelCNN - PixelCNNベースの条件付き画像生成モデル

    論文 Conditional Image Generation with PixelCNN Decoders 表記 LL: log likelihood 概要 PixelCNNをベースにした条件付き生成モデルを提案する。モデルに与えるコンテクストは任意のラベルやタグ、埋め込みベクトルを指定できる。例えばImageNetのクラスラベルをコンテクストに与えた場合は動物、物体、風景、構造物などのリアルかつ多様な画像を生成する。また、未知の特定の人物の埋め込みベクトルを与えた場合はその人物の様々な表情、ポーズ、照明条件の画像を生成する。また、提案モデルをオートエンコーダのデコーダとして用いた場合、高精細かつ多様な画像を生成する。さらに、提案手法はPixelCNNのLLを改善し、PixelRNNと同等のLLのモデルをPixelRNNの半分以下の時間で学習することに成功した。 研究分野における位置付け

    論文メモ: Conditional PixelCNN - PixelCNNベースの条件付き画像生成モデル
    sh19910711
    sh19910711 2025/08/11
    2022 / "PixelCNNは層を深くしても右側に参照されないピクセル(=盲点)がある / これを克服するために、提案手法は垂直方向と水平方向の2つのCNNに分割"
  • 1次元畳み込みニューラルネットワークでMNISTの時系列処理

    畳み込みニューラルネットワークと聞いて、画像処理を真っ先に思いつくのが普通だと思います。でも、実は別の分野でも大きな成果を出しています。今回扱う1次元畳み込みニューラルネットワークは自然言語処理などの時系列情報を認識する性能で再帰型ニューラルネットワークを凌いでいます。 畳み込みニューラルネットワークとは 畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)とは、主に画像認識の場で使用される深層ニューラルネットワークで、局所的受容野と重み共有という特徴を生かし、全結合ニューラルネットワークに比べて少ないパラメータ数で空間的な特徴を高精度で認識することを可能にしています。

    1次元畳み込みニューラルネットワークでMNISTの時系列処理
    sh19910711
    sh19910711 2025/07/26
    2023 / "LeNet: 現在の形に最も近い初代のCNN / 系列データに対して1次元畳み込みを適用する際には、時間軸上に対してのみ畳み込みを実施し、最後にチャンネル方向で足し合わせ"
  • Convolutional Neural Networkとは何なのか - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 機械学習の世界において、画像といえばConvolutional Neural Network(以下CNN)というのは、うどんといえば香川くらい当たり前のこととして認識されています。しかし、そのCNNとは何なのか、という解説は意外と少なかったりします。 そこで、記事ではCNNについてその仕組みとメリットの解説を行っていきたいと思います。 なお、参考文献にも記載の通り解説の内容はStanfordのCNNの講座をベースにしています。こちらの講座はNeural NetworkからCNN、はてはTensorflowによる実装まで解説される予定な

    Convolutional Neural Networkとは何なのか - Qiita
    sh19910711
    sh19910711 2025/04/23
    2016 / "畳み込み: 画像上にフィルタと呼ばれる小領域をとり、これを1つの特徴量として圧縮 / 識別の層を外したCNNは、入力された画像をその特徴を(識別が可能なほど)よく表すベクトルに変換するプロセス"
  • Character level CNN [CNNで自然言語処理]

    [DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing

    Character level CNN [CNNで自然言語処理]
    sh19910711
    sh19910711 2025/04/19
    2018 / "exPose: オリジナルのアーキテクチャでは上手くいかなかったので別のアーキテクチャを試した + カーネルサイズが違う複数のCNNに入れて特徴を出力 / 誤字脱字・タイポ・変換ミスに強い"
  • 実は強い 非ViTな画像認識モデル

    社内のCV輪講で使用した資料です。 CNNを構造の中心とした画像認識モデルアーキテクチャについて、近年登場したものを紹介しました。 以下スライド中の参考文献のリンク [1] https://arxiv.org/abs/2103.07579 [2] https://arxiv.org/abs…

    実は強い 非ViTな画像認識モデル
    sh19910711
    sh19910711 2025/03/05
    "画像認識: CNNを構造の中心としたモデルアーキテクチャについても研究が続けられており、精度もViTベースのモデルに比肩するようになってきている / ConvNeXt: CNNとTransformerのアーキテクチャの違いを調査"
  • 画像特徴量抽出モデルの比較:ResNetの進化と他のモデルとの違い

    🟢 はじめに 画像の特徴量を抽出する際に、最もよく使われるのが**CNN(畳み込みニューラルネットワーク)**です。その中でも ResNet(Residual Networks) は、さまざまなバージョンがあり、用途に応じて選択されます。 また、ResNet以外にも、EfficientNet・VGG・Inception・MobileNet など、画像の特徴量を抽出するための強力なモデルが存在します。 今回は、ResNetの各バージョンの違いを徹底比較し、他の画像特徴量抽出モデルとの違いを詳しく解説します。 📌 1. ResNetとは? 🔹 残差学習(Residual Learning)とは? ResNet(Residual Network)は、**「層を深くしても学習が進む」**という特徴を持つニューラルネットワークです。 従来のCNN(VGGなど)では、層を深くすると勾配消失が発生

    画像特徴量抽出モデルの比較:ResNetの進化と他のモデルとの違い
    sh19910711
    sh19910711 2025/03/05
    "従来のCNN(VGGなど)では、層を深くすると勾配消失が発生し、学習が進みにくくなる という課題 / ResNetは、この問題を解決するためにスキップ接続(Skip Connection)を導入 / 「入力 + 出力」 を足し合わせる"
  • 全国医療AIコンテスト 2021 1st place solution

    修正、加筆しました

    全国医療AIコンテスト 2021 1st place solution
    sh19910711
    sh19910711 2024/10/12
    "WaveNet: 層が深くなるにつれて、「とびとびで」畳み込みを行うネットワーク + 学習の安定性、速度、精度どれも良く非常に強力" '21
  • Sparse TableにO(log N)で非冪等性演算range foldを載せてみた - Qiita

    はじめに ネタ記事です。該当の機能がほしいならDisjoint Sparse Tableを使ったほうが良いことを前提に読んでください。 はじめましての人ははじめまして。alumiです。 最近Sparse Tableについて学習しているのですが、その際にSparse Tableにも非冪等性の演算に関するrange foldが載せられそうだな~と思いつき実際に載せられたので、Sparse Tableの実装とともに紹介します。全国のSparse Table未学習者の参考になればうれしいです。 Sparse Tableってなに? 静的配列に対する区間foldを、空間$O(N\log{N})$、前計算$O(N\log{N})$、区間foldクエリ$O(1)$で答えるデータ構造です。ただし静的配列の要素はfold演算$\oplus$について以下の性質を満たす必要があります。 結合性:$(A \oplu

    Sparse TableにO(log N)で非冪等性演算range foldを載せてみた - Qiita
    sh19910711
    sh19910711 2024/08/31
    "Sparse Table: いい感じの長さの区間fold値を前計算 + ほしい区間fold値を前計算した2つの区間fold値の演算によってO(1)で求める / 結合性と冪等性はfold演算をO(1)でこなすために必要な性質"
  • Convolutionのアルゴリズム

    Simplify! 10 ways to reduce complexity in software development

    Convolutionのアルゴリズム
    sh19910711
    sh19910711 2024/08/28
    "im2col: Convolutionを1回の行列乗算で行う + Loweringとも呼ばれ + 一時的な利用メモリが増加 + コピーのコストも掛かる" '17
  • GCNの実装をちゃんと理解する - Qiita

    はじめに GCN,ちゃんと理解していますか? グラフ深層学習屋さんなら誰でも知っている叩き台ことGCNですが,有名すぎてネットのそこら中に実装が転がっていて,コピペすれば動いてしまいます. なんとなく何をしているかは知っていても,具体的な実装を見たことはない……そんな状況を解消するため,GCNの実装を細かいところまで見ます. GCNの論文 Semi-Supervised Classification with Graph Convolutional Networks 基 GCNは隣接ノード間で属性情報を伝播し,畳み込んでノードの埋め込みとする. 何度か繰り返すと,2-hop, 3-hop先の情報を取れる. 元コード pygcn のリポジトリでGCNが実装されているので,これを見ていきます. import torch.nn as nn import torch.nn.functional

    GCNの実装をちゃんと理解する - Qiita
    sh19910711
    sh19910711 2024/06/21
    "GraphConvolution: 特徴量にウェイトをかけて扱いやすい大きさの空間に埋め込んだ後,隣接ノードの中間表現の和を取る / 複雑なコードかと思っていましたが,隣接行列と特徴量の乗算で畳み込みが実装できる"
  • 論文解説 Convolutional Sequence to Sequence Learning (ConvS2S) - ディープラーニングブログ

    声に出して読みたい英語. Also, RNNs aren't dead. Autoregressive CNN/intra-attentive models *are* RNNs. Their state is their output.— Colin (@colinraffel) 2017年8月9日 RNN は死んでいない.自己回帰 CNN と注意 (の再帰的構造) は RNN だから.それらの状態は (内部状態ではなく) 出力にある. こんにちは Ryobot (りょぼっと) です. ConvS2S は脱 RNN による系列方向の並列化という風潮を決定づけたニューラル機械翻訳の手法です.GNMT より高性能かつ訓練も 5 倍高速です.従来の意味で RNN は死にましたが,冒頭の意味で RNN は生まれ変わりました. WMT'14 の BLEU スコアは英仏: 40.51, 英独: 25

    論文解説 Convolutional Sequence to Sequence Learning (ConvS2S) - ディープラーニングブログ
    sh19910711
    sh19910711 2024/06/21
    "LSTM: 並列化が困難 + Factorization Trick を用いた並列化は可能だが限度がある / ConvS2S: 単語列の語順 (絶対的な位置) の情報をモデルに与えるために位置埋め込みを使用" 2017
  • Kaggle 分子コンペ振り返り - コンペ概要・GCNの適用について - memo

    はじめに 記事では2019年6月~8月にかけて開催され、約2800チームが参加したKaggleのコンペ Predicting Molecular Properties(通称分子コンペ)について、振り返りを兼ねてまとめたいと思います。 www.kaggle.com はじめに コンペ概要 データ データ数について xyzファイルについて scalar couplingについて Additional Dataについて 評価指標 Graph Convolutional Networks (GCN) Message Passing Neural Networks (MPNN) GCNのコンペへの適用 その他GCNモデル GNNの参考資料 最後に コンペ概要 まず初めにコンペのポイントをいくつか挙げます。 分子内の2つの原子間の磁気的相互作用(scalar coupling constant、以

    Kaggle 分子コンペ振り返り - コンペ概要・GCNの適用について - memo
    sh19910711
    sh19910711 2024/06/20
    "MPNN: Googleによる化合物の物性予測論文で提案 / 既存のGCN手法をMessage functions Mt𝑀𝑡 とVertex update functions Ut𝑈𝑡からなるMessage passing phase. Readout function R𝑅からなるReadout phase. の2段階の枠組みとして整理" 2019
  • CNNの特性を知らずに使って,あなたがCNNに畳み込まれるその前に - Qiita

    はじめに 以前先人様の忠告により vim を矢印キーで利用していたせいで命を狙われた経験をしたので,失態は犯すまいと思っていたのだが,今度は仲間だと思っていた CNN に命を狙われてしまうことになったのでこれを遺言として書き記しておく. 私が背負ってしまった罪とは,CNN の畳み込み層とは画像内で行列ライクな窓を掛け算しながらただラスタスキャンっぽく動かすと画像の特徴が得られる便利屋だと思っていたというものである.5 年以上も CNN を使っておきながら,完全に特性を忘れてしまっていたのである. あなたが今これを読んでいるということは,私と同じ罪を犯していたということであろうか.今すぐ CNN から離れて今一度 CNN の特性を学ばなければあなたは 3dConvolution によって執拗に畳み込まれて人間かどうかを判定するだけのバイナリ情報として一生を終える ことになってしまう. CNN

    CNNの特性を知らずに使って,あなたがCNNに畳み込まれるその前に - Qiita
    sh19910711
    sh19910711 2024/06/14
    "遷移先に全ての情報を入れるわけでは決してない / パラメータ共有: 丸を検出するために用いられるフィルタがあったとして,それは画像内の他の位置の丸を検出するのにも有用な可能性が高い" 2022
  • Semantic segmentation 振り返り

    Sampling-free Epistemic Uncertainty Estimation Using Approximated Variance Propagation (ICCV2019 oral)

    Semantic segmentation 振り返り
    sh19910711
    sh19910711 2024/06/14
    "CNN: 深い層にいくにつれて見る範囲が広がり、高レベルな特徴が抽出 + 解像度が失われていく / 似ているクラスを正確に分類するためにはglobalな特徴(context)が重要 + 輪郭を正確にsegmentationするにはlocalな特徴が重要" 2019
  • CNNで系列モデリングをするTemporal Convolutional Network(TCN) - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事では**時系列モデリングにはRNNよりCNNのほうが有効である**と提唱してる[論文](https://arxiv.org/pdf/1803.01271.pdf)と、その中で提案されている手法**Temporal Convolutional Network(TCN)**について紹介します 論文概要 タイトル : An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling 論文URL : https://

    CNNで系列モデリングをするTemporal Convolutional Network(TCN) - Qiita
    sh19910711
    sh19910711 2024/06/12
    "時系列モデリングにはRNNよりCNNのほうが有効であると提唱してる論文 / TCN: 系列ベクトルを1次元フィルタでどんどん畳み込んでいくだけ + 自分より前のステップの情報のみを使って畳み込んでいる" arXiv:1803.01271 2020
  • Convolutional Neural Networkを実装する - Qiita

    Deep Learning系のライブラリを試すのが流行っていますが、Exampleを動かすのはいいとしても、いざ実際のケースで使おうとするとうまくいかないことがよくあります。 なんとか動かしてみたけれど精度が出ない、データの加工の仕方が悪いのか、モデルのパラメーターが悪いのか、原因がぜんぜんわからん・・・という事態を乗り越えるには、やはり仕組みに対する理解が必要になってきます。 そんなわけで、編では画像の用意という一番最初のスタートラインから、Chainerで実装したCNNを学習させるところまで、行うべき手順とその理由を解説していきたいと思います。 前段として理論編を書いていますが、ここではライブラリなどで設定しているパラメーターが、理論編の側とどのようにマッチするのかについても見ていきたいと思います。 なお、今回紹介するノウハウは下記リポジトリにまとめています。画像認識を行う際に役立て

    Convolutional Neural Networkを実装する - Qiita
    sh19910711
    sh19910711 2024/06/08
    "モデルの下層に行くほど画像の基礎的な特徴を抽出する能力が備わって ~ / どれくらいのレイヤをそのままにすべきかは、自分の目的とするタスクが元の「学習させたタスク」とどれくらい近いかに依存" 2016
  • 【論文】Deformable Convolutional Networks (2017) - Qiita

    [1703.06211] Deformable Convolutional Networks メタ情報 ICCV 2017 oral paper Microsoft Research Asia 著者実装 日語による解説 (見つけられた範囲で) Deformable Convolutional Networks Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution― 機械学習論文読みメモ_108 - Qiita 概要 質的に、CNN はその構造上、幾何的な 1 変換処理に制限されている その欠点を克服するために、 deformable convolution と deformable RoI pooling を提案する 物体検出と semantic segmentation のタスクで結果を検証する 導入

    【論文】Deformable Convolutional Networks (2017) - Qiita
    sh19910711
    sh19910711 2024/06/06
    "CNN: 畳み込みも pooling も固定された位置に対する処理なので、幾何的な変形に対して弱い / 畳み込みに学習可能な2Dオフセットを導入 / 学習済みモデルに deformable の offset field を入れて追加で学習 + ただし細々した調整" 2018
  • Attentionも畳み込みも使用しないモデル「 MLP-Mixer 」を解説!! - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 畳み込みやAttention機構を用いず、多層パーセプトロンのみを用いて最先端のモデルに見劣りしない性能をたたき出した画像認識モデルMLP-Mixerというモデルが提案されました。 今回はこのMLP-Mixerについて解説したいと思います。 論文データ arxiv :「MLP-Mixer: An all-MLP Architecture for Vision」 [Submitted on 23 Mar 2021 (v1), last revised 30 Mar 2021 (this version, v2)] 論文の概要 画

    Attentionも畳み込みも使用しないモデル「 MLP-Mixer 」を解説!! - Qiita
    sh19910711
    sh19910711 2024/06/06
    "MLP-Mixer: 畳み込みやAttention機構を用いず、多層パーセプトロンのみを用いて最先端のモデルに見劣りしない性能をたたき出した / パッチを空間方向及びチャンネル方向に関して多層パーセプトロンで変換(mix)させる" 2021
  • 一次元畳み込みニューラルネットワークとハイパラ探索 - ころがる狸

    機械学習の分野で最も有名なモデルに畳み込みニューラルネットワーク(CNN)と呼ばれるものがあります。2012年にCNNが画像認識処理において卓越した性能を示したことで科学や生活の在り方は大きく変わりました。この手法は画像(2次元データ)のみならず波形のような1次元データに対しても転用可能です。記事では、スマートホンのセンサから取得した人の行動波形に関する畳み込みニューラルネットワークのPyTorchによる計算方法を紹介します。またOptunaを用いたハイパーパラメータ探索によってハイパーパラメータの探索やその重要度評価が可能となります。計算手順を追ってみていきましょう! 学習用データ プログラム説明 結果の分析 終わりに 学習用データ 学習用データには、スマートホンのセンサーから取得した人間の行動データとその時の実際の行動(歩行、階段を上る、階段を下る、座る、起立する、横たわる)に対応し

    一次元畳み込みニューラルネットワークとハイパラ探索 - ころがる狸
    sh19910711
    sh19910711 2024/05/27
    "CNN: 画像(2次元データ)のみならず波形のような1次元データに対しても転用可能 / 行動データには加速度計とジャイロセンサから取得した9通りの波形 + 9チャネルの1次元データから6通りの行動様式を予測" 2021
  • pointwise convolution(1x1の畳み込み)で何をやっているか、概念を簡単に理解する - 技術メモ集

    概要 googlenetやmobilenet等、最近のCNNモデルでは、当たり前の様にpointwise convolution(1x1の畳み込み)を使って次元数を調整する・・・等の説明がなされるけれど、1x1で畳み込んでも結局意味ないじゃん?と最初理解に苦しんだので、自分なりにまとめておく。 「1x1の畳み込み」という言葉だけ聞くと、何の意味もないフィルタの様に思えてしまうけれど、実際は1x1xLbeforeという、各層にまたがる細ながーいフィルタを適応している。以下の図の様な細長いフォルタを使って、入力層から重要そうな部分を選別して取り出し、一つの層にまとめている。この処理を出力層分(HxWxLafter回)繰り返すことによって、層数を簡単に任意の値にできるという点が最大のメリット。 以下に、パラメータ、入出力サイズ、メリットについても自分なりの理解をまとめる。 #自分なりの理解なので

    pointwise convolution(1x1の畳み込み)で何をやっているか、概念を簡単に理解する - 技術メモ集
    sh19910711
    sh19910711 2024/05/25
    "pointwise convolution: 次元数を調整 + 1x1xLbeforeという、各層にまたがる細ながーいフィルタを適応 / CPUとGPUの速度差が比較的小さい / 出力にrelu等を与えることによって、非線形性を増すことができる" 2017