タグ

cvと生成に関するsh19910711のブックマーク (13)

  • SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜

    Scaling Rectified Flow Transformers for High-Resolution Image Synthesis / Stable Diffusion 3

    SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜
    sh19910711
    sh19910711 2024/06/14
    "Consistency Models: ゼロから学習するのではなく学習済み拡散モデルを利用 / 拡散モデル: これまではU-Netベースが基本だった + Transformerベースが現在は使われてきている + 様々なモダリティで研究されており拡張がしやすい"
  • SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望

    [輪講資料] Text Embeddings by Weakly-Supervised Contrastive Pre-training

    SSII2024 [OS1] 画像生成技術の発展: 過去10年の軌跡と未来への展望
    sh19910711
    sh19910711 2024/06/13
    "VAE: 潜在変数と画像の正解ペアを自己符号化器の学習で決めた / GAN: 『識別器をだます』という問題にすり替え / ACGANとPix2Pix: 生成画像が満たすべき条件を指定する方法を導入 / CycleGAN: 変換後の画像群を使って学習"
  • 画像から3次元復元しよう!バンドル調整をpythonで実装してみる - Qiita

    はじめに バンドル調整(Bundle Adjustment)は、複数のカメラからの画像データを使用して、カメラの位置と姿勢と三次元点の位置を同時に最適化する手法です。最初の論文は、1958年にD. C. Brownによって提案された1、かなり長い歴史を持つ技術です。 当時はアメリカ空軍が航空写真からの環境復元するための研究でしたが、近年では、visual-SLAMやSfMの普及とともに、より身近なところで使われるようになりました。 有名なvisual-SLAM(例:orb-slam2やVINS-Mono)は、ceresやgtsam、g2oなどのグラフ最適化ライブラリを利用してバンドル調整問題を解いています。しかし、内部の原理をちゃんと理解しないと、課題の改善ができない、独自の研究や発展につながらない可能性が高いです。 この記事では、初心者に向けバンドル調整の理論の紹介と式の導出を行いながら

    画像から3次元復元しよう!バンドル調整をpythonで実装してみる - Qiita
    sh19910711
    sh19910711 2024/06/10
    "Bundle Adjustment: 1958年にD. C. Brownによって提案 + 複数のカメラからの画像データを使用して、カメラの位置と姿勢と三次元点の位置を同時に最適化 / アメリカ空軍が航空写真からの環境復元するための研究"
  • 第9回全日本コンピュータビジョン勉強会「StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis」発表資料

    第9回全日コンピュータビジョン勉強会にて「StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesisについてわりかし徹底解説を行う資料になっています。

    第9回全日本コンピュータビジョン勉強会「StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis」発表資料
    sh19910711
    sh19910711 2024/06/09
    "StyleNeRF: 様々な知見を一つの論文で獲得できる1粒でN度美味しい論文 / NN: 小さい変化で大きく変化する高周波な関数を近似するのがNNは苦手 + フーリエ特徴で座標と視点を埋め込んで入力とする" 2022
  • TFGANでFashion MNISTのGANをさくっと試す - Qiita

    これはTensorFlow Advent Calendar 2017の22日目の記事です。 12/12にGoogleからTFGANがリリースされた。TFGANはTensorFlowでGenerative Adversarial Networks (GAN)を手軽に使えるライブラリ。さっそく触ってみたので、お手軽に試す手順を紹介したい。おそらく30〜60分ほどでこんなふうにFashion MNISTの画像が徐々に生成されていく様子が確認できるはず。 TFGANで生成したFashion MNIST画像 GANって何? GANについては、アイドル画像生成いらすとや画像生成などの事例で目にしたことのある人も多いはず。いわゆる生成モデルに分類される技法で、既存のデータを投入して学習すると、そのデータの特徴を捉えた新しいデータの生成を行える。2014年にIan Goodfellow他が考案したモデ

    TFGANでFashion MNISTのGANをさくっと試す - Qiita
    sh19910711
    sh19910711 2024/06/06
    "TFGAN: TensorFlowでGANを手軽に使えるライブラリ / GAN: 既存のデータを投入して学習すると、そのデータの特徴を捉えた新しいデータの生成 + 2014年にIan Goodfellow他が考案 / 従来のGANは学習が安定しないという問題があった" 2017
  • GANを使わず画像を綺麗にしたい話(SRFlow) - Qiita

    はじめに ABEJA Advent Calendar 2021の8日目の記事です。 この記事では素晴らしい技術のはずなのになかなか日の目を浴びないFlowと呼ばれる技術を使った超解像について書こうと思います。 これを読んだ暁には「そうか、だから日の目を浴びないのか」となっていると思います。 そしてなぜこの人はこんなマニアックな記事を書いているんだろうと思うことでしょう。 超解像の概要 超解像とはざっくりいうと小さい画像を大きくする技術のことを指します。画素数の少ない低解像度な小さい画像を、画素数の多い高解像度の大きい画像にするということは、何かしらの方法で画素を補間してあげる必要があります。 非常にわかりやすいこちらの記事にもあるように、超解像とは不良設定問題です。 画像丸パクで大変恐縮ですが、1x3pixelの画像を2倍拡大して2x6pixelにする場合、以下のように様々なパターンが考え

    GANを使わず画像を綺麗にしたい話(SRFlow) - Qiita
    sh19910711
    sh19910711 2024/05/29
    "画像生成タスクといえばVAEかGANとなり、Flowなんて言葉は出てくることすらない / Normalizing Flow: 入力から、未知の値𝑦(超解像でいうところの新しい画素)を確率密度関数として表現する確率モデル" 2021
  • Unet, VAE+Unet, Dncnnを用いて、ガウスノイズ画像を復元してみた - Qiita

    はじめに ピンボケ画像の復元をしたいと思い、いくつか検証を行ったので記事にしました。 ピンボケ画像は、一般的にはガウシアンフィルタ(ぼかしフィルタ)に近似できるとのことで、当初はフーリエ変換を用いた方法(ウィーナフィルタ)を検討していました。しかし、撮影環境が変わったりピンボケの拡がり方が多様な場合は、汎化性能的に深層学習の方が優位性があるかなと思い、深層学習のモデルを用いた検証を行いました。 調べてみると、Dncnnなどノイズ除去目的のモデルがあったため、dncnn含め以前作成したUnetとVAE+Unetを用いました。 加えて、モデルは復元させる綺麗な画像自体を学習するよりもノイズを学習しやすい傾向があるとのことで、(stable diffusionも考え方は似ていますよね。こちらもノイズを正規分布として仮定しているため、考え方はほぼ同じな気がします。)Unetの出力をノイズを学習させ

    Unet, VAE+Unet, Dncnnを用いて、ガウスノイズ画像を復元してみた - Qiita
    sh19910711
    sh19910711 2024/05/29
    "ピンボケ画像の復元をしたい / DnCNN: 最後の層の出力をノイズと仮定し、入力とノイズの差分を最終的なモデルの出力とします / 出力と綺麗な画像を損失関数に与えることで、出力を綺麗な画像に寄せる" 2023
  • GRUとAutoencoderを用いた,動画の再構成手法の検証と実装 - Qiita

    概要 皆様,いかがお過ごしでしょうか. コロナウイルス感染症の拡大に伴い,自宅でお仕事や研究をされている方も多いのではないでしょうか. かくいう私も,ここ数か月はずっと自宅でPCとにらめっこの毎日です.さすがに疲れましたね笑 さて,今回は,生成モデルを活用した再構成タスクに着目してみたいと思います. 特に,「動画」の再構成にトライします. (当記事でご理解いただけるのは,動画の異常検知に拡張可能な,encoder-decoderベースの時系列モデルをかませた再構成手法の実験結果と考察であり,数式などの理論的背景までは追いません.) 巷でよく,「異常検知」分野などに応用されているのは,「画像」の再構成ですね. 画像をencoder-decoderモデルに入力して再構成し,入出力間の差分をとることで異常度を計算する手法です. 画像の再構成に活用できる生成モデルとして,VAEは特に有名ですし,最

    GRUとAutoencoderを用いた,動画の再構成手法の検証と実装 - Qiita
    sh19910711
    sh19910711 2024/05/26
    "画像の再構成に活用できる生成モデルとして,VAEは特に有名ですし,最近ではGANを活用した異常検知手法(AnoGAN,EfficientGANなど)なんかも登場 / GRUと,encoder-decoderモデルを組み合わせて,動画再構成モデルを実装" 2020
  • VAEによる画像検索システム - Qiita

    ※データセットの配布元: GitHubfashion-mnist/zalandoresearch」。The MIT License (MIT) Copyright © [2017] Zalando SE, https://tech.zalando.com ※出典: Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. Han Xiao, Kashif Rasul, Roland Vollgraf. arXiv:1708.07747 また、ネットワークは以下のようなものを用います。 エンコーダー デコーダー VAEの結果 作成したVAEモデルは以下のような結果になりました。 訓練結果 最初はテストデータの誤差が異常に大きくなっていましたが、正常に訓練できています。 再現画像 上段

    VAEによる画像検索システム - Qiita
    sh19910711
    sh19910711 2024/05/26
    "VAEにより次元圧縮をして、潜在空間上で距離が近いものを検索 / 最初はCIFAR-10でやろうとしていたのですが、カラー画像だとVAEの学習がどうしてもうまくいかないようだった" 2021
  • 驚くほどキレイな三次元シーン復元、「3D Gaussian Splatting」を徹底的に解説する - Qiita

    はじめに 最近、3D業界で大きな衝撃を与えた「3D Gaussian Splatting」1について、ご存知でしょうか?数少ない写真から、目を奪われるほど美しい三次元シーンを再構成できるデモを見て私も大感動しました。なぜこんなに美しいのか、どんな技術で実現したのか、興味が湧いています! "普通の3D物体ではなく、カメラの移動に合わせて、水面に映る景色も正確に表現しています。これはなかなか凄い..." 私も時間をかけて論文や公開されたコード2を勉強しました。家の実装はCUDA化されており、難解な部分が多く、論文に書かれていないこともあります。そのため、「3D Gaussian Splatting」を勉強したい人にむけ、わかりやすい解説記事を書こうと思いました。単に概念や考え方だけでなく、ゼロから再実装できるように、すべてのロジックを数式として整理し、徹底的に解説しようと思います。 「3D

    驚くほどキレイな三次元シーン復元、「3D Gaussian Splatting」を徹底的に解説する - Qiita
    sh19910711
    sh19910711 2024/05/22
    "3D Gaussian Splatting: ボクセルで空間を分割せず、かなり高密度なガウス分布に従う単位を使うことで、細かい物体の形状を表現 / カメラの姿勢に応じて、見えた3D Gaussianの色を計算"
  • 深層学習を利用した食事画像変換で飯テロ - Qiita

    はじめに これは,NTTコミュニケーションズ Advent Calendar 2018 2日目の記事です.関連記事は目次にまとめられています.(更新したら12/3になってました...) ⚠ 魅力的な飯テロ画像をご用意し,圧倒的な飯テロを狙った記事となっていますので,夜中に見る場合はご注意ください. おまえだれ?! 普段の業務では,マルチモーダル深層学習や機械学習分析ツール開発などをメイン業務としていて,趣味はプロテインです. 学生時代,学部までは画像認識(モバイル+深層学習)をテーマに研究していまして,修士からは画像生成・画像変換を主に研究していました.Neural Style TransferとかGenerative Adversarial Networksの論文が出始めた頃ですね.大学院を卒業してからは,中々,GAN分野の動向を追っていないのですが,まだ流行ってたりするのかな? (th

    深層学習を利用した食事画像変換で飯テロ - Qiita
    sh19910711
    sh19910711 2022/12/07
    2018 / "GAN: pix2pix -> CycleGAN + ACGAN -> StarGAN の流れで調べていくとスムーズ / 「ラーメン」のカテゴリに至ってはその種類の多様性が他のカテゴリと比べて高かった / HoloLensと組み合わせて質素な見た目の料理を豪華な食事へ"
  • Cramér GANでいらすとや画像生成してみる - 緑茶思考ブログ

    Cramér GAN arXiv:https://arxiv.org/abs/1705.10743v1 このGANは数日前(5/30)に投稿されたもの。 これまでGANのベースラインとして, vanilla GAN,DCGAN,WGAN,WGAN-gpなどが使われてきた. この中のWGANやWGAN-gpより優れているという主張が論文内でされている. (abstで it performs significantly better than the related Wasserstein GAN との記述) また,twitter上では「WGANは死んだ」などの強めのつぶやきが観測されている. その強さを見てみたいので,このCramér GANの論文を読み, 実装していらすとや画像を生成してみたというのが記事の主旨。 ついでにWGAN-gpも実装して比較した。 論文の概要 機械学習に使う確率

    Cramér GANでいらすとや画像生成してみる - 緑茶思考ブログ
    sh19910711
    sh19910711 2022/06/05
    2017 / "機械学習に使う確率分布間の距離指標には,次の3つの性質が必要: sum invariance + scale sensitivity + unbiased sample gradients / Cramér距離はWasserstein距離とKL divergenceのいいとこ取りした指標"
  • Sketch-RNN でスケッチの自動生成(VAE + LSTM) - エクサウィザーズ Engineer Blog

    こんにちは.エクサウィザーズでインターンをしている川畑です. 視覚によるコミュニケーションというのは人々が相手に何らかのアイデアを伝える際に鍵となります.私たちは小さい頃から物体を描く力を養ってきており,時には感情までもたった複数の線で表現することも可能です.こうした単純な絵というのは,身の回りのものを写真のように捉え忠実に再現したものではなく,どのようにして人間が物体の特徴を認識しそれらを再現するか,ということを教えてくれます. そこで今回はSketch-RNNと呼ばれるRecurrent Neural Networkモデルでのスケッチの自動生成に取り組んでみました. このモデルは人間がするのと同じように抽象的な概念を一般化し,スケッチを生成することを目的としたものです.このモデルに関しては今の所具体的なアプリケーションが存在するというわけではなく,機械学習がどのようにクリエイティブな分

    Sketch-RNN でスケッチの自動生成(VAE + LSTM) - エクサウィザーズ Engineer Blog
  • 1