タグ

ブックマーク / qiita.com/takoroy (3)

  • 【論文紹介】Meta Pseudo Labels - Qiita

    概要 Google Research Brain Teamから出た"Meta Pseudo Labels"という短いタイトルの論文を読んでみました。公開されている論文はまだ Preprint なので今後書き直される可能性はありますが、大まかには理解できたので紹介してみます。 分類モデルの訓練は、一般的にはクロスエントロピー損失を最小化することを通じて行われます。これは、モデルが出力する分布をターゲット分布に近づけるための操作です。多くの場合、ターゲット分布は one-hot 表現が採用されます。しかし、one-hot 表現による訓練には、過学習が生じやすいという欠点があります。この問題に対処する方法として、例えば Label Smoothing のような方法が提案されています。また、半教師あり学習のシナリオでは、事前学習済みのモデル(教師モデル)の出力分布をモデル(生徒モデル)のターゲット

    【論文紹介】Meta Pseudo Labels - Qiita
    sh19910711
    sh19910711 2024/06/13
    "one-hot 表現: 過学習が生じやすい + Label Smoothing のような方法が提案 / MPL: 教師モデルの訓練と生徒モデルの訓練をうまく組み合わせ + 生徒が教師の疑似ラベルから学ぶ + 教師が生徒の Validation 損失から学ぶ" 2020
  • 【論文読解】NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections - Qiita

    概要 画像集合をもとに新しい視点からの画像を合成する技術であるNeRF in the Wild(NeRF-W)について紹介します。 例えば、Photo Tourism Datasetには、ある特定のランドマークを様々な位置から撮影した写真が多数含まれています。そのような画像集合から、ランドマークの3次元的な形状を把握し、写真集合には含まれない新しい視点から見たときの合成画像を作成することができる、というのが目的となります。新しい視点からの合成結果をつなぎ合わせると、公式のプロジェクトページ内にあるような動画も生成することができます。 先行手法として、もともと提案されていたNeRF1という手法がありましたが、手法は天候の変化やオクルージョンが発生している自然な写真の集合でも効果的にモデルを構築できる工夫を盛り込んでいます。手法はNeRFに大きく依存しているので、この記事では、まずはNeR

    【論文読解】NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections - Qiita
    sh19910711
    sh19910711 2024/06/07
    "形状を把握し写真集合には含まれない新しい視点から見たときの合成画像を作成する / NeRF: 位置𝑥と方向𝑑に対して一意に密度𝜎や色𝑐が定まり + 粗いモデルと精細なモデルという2つのモデルを同時に訓練"
  • 【論文読解】Castle in the Sky: Dynamic Sky Replacement and Harmonization in Videos - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 概要 『天空の城』の名を冠する動画合成に関する論文を読んでみたので、紹介してみます。 この論文で提案している手法は、以下の画像のように、空の領域を別途用意されたテンプレート画像と置き換えることで、あたかも天空の城が現実に出現したかのように合成できるというものです。公式実装のリポジトリ名がSkyARとなっているように、まさに「空のAR」というべき効果が得られています。 手法が面白いのは、このような合成を、ジャイロセンサーなどの情報を利用せずに、画像情報のみからリアルタイムで動画に対して適用できるという点にあります。公式のプロジェクトペー

    【論文読解】Castle in the Sky: Dynamic Sky Replacement and Harmonization in Videos - Qiita
    sh19910711
    sh19910711 2024/05/13
    "あたかも天空の城が現実に出現したかのように合成 / 画像情報のみからリアルタイムで動画に対して適用できる / CoordConv: 画像中における相対的な位置情報も特徴量に埋め込む" 2020
  • 1