タグ

Deep LearningとGANに関するpetite_blueのブックマーク (14)

  • DALL-E in Pytorch の使い方|npaka

    以下の記事が面白かったので、ざっくり翻訳しました。 ・lucidrains/DALLE-pytorch: Implementation / replication of DALL-E, OpenAI's Text to Image Transformer, in Pytorch 1. DALL-E in Pytorch 「DALL-E in Pytorch」は、OpenAIText-to-Image Transformerである「DALL-E」(論文)のPyTorch実装/複製です。生成画像をランク付けするための「CLIP」も含まれます。 Eleuther AIのSid、Ben、Aranは、「DALL-E for  Mesh Tensorflow」に取り組んでいます。 DALL-EがTPUで学習されるのを見たい場合は、彼らに手を貸してください。 2. 状態Hannuは、わずか2000枚の

    DALL-E in Pytorch の使い方|npaka
  • メルアイコン変換器を作った話 - Qiita

    はじめに 「メルアイコン」と呼ばれる、Melvilleさんの描くアイコンはその独特な作風から大勢から人気を集めています。 上はMelvilleさんのアイコンです。 この方へアイコンの作成を依頼し、それをtwitterアイコンとしている人がとても多いことで知られています。 代表的なメルアイコンの例 (左から順にゆかたゆさん、みなぎさん、しゅんしゅんさんのものです (2020/12/1現在)) 自分もこんな感じのメルアイコンが欲しい!!ということで機械学習でメルアイコン生成器を実装しました!!.......というのが前回の大まかなあらすじです。 今回は別の手法を使って、キャラの画像をメルアイコンに変換するモデルを実装しました。例えばこんな感じで変換できます。 実装したコードはこちら 記事ではこれに用いた手法を紹介していきます。 GANとは 画像の変換にあたってはUGATITという手法を使って

    メルアイコン変換器を作った話 - Qiita
  • Private Presentation

  • 「なぜここまで賢くなるのか説明不可能」 ―画像生成系AI、GANを例にして

    今回紹介するのは、画像生成AI、GAN(敵対的生成ネットワーク)の中身を詳しく調査したという研究です。最近のGANは人でも物の写真かどうか見間違うほどの性能を発揮しますが、GANがどのように『描いている』かを可視化した結果、簡単には説明できないような描画スキルを獲得していることがわかってきました。(※1) 論文 https://openreview.net/forum?id=Hyg_X2C5FX (1) AIの中身 先週、日政府がまとめた人工知能AI)に関する原則が明らかになったと日経新聞が報じました(※2)。AIの社会浸透は急激に進んでいますが、その判断過程がブラックボックスのまま使われることを国、あるいは国際的な枠組みである程度規制するとともに、AIの中身を専門家でなくても理解しやすくするための研究開発が進められています。 今回扱うのはGANを使った画像生成AIです。以前AI-S

    「なぜここまで賢くなるのか説明不可能」 ―画像生成系AI、GANを例にして
  • 【ICLR2020採択論文】GANのなめらかさと安定性 - Preferred Networks Research & Development

    リサーチャーの南です。機械学習のトップ会議のひとつであるICLR2020に、2019年度PFN夏季インターンのCasey Chuさん、PFN技術顧問の福水健次教授と共同で書いた論文が採択されました。 Casey Chu, Kentaro Minami and Kenji Fukumizu. Smoothness and Stability in GANs. In International Conference on Learning Representations (ICLR), 2020, to appear. 論文リンク 記事では、上記論文の内容を簡単に紹介します。 背景: GANと安定化技術 周知のとおり、敵対的生成ネットワーク (GAN, [1]) はとても強力な生成モデルです。例えば、GANによって自然な高解像度画像を生成できることが知られています。下記は高解像度画像生成にお

    【ICLR2020採択論文】GANのなめらかさと安定性 - Preferred Networks Research & Development
  • Few-shot Video-to-Video Synthesis

  • NVIDIA、1枚の静止画で動きを合成 GANを用いた手法を開発 ダビデ像も踊り出す

    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 NVIDIAが10月に発表した新技術は、映像内の動きを抽出して画像に転送することで、リアルな合成動画を生成する敵対的生成ネットワーク(Generative adversarial networks、GAN)を用いた手法だ。 人の全身運動や顔の輪郭運動など、領域分割マスクや線画スケッチを基に、動かしたい画像に合成し写実的な映像に仕上げる。 ベースとなる以前の研究「Video-to-video synthesis」(vid2vid)では、学習したドメインでしか合成できなかったが、今回の研究では訓練データセットに含まれてなくても合成が可能になり、より幅広い合成動画が作成できる。

    NVIDIA、1枚の静止画で動きを合成 GANを用いた手法を開発 ダビデ像も踊り出す
  • GANを用いた画像異常検知アルゴリズム - Qiita

    概要 ニューラルポケットは、正常品と異常品を高精度で判別する画像分析アルゴリズムを開発し、国際学会ACPRにて発表しました。複数のオープンデータセットによる評価で、世界最高の異常画像検出精度を達成しています。 正常品と異常品を画像から識別するアルゴリズムは、工場や農業、インフラ管理などの幅広い領域において活用が進められており、属人的な作業を機械化することによる、見逃し率の低減や作業の効率化などに、大きな期待が寄せられています。 この領域においては、従来、正常品とのパターンマッチングを中心としたアプローチが主流でしたが、近年、深層学習を用いたアプローチが広まり、正常品の中でも形状変化が大きい、品や柔らかい素材の部品など含め、幅広く活用することが出来るようになってきました。 手法は、その発展として開発されたものであり、以下のような特徴を持ちます: 従来の手法では大量に必要となっていた異常画

    GANを用いた画像異常検知アルゴリズム - Qiita
  • GANの進化形現る! 幾何学を利用した新たなモデル「Sphere GAN」理論

    現在、様々な画像認識技術において”GAN”が利用されるようになり、その応用範囲はめざましいものがあります。新しく発表された「Sphere GAN」では幾何の理論を基に構成することで次元数を引き上げ、計算精度の向上を実現しています。 参考論文 : Sphere Generative Adversarial Network Based on Geometric Moment Matching 従来のGANモデルの弱点 従来のGANモデルの主なアイデアは、偽物のデータと物のデータ間の分布散らばりを最小化するものでした。GANはこれまで様々なモデルに利用されてきましたが、処理できない複雑な問題も存在します。例えば、連続的に画像データを生成し学習しようとすると、計算が爆発してしまう場合があります。 従来のGANが処理できない問題を解決するため、これまでIPMs(integral probabili

  • SeqGANを用いてテキスト(小説のあらすじ)の生成をする - Qiita

    SeqGANについて 画像におけるGenerative Adversarial Networks(GANs)の進歩はめざましく、今もどんどん新しい手法が次々と提案されています。しかしながら、GANsを直接テキストのような系列データに適用しても、文法的な正しさを保った結果を得るのは困難です。 SeqGANは、その課題の克服を目指した生成モデルの一つです。 SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient 関連研究 GANs以外の生成モデルである、VAEを自然言語処理に適用した手法もあります。 Generating Sentences from a Continuous Space Generative junji (日語解説) こちらの資料でSeqGANの存在を知りました また、画像認識方面では教師データにノ

    SeqGANを用いてテキスト(小説のあらすじ)の生成をする - Qiita
  • キズナアイとねこますの声を入れ替える機械学習をした - Qiita

    最近バーチャルユーチュ-バーが人気ですよね。自分もこの流れに乗って何か作りたいと思い、開発をしました。 モーションキャプチャー等を使って見た目を変えるのは かなり普及しているっぽいので、自分は声を変えられるようにしようと開発しました。 やったこと キズナアイさんとねこますさんの、それぞれの声を入れ替えられるようにしました。これによって、ねこますさんのしゃべった内容を、キズナアイさんの声でしゃべらせることができます。(逆も) 機械学習手法の一つであるCycleGANを用いて、変換するためのネットワークを学習しました。 パラレルデータ(話者Aと話者Bが、同時に同じ内容を話した音声)が必要ありません 。YouTubeから拾った音声でも変換ができます。 当然ですが、一度学習すれば、利用時には何度でも繰り返し利用できます。 期待できる効果 見た目だけでなく、声まで美少女になれます。やったね。 他にも

    キズナアイとねこますの声を入れ替える機械学習をした - Qiita
  • テキストから画像を生成するGANまとめ - akmtn記録

    この記事は,テキストから画像を生成するGANについて横断的にまとめることを目指しました. "text-to-image"と呼ばれるタスクであり,テキスト(キャプション)を条件として,そのテキストにあう画像を生成することを目指します. 有名な研究では,StackGANがあります. 以下目次です. References なぜテキストから画像を生成するのか? どういう生成モデルが優れているのか? このタスクを困難にしている要因は? 自然画像の高次元空間 テキスト空間と画像空間の違い データの用意 text-to-image synthesisの研究の流れは? どういう画像を生成するか? 使われているデータセットは? 生成できる解像度は? ネットワーク構造はどうなっているか? Loss関数やDiscriminatorに工夫はあるか? 雑感 おわりに References [1] GAN-INT-C

    テキストから画像を生成するGANまとめ - akmtn記録
  • Cramér GANでいらすとや画像生成してみる - 緑茶思考ブログ

    Cramér GAN arXiv:https://arxiv.org/abs/1705.10743v1 このGANは数日前(5/30)に投稿されたもの。 これまでGANのベースラインとして, vanilla GAN,DCGAN,WGAN,WGAN-gpなどが使われてきた. この中のWGANやWGAN-gpより優れているという主張が論文内でされている. (abstで it performs significantly better than the related Wasserstein GAN との記述) また,twitter上では「WGANは死んだ」などの強めのつぶやきが観測されている. その強さを見てみたいので,このCramér GANの論文を読み, 実装していらすとや画像を生成してみたというのが記事の主旨。 ついでにWGAN-gpも実装して比較した。 論文の概要 機械学習に使う確率

    Cramér GANでいらすとや画像生成してみる - 緑茶思考ブログ
  • Loading...

    Loading...
  • 1