タグ

qiitaとbitmapに関するbigchuのブックマーク (2)

  • ChatGPTの絵から3Dモデルの部品を大量生成する。 - Qiita

    というようなプロンプトを与えて、画像を作ります。ここで重要なのが"アイソメトリック プロジェクション"というキーワードです。これを入れることで、なるべく遠近のない画像にします。ちなみに、オブジェクトが多すぎるのも後の作業が大変なので気をつけましょう。 以下の作業では、ChatGPTで実際に生成したこちらの画像を使います。 この画像に対して、さらにChatGPTで という指示を出します。すると、以下のように絵の中の「部品」をバラバラにして、一枚の絵にまとめてくれます。 部品同士が重なってしまうなら、「お互いが重ならないよう、アイテムとアイテムの間には空白を確保してください。」など、プロンプトを追加しましょう。大きいアイテムがあると重なりやすいので、それは別に出力しても良いでしょう。 当なら、ここで部品ごとの画像にしてくれれば良いのですが、ChatGPTは一度に1枚しか画像を出せないので、部

    ChatGPTの絵から3Dモデルの部品を大量生成する。 - Qiita
  • 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita

    0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ 画像パッチを単語のように扱うよ アーキテクチャはTransformerのエンコーダー部分だよ 巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ 事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。 入力画像 アーキテクチャ 事前学習とファインチューニング それぞれについて見ていきましょう。 1.1 入力画像 まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、

    画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita
    bigchu
    bigchu 2020/10/21
    State of The Art たっせい
  • 1