xiangzeのブックマーク / 2024年2月18日

xiangze id:xiangze

2024年2月18日のブックマーク (9件)

Vision Transformerのモデル構造 - Qiita
最新版を更新しました原論文 An Image is Worth 16x16 Words: Transf ormers for Image Recognition at Scale https://openreview.net/forum?id=YicbFdNTTy 関連研究 CNN+ViTモデルの傾向【サーベイ】 https://qiita.com/wakayama_90b/it ems/96bf5d32b09cb0041c39 概要画像認識分野においてConvolutional Neural Network (CNN)が多く用いられていたが，自然言語処理のTransf ormer以降にAttention機構を用いて画像認識分野に応用したVision Transf ormer（ViT)が発表された．VITは，畳み込み処理を使用しないモデルである．Transf ormerを使用することにより，CN
xiangze 2024/02/18
リンク
画像から動画生成できるすげーやつ!Stable-Video-Diffusion を使ってみた
はじめに男もすなる生成AIなるものを、プログラム初心者もやってみるというわけで、最近話題の動画が作れる生成AI「Stable-Video-Diffusion」を触ってみたので、備忘録としてZennにまとめようと思います。 Stable-Video-Diffusionとは画像生成に使われるStableDiffusionに対し、動画生成に特化したものがStableVideoDiffusion です。画像を入力するだけで、その画像を元に動画が作成されるようです。すごいどういうふうに動画になるのか全然わからないので、とりあえず触ってみますまだまだGithubが怖いお年頃、git clone難しいな人間の私ですが、ありがたいことに、Huggingfaceでブラウザからすぐに使えるようになっていました。早速使っていきますとりあえず使ってみる上記のHuggingfaceを開き、お試しし
xiangze 2024/02/18
リンク
Introducing Stable Video Diffusion — Stability AI
Today, we are releasing Stable Video Diffusion, our first foundation model for generative video based on the image model Stable Diffusion. Now available in research preview, this state-of-the-art generative AI video model represents a significant step in our journey toward creating models for everyone of every type. With this research release, we have made the code for Stable Video Diffusion avail
xiangze 2024/02/18
リンク
Stable Diffusionでアニメーション動画ができる！AnimateDiffの使い方
アニメーション動画を生成するには、AnimateDiffと呼ばれる拡張機能とMotion moduleのモデルを導入して使用することで生成することが出来ます。 AnimateDiffは高クオリティでアニメ動画が作成できる可能性を秘めているのでここで是非使い方を覚えてみてください。この記事では、AnimateDiffの使い方について詳しく解説します。
xiangze 2024/02/18
リンク
animateDiffでアニメーションを生成する方法 / Stable Diffusion｜SOD社員【AI研究ノート】🧪｜倉田優希
AnimateDiffとは1枚の画像から一貫性のある動画を生成できる技術のこと。実際に下記のアニメーションを生成してみた。このように、画像１枚を用意するだけで自動的に波や風、人の動きなどのアニメーションを生成してくれる。」 AnimateDiffのインストール方法拡張機能 → URLからインストール → 拡張機能のリポジトリのURL → 以下のURLを入力してインストールを押す。 https://github.com/continue-revolution/sd-webui-animatediff.git"Installed into~~~~~sd-webui-animatediff. Use Installed tab to restart."が下に表示されたらインストールが完了。拡張機能 → インストール済 → sd-webui-animatediffにチェックを入れる → 適用
xiangze 2024/02/18
リンク
GitHub - kohonda/proj-svg_mppi: [ICRA2024] Stein Variational Guided Model Predictive Path Integral Control: Proposal and Experiments with Fast Maneuvering Vehicles
xiangze 2024/02/18
リンク
【詳説】Attention機構の起源から学ぶTransformer
みなさんは、Transf ormerについてどのようなイメージを持っていますか？最近は、BERT、GPTなどのTransf ormerベースのモデルが目を見張るような成果をだしているので、それらを想像する方が多いかと思います。これらはTransf ormerの発展形ですが、Transf ormerの起源のほう、即ちAttentionを想像された方もいるかもしれません。この記事で説明していくのは、Transf ormerの起源のAttention機構についてです。BERTやGPTについては、別の記事で解説できればと思います。 Transf ormerの論文タイトル「Attention Is All You Need」からTransf ormerの成功はAttention機構にあることが推測できると思いますが、その通りで、Attention機構なしにTransf ormerを語るのは難しいです。本記事では、
xiangze 2024/02/18
attention

transformer

機械学習
リンク
【AI動画生成】Sora 要素技術解説
もう全部OpenAIでいいんじゃないかなはじめに月間技術革新です。ということで、昨日OpenAIから発表された新しい動画生成AI「Sora」が非常に話題となっていますね。圧倒的な一貫性の保持と1分間に及ぶ長時間動画が生成可能という事で、現状の動画生成技術を圧倒的に凌駕する性能を持っているようです。在野エンジニアの小手先テクニックなど一笑に付すような圧倒的性能を Soraの凄さは色んなエンジニアやインフルエンサーがたくさん語っているのでそちらを見てもらうとして、この記事ではSoraを構成する各技術について簡単に解説していければと思います。 Soraの技術構成論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。原文を見たい方はこちらからどうぞ全体構成 Soraは以下の技術要素で構成されているとのこと
xiangze 2024/02/18
リンク
Video generation models as world simulators
We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transf ormer architecture that operates on spacetime patches of video and image latent codes. Our largest model, Sora, is capable of generating a minute of high fidelity video. Ou
xiangze 2024/02/18
リンク
- 2024年2月22日
- 2024年2月18日
- 2024年2月15日