yuisekiのブックマーク - はてなブックマーク

yuiseki id:yuiseki

ブックマーク / zenn.dev/mattyamonaca (3)

【自動タイムラプス製造!?】Paints-UNDO技術解説
毎度お馴染みlllyasvielさんがまた技術革新を起こしているので、最速解説目指して記事を書いていきます。今回解説する技術はこちらこちらからデモが見れますここではどのような技術か？を重点的に解説していこうと思います。 Paints-UNDOを支える二つのモデル single-frame model single-frame modelは、1つの画像とoperation stepという数字情報を入力として受け取り、1つの画像を出力するモデルになります。これは、一つのイラストが完成するまでに1000回人間が操作（ここでいう操作とは、ブラシストロークなどを指しているらしいです。もっというと、Ctrl-Zで戻る差分を操作とみなしてよさそう）を行うという仮定を置き、 operation stepが999（何も描かれていない真っ白なキャンバスに最初に書き込まれたストローク）から始まり、o
yuiseki 2024/07/10
リンク
【AI動画生成】Sora 要素技術解説
もう全部OpenAIでいいんじゃないかなはじめに月間技術革新です。ということで、昨日OpenAIから発表された新しい動画生成AI「Sora」が非常に話題となっていますね。圧倒的な一貫性の保持と1分間に及ぶ長時間動画が生成可能という事で、現状の動画生成技術を圧倒的に凌駕する性能を持っているようです。在野エンジニアの小手先テクニックなど一笑に付すような圧倒的性能を Soraの凄さは色んなエンジニアやインフルエンサーがたくさん語っているのでそちらを見てもらうとして、この記事ではSoraを構成する各技術について簡単に解説していければと思います。 Soraの技術構成論文が公開されているわけではないですが、OpenAIが要素技術の解説ページを公開してくれているため、そのページを参考にしていきます。原文を見たい方はこちらからどうぞ全体構成 Soraは以下の技術要素で構成されているとのこと
yuiseki 2024/02/17
あとで読む
リンク
Segment Anythingと派生技術の紹介①
はじめにこの記事では、Segment Anything及びその派生技術を、複数回にわたって解説していく記事になります。 Segment Anythingとは 4/6にMeta社が発表したセグメンテーションモデル。 1100万枚のライセンス画像とプライバシーを尊重した画像と、110 万枚の高品質セグメンテーションマスクデータ、10億以上のマスクアノーテションという過去最大のデータセットで訓練されたモデル。特に、zero-shot-segmentationが可能な部分が特徴。タスクに特化した教師あり学習と比較しても、同じような精度もしくはより優れた精度を出す事もできる。ライセンスはApach2.0（データセットは公開されているが研究目的の利用に限るので注意）公式サイト: https://segment-anything.com/ ペーパー: https://scontent.fhnd
yuiseki 2023/06/05
リンク
1