今回は、過去作った記事などのヘッダー画像+αから松尾氏に動画を作っていただくという、コラボ企画。元画像はSD 1.5、SDXL、SD3 Medium、そしてFLUX.1 [dev] が入り乱れての動画となる。
話題のオープンソース動画生成AI「CogVideo」をローカルマシンに超簡単インストールできたのです。
このサービスの有償プランに申し込んで使って、少しプロンプトのコツが掴めたので、お伝えしたいと思います。 ただ、自分が使った目的は映画などの映像制作ではなく、あくまでも静止画、それも人物を動かすことなのでご注意を。より具体的には、11年前に他界した妻の動く姿を見ることです。 ■フィルムカメラの写真を動かすまずやってみたのは、実際に撮った写真をDream Machineで動かすことです。 使った写真は、1978年から1987年にかけてフィルムカメラで撮影したもの。子供が生まれてビデオカメラ(ビデオ8mm)を買ったのが1987年なので、それまでは動いている映像がほとんどなかったのです。 例外として、学園祭の劇で主役を演じたものと、特捜最前線でエキストラをやったときのものは残っていますが。 多くの人にとって、1980年代以前の、動きのある映像は残っていないと思います(8mmフィルム愛好家がいる家庭
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第45回目は、生成AI最新論文の概要5つを紹介します。 生成AI論文ピックアップ 高精度なニューラルネットワーク・アーキテクチャ「KAN」をMITなどの研究者らが開発 1手先のトークン予測ではなく、4手先のトークンを同時に予測するモデルをMetaなどが開発 医療分野に特化したマルチモーダル大規模言語モデル「Med-Gemini」をGoogleが開発 大規模言語モデルが答えに相当するベンチマークを事前に学習し、高い評価を出していた? AIカンニング問題を指摘した研究 一貫性の高い長編ビデオをテキストから生成するAIモデル「StoryDiffusion」 高精度なニューラ
米国のAIスタートアップSunoは、自社のAI作曲サービスである「Suno」をV3にバージョンアップしました。3月20日より、3からのカウントダウンをスタートしていましたが、日本時間の22日2時に、正式公開されました。 V3では、1回で作成できる曲の長さを従来バージョンであるV2の1分20秒をV3では2分までに伸ばし、インストゥルメンタル曲の指定、高音質化、多ジャンルへの対応など、多くの機能強化を行なっています。 これまではProおよびPremierの有償ユーザーのみがアルファ版を使えていましたが、正式版になったことで、無料ユーザーも1日10回、1回で2曲が同時に生成されるので、1日当たり最大20曲まで利用できることになります。 無料ユーザーアカウントで試してみましたが、V3がデフォルトとなっている他に、V3 Alpha版との大きな違いはありません(V2も選択できるようになっています)。
人気連載『生成AIウィークリー』で取り上げている注目論文を見ると、そこに中国IT企業の名前が頻繁に登場します。 EC大手のアリババ(Alibaba)、ゲーム大手のテンセント(Tencent)、TikTokの運営元であるBytedanceなどが常に顔を出しており、画像・音声・アニメーションと、生成AIのあらゆる分野で中国に勢いがあることがわかります。 そんな中、テンセントがなかなか衝撃的な技術を発表しました。「PhotoMaker」という画像生成AIです。これでなければできない、というものではないのですが、「ファインチューニングの事前作成不要」「元画像が少なくても良い」のに、人物のアイデンティティを維持した画像を生成できるというメリットがあります。 これまでは既存の画像AIモデルに多数の写真を読み込ませて本人性を学習させたものから新たなAIモデルやその簡易版であるLoRAモデルを作ってきまし
テクノエッジ編集部では、生成AIグラビア実践ワークショップ第4回を開催します。講師は、人気連載「生成AIグラビアをグラビアカメラマンが作るとどうなる?」の著者である西川和久さんです。 高価なゲーミングPCがなくても自分で高速な画像生成ができるサービス「生成AI GO」を無料で使いながら、生成AIに関する知見とグラビアカメラマンとしての豊かな経験から得られた最新かつ実践的なテクニックを学べます。 なお、ワークショップ内で使用するプロンプトは、受講者向けにドキュメントとして公開し、その場でコピペするだけで画像生成を体験できる、非常に簡単な仕組み。生成した画像はその場で自分のパソコンに保存できます。 第4回は、1月23日、オンラインにて開催いたします。なお、今回お申し込みいただいた方は、第3回の動画アーカイブを視聴いただけます。 グラビアカメラマンが教える、生成AIグラビア実践ワークショップ 申
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。2024年初っ端の第27回目は、「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など、大規模言語モデルの返答が向上する「プロンプト26の原則」をはじめとする5つの論文をお届けします。 生成AI論文ピックアップ複数の自律AIエージェントが過去の経験を共有して未知のタスクを処理するモデル「Experiential Co-Learning」 画像から動く3Dシーンを生成する新モデル「DreamGaussian4D」 大規模言語モデルの返答が向上する「プロンプト26の原則」が公開。「礼儀は不要」「モデルに質問させる」「良い解答には報酬」など 220以上の生成タスクが実
Stability AIは11月17日、「Japanese Stable Diffusion XL」(JSDXL)を公開しました。 JSDXLは、テキストで記述されたプロンプトに応じて画像を出力するText-to-Imageモデルの最新版であるStable Diffusion XL(SDXL)を日本向けに特化させたAIモデル。 日本語を翻訳ではなく直接扱うことができるため、日本語特有の表現を認識し、日本の伝統的なものから現代的なものまで文化やアートを反映した高品質の画像を生成できるとしています。 ▲男子高校生のプロフィール写真(左: DALLE-3, 中央: 翻訳+SDXL, 右: JSDXL) ▲海岸沿いを走るライダー(左: DALLE-3, 中央: 翻訳+SDXL, 右: JSDXL) なお、JSDXLの学習データは、クリエイターから要求のあったオプトアウト、robots.txtや利用
数年前からステルスモードで活動してきた米国のスタートアップ Humane が、初の製品となる『Ai Pin』を正式に公開しました。 Ai Pinは服にクリップする小さなピンバッジ型に、広角カメラ・デプスセンサ・マイクアレイ・LTE接続・レーザープロジェクタ・各種センサとSnapdragon SoCを搭載したデバイス。 OpenAIおよびマイクロソフトとパートナーシップを結んでおり、SnapdragonのローカルAIエンジンとクラウド上のAIサービスを介して動作します。 自然な会話でメッセージのやり取りや通話・メール、スケジュールの確認、自分の声で外国語を喋る同時通訳、道案内、調べ物といった日常のタスクを、スマートフォンを取り出して操作することなく完了できることが大きな特徴。 カメラと奥行きセンサを搭載することで、ハンズフリーで動画や写真が撮影できることに加えて、眼の前にあるものを解析して質
今回はそれだけでは面白く無いので、元画像を絵柄そのまま高精細なフルHDにアップスケールしたい、もしくはそのまま使って絵を変えたい、構図やポーズをある程度固定したい、Photoshopのジェネレーティブ塗りつぶし的な機能は?…と言った、もう少しStable Diffusionっぽい使い方を順に説明する。 image-2-image / UpscalePromptから画像を得る方法を一般的にText-2-Imageと呼んでいる(txt2imgやt2iとも)。文字通りテキストから画像を…と言う意味だ。 Stable Diffusionでは、加えて画像から画像を得る方法があり、これをImage-2-Imageと呼んでいる(img2imgやi2iとも)。言葉よりも画像の方がより多くの情報を持っているので、それを使おうと言う意図だ。 これまで生成した画像の解像度は、832✕1,216や1,024✕1,
半年ほど前までであればGoogle Colabと言うクラウドGPU環境が使え、無料でサクッと動かせたのだが、それが災いし、多くの人が生成AI画像目的で利用したため、リソースが足らなくなり、後述するAUTOMATIC1111は無料枠で使用禁止になってしまった。 AUTOMATIC1111をインストールして使ってみる画像生成AIは各社が提供しており、扱うためのサービスやアプリもいろいろあるが、デファクトスタンダードはStable Diffusionを利用するためのフロントエンドにあたる AUTOMATIC1111だろう。現在は、次世代Stable Diffusion (SDXL)に対応したv1.6.0が公開されている。 ここではOSがWindows 11で、先に提示したNVIDIAのGPUが装着済の前提で解説する。少し前まではPythonやGitを入れたり、いろいろ面倒だったが、現在はbatフ
「VOCALOID β-STUDIO」の試用申し込み受け付けが開始されたという記事を書くとともに、実際に申し込みもしていました。リリース前の協力者による作例が少しずつ公開されてきた23日、初回受付分からの抽選が行われ、筆者は運良く当選しました。 当選の案内著名ボカロPで外れた方もいらしたようなので、かなりの難関だった模様ですが、せっかく試す機会を得られたので、まずはインプレッションを書いてみようと思います。 Cubaseユーザー以外の使い勝手VOCALOIDを開発するヤマハにとって、Cubaseを開発している独Steinbergは子会社。ヤマハのDAWにはCubase LEのライセンスが付属するなど、強い連携をしています。VOCALOIDと連動するVOCALOID Editor for Cubaseも早くから提供されていて、「VOCALOIDを使うならCubase」となるのは当然のことでし
Checkpointとはあとひと月ほどすると、前回ご紹介した次世代Stable Diffusion、SDXLの波が来そう(来るかも?)と言うこともあり、今回は一番の基本となるCheckpointと、筆者の興味の対象となっているリアル系モデルの遷移にふれておきたい。 まずStable Diffusionのバージョンは1.4、1.5、2.0、2.1などがあり、現在最もポピュラーなのは1.5 (SDXLは0.9、1.0)。基本、対応したバージョンでないとモデルは作動しない。 一言でモデルと言っても、Stable Diffusionが必要、もしくはオプションとして扱えるモデルは、Checkpoint、LoRA、LyCORIS、Embedding、 Hypernetwork…など、さまざまな種類がある。絵を作る上において最も重要(=絵の元になる)のがCheckpointで、他は無くても最低限これだけ
SDXL 1.0をAUTOMATIC1111で動かすにはStability AIが画像生成AIのStable Diffusion 1.5をリリースしたのは2022年10月20日。そこから約9ヶ月経った本日2023年7月27日、高画質な最新バージョンSDXL 1.0の登場となった。まだ全く使いこなせていないが、速報と言うことで、その絵をご覧頂きたい。 Stable Diffusion 1.5とSDXL 1.0の大きな違いはザックリ2点。 学習ベースが512✕512ドットから1,024✕1,024ドットへ 1pass式からBase→Refinerと言う2pass式になった 学習ベースの解像度がこれだけ違うと、当然出てくる絵に差が出る。1passから2passになった技術的な理由はさておき、Baseのままでもそれなりに見れ、更にRefinerを通すと解像度や質感が向上する。 BaseとRefin
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く