2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第20回目は、Stable Diffusion微調整モデルなどを高速化するツール「LCM-LoRA」、画像理解を得意とするオープンソース視覚言語モデル「CogVLM」をはじめとする、生成AI最新論文の概要5つをお届けします。 生成AI論文ピックアップStable Diffusion微調整モデルなどを高速化するツール「LCM-LoRA」 Hugging Faceらが開発 画像理解を得意とするオープンソース視覚言語モデル「CogVLM」 テキスト内容と画像内の物体とを細かく関連付けて対話できるモデル「GLaMM」 Googleらが開発 大規模言語モデルを低コストで効率よく
百聞は一見に如かず。これってAI生成グラビア?AI画像生成に興味を持ったのは去年の年末頃だろうか。Twitterを眺めていると「どうやって撮った(作った)んだ?」と言う画像がたまに載っていたので調べると、Stable Diffusion Web UI (AUTOMATIC1111版)だった。 元々グラビアを撮っていたこともあり、あまり撮らなくなってもグラビア好きなのには違いなく、試したくなったのは言うまでもない。 AI生成画像は大きく分けて2種類あり、一つはイラスト系、もう一つはリアル系。筆者が興味を持ったのは後者。どこまで実写に迫れるのかがその興味の対象だ。百聞は一見に如かず。扉の写真はAI生成画像。現時点でこの程度の写りは容易にこなす。 とは言え、実際の撮影もそうなのだが、グラビア写真は数百枚撮ってカメラマンがある程度セレクトし納品したものが、納品先で更に絞られ、出版社などで更に絞り込
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く