hiro_2005のブックマーク - はてなブックマーク

無料で使える画像生成AIの定番は「Stable Diffusion」ではなくなるかもしれない

Invoke、Comfy Org、Civit ai、LAIONは6月25日、米コミュニティーサイト「Reddit」の「r/StableDiffusion」スレッドで、画像・動画・音声生成のためのオープンライセンスAIモデルの開発を推進することを目的にしたプロジェクト「Open Model Initiative」の立ち上げを宣言した。企業による技術の独占を防ぎ、アクセシビリティを確保「Open Model Initiative」の初期メンバーは、企業向け生成AIプラットフォームを提供するInvoke、直感的に操作できるオープンソースの画像生成AIツール「ComfyUI」を開発するComfy Org、クリエイター向け生成AIモデル共有サイトを運営するCivit ai、大規模な学習データセットを構築するLAIONだ。彼らは、最近の制限的ライセンス下でのAIモデルのリリースに懸念を示し、オープン

hiro_2005 2024/06/27

リンク

「1億台の常時接続」を実現せよ！ Nintendo Switchのプッシュ通知システム全面刷新の裏側 (1/3)

アマゾンウェブサービスジャパンは、2024年6月20日と21日、国内最大の年次イベントである「AWS Summit Japan」をハイブリッドで開催。150を超えるセッションが展開された。本記事では、ニンテンドーシステムズによるセッション「Nintendo Switch向けプッシュ通知システムのリプレイス事例」をレポートする。登壇したのは、同社システム開発部の林愛美氏と坂東聖博氏だ。 2017年のNintendo Switchの発売とあわせてリリースされた「プッシュ通知システム」。同社は、長期運用を見据えて、よりクラウドネイティブなシステムへのリプレイスを決定するが、大量のTCP接続を維持するための様々な課題が立ちふさがった。本セッションでは、AWS FargateやNetwork Load Balancer（NLB）といったAWSのマネージドサービスを用いた、“最大1億台”級

hiro_2005 2024/06/27

リンク

情報整理の決定版「NotebookLM」が最高すぎる。こういうのがほしかったのよ！！ (1/7)

最新のアプリやサービスのニュースを書くのが仕事の筆者にとって情報の整理は永遠の課題だ。もちろん書くことを仕事にしている人に限らず、氾濫する大量の情報を必要な時に取り出して利用したいという欲求は多くの人が持っているはずだ。以前は手書きノートやファイルのような紙媒体に保存していた情報も、時代とともに完全にデジタルに移行し、Evernote、Microsoft OneNote、Notionといったメモを作成することに特化したクラウドアプリを利用している人も多いだろう。筆者はおそらく普通の人よりは多くのサービスに触れているはずだが、どれも帯に短したすきに長しに感じてしまい、複数のメモアプリに情報が散乱してしまっているのが実情だ。そこで6月6日に日本でも提供が開始されたグーグルの「NotebookLM」だ。「AI駆動型のリサーチ、執筆アシスタント」と説明されているように、参照文献（ソース）

hiro_2005 2024/06/16

リンク

実録：AIで描く漫画の実際～AIで今風の手描きっぽい漫画を作ってみる (1/6)

こんにちは、漫画界の生き恥こと野火城と申します。「画像AI使ってみた／AI 漫画実験企画」第2回です！ ■第1回はこちら　実録：AIで描く漫画の実際～体験して見えた、その実力と課題!! その成り立ちから様々な議論を呼んでいる画像生成AIですが、少なくとも2024年3月現在日本の法律では使用が許可されており、存在を完全に無視する事はできません。かといって全てを肯定して受け入れるのも難しい。だからこそ、必要以上に恐れず、実際にどのような事が出来るのか、具体的に検証する――それが画像AIとの誠実な向き合い方なのではないでしょうか。「画像AIの技術がすごいという賞賛記事はよく見るが、それは本当に創作活動で実戦的に使えるものなのか？　『AIに仕事を奪われる』と『今のAIは実戦では使い物にならない』という真逆の意見を多数見るが、この二つは両立しないのでは？　実際はどっちなんだ？」「画像AIを試し

hiro_2005 2024/05/30

リンク

画像生成AIに照明革命　日本と世界で同時に“神ツール”登場 (1/3)

この連載ではおなじみのキャラクター「明日来子さん」に右側からライトを当ててみた。左がIC-Lightを適用したもので、右がオリジナル。環境はWebUI Forge用の拡張機能を使用 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール（lllyasviel）さんが発表した「ICライト（Imposing Consistent Light、印象的な一貫的なライト）」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。画像生成AIで照明効果がつけられる「ICライト（IC-Light）」発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これ

hiro_2005 2024/05/27

リンク

まるで“いけない話ができるChatGPT”　ローカルAI「Command R+」の爆発的な可能性 (1/5)

筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子（あすきこ）さん」 PCローカル環境で動作する大規模言語モデル（LLM）「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT（GPT-4）と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統

hiro_2005 2024/05/13

リンク

GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」

カナダのAIスタートアップCohereは4月4日（現地時間）、ビジネス向けに最適化された最新の大規模言語モデル（LLM）「Command R+」を発表した。高度なRAG技術を採用 Cohereは、AI業界に変革をもたらしたTransf ormerモデルを提唱した論文「Attention is All You Need」の共同執筆者として知られるトロント大学の研究者Aidan Gomez氏らによって2019年に設立されたカナダのAIスタートアップ。 OpenAIと同様、LLMの開発に特化しており、企業向けにチャットボット、検索エンジンの最適化、要約サービス、自社AIモデルのAPIなどを提供している。 Command R+は、同社が3月に発表した「Command R」の後継となるモデルであり、Cohereが得意とする高い効率性と精度のバランスを重視したRシリーズの一部となる。 128K（12万

hiro_2005 2024/04/09

リンク

ChatGPTで画像生成するならコレ!　おすすめGPTs紹介 (1/6)

OpenAIは1月10日、カスタムバージョンのGPTを作成できる「GPTs」機能で作成した多様なGPTを探索できる「GPT Store」の公開を予告通り開始した。今回はストアーのラインアップから画像生成系の「DALL·E」カテゴリーを取り上げてみよう。「DALL·E」カテゴリー「DALL·E」カテゴリーには言うまでもなくOpenAIの画像生成AI「DALL·E 3」を便利に使うために作られたカスタムGPTが掲載されている。今回は上位6個のGPTを使ってみることにする。まずは「DALL·E」カテゴリーのトップ「image generator」というGPTを試してみよう。説明欄には「プロフェッショナルかつフレンドリーなトーンで画像を生成し、洗練させることに特化したGPT（A GPT specialized in generating and refining images with a

hiro_2005 2024/03/02

リンク

画像生成AI、安いPCでも高速に　衝撃の「Stable Diffusion WebUI Forge」 (1/4)

Stable Diffusion Forgeを表示した様子。基本的な操作は既存のStable Diffusion WebUI AUTOMATIC1111とほぼ同じ画像生成AI「Stable Diffusion」用の新しいユーザーインターフェース「Forge」が2月6日に登場しました。開発したのは、これまで「Controlnet」や「Fooocus」などStable Diffusion関連の様々な重要技術を開発してきたillyasviel（イリヤスベル）さん。何よりインパクトが大きいのは、グラフィックボードのVRAM容量が小さい安価なPCでも最新版のStable Diffusion XL（SDXL）が動かせることです。 RTX 40シリーズが求められたSDXL SDXLは、2023年8月にStabl ity AIが発表した画像生成AI。高画質な出力ができる一方、コミュニティーサイトで話題にな

hiro_2005 2024/02/26

リンク

これは嬉しい　ChatGPTプロンプト書き方のコツ、OpenAIが公開

OpenAIは、大規模言語モデル（GPT-4）でよりよい結果を出すためのプロンプトエンジニアリング（プロンプトのノウハウ）入門テキストを同社のウェブサイトで公開している。同テキストでは、現在同社で最高の性能を持つ大規模言語モデルGPT-4を対象に、よりよい結果を導くための6つの戦略と、それぞれを実行する際の具体的な戦術（コツ）が掲載されている。また、「Prompt examples」のページでは、上記で紹介したものを含む多数のプロンプト例が紹介されており、すぐに利用できるようになっている。では紹介された6つの戦略を見ていこう。明確な指示を書く LLMは利用者の心を読むことができないので、回答が長すぎる場合は「簡潔に」、単純すぎる場合は「専門家レベルで」と明示的に依頼する必要がある。具体的な戦術としては下記が提案されている。・より関連性の高い回答を得られるよう、質問は詳細に・モ

hiro_2005 2023/12/18

リンク

画像生成AIが爆速で進化した2023年をまとめて振り返る (1/5)

Stability AIが画像生成AI「Stable Diffusion」を公開したのは2022年8月のこと。すさまじい勢いで発展してきた画像生成AIの1年を振り返ってみようと思います。初めに見てもらいたいのは「これが無料でいいのか!? “爆速生成AI”がペイントソフトに革命を起こした」で紹介した、KritaとGenerative AI for Kritaを組み合わせて作成した設定資料的な画像です。キャラクターの3面図のサンプル。Vroidで簡単な3Dで当たり（左）として、右の画像を作成する。それを元に、プロンプトや画像に描き込んだりして、最終画像を作成していく。2枚目には前面図の頭部のカチューシャや、胸部分のフリルがなかったりするが、そこに色を加筆して、プロンプトで指示すると、最終画像にそれが追加されるのをリアルタイムに確認しながら修正できる（筆者作成） Stable Diffusi

hiro_2005 2023/12/11

リンク

ChatGPT対抗の本命「Claude 2」ついに日本でも利用可能に

Anthropicは10月16日（現地時間）、同社が公開するAIチャットボット「Claude 2」の公開範囲を日本を含む世界95の国と地域に拡大したことを明らかにした。リストにEU加盟国なし We’re rolling out access to https://t.co/RxKnLNNcNR to more people around the world. Starting today, users in 95 countries can talk to Claude and get help with their professional or day-to-day tasks. You can find the list of supported countries here: https://t.co/PbMuaqJcjU — Anthropic (@AnthropicAI) O

hiro_2005 2023/10/19

リンク

画像生成AI「DALL·E 3」の性能が凄まじい。これを無料で使わせるマイクロソフトは本気で競合をつぶしに来ている (1/3)

10月1日頃、OpenAIの新しい画像生成AI「DALL·E 3（ダリ３）」が徐々に使えるようになり、その性能の高さから話題になっています。まずサプライズで使えるようになったのがマイクロソフトのBingチャット。日本語で「猫の画像を作ってください」などと入れるだけでかわいい猫の画像が出てくると。これが無料で使えるのは衝撃的です。マイクロソフトが巨大資本で他の会社をつぶしに来たなという感じですね。どう考えても、今のところはサーバーコストが果てしなくかかる赤字サービスなのは間違いないので……。「ラーメンを食べる女の子」が描ける！なにより衝撃的だったのは、「アニメ風の少女と猫が遊んでいる姿を作ってください」というリクエストに対し、一発で完璧な正解を出してきたことです。Stable Diffusionだと苦手とされていた指も適切に描写されています。もうひとつの着目点はオブジェクト間の関係性です

hiro_2005 2023/10/16

あとで読む

リンク

アニメの常識、画像生成AIが変える可能性「AnimateDiff」のすごい進化 (1/3)

原画と原画の間にあたる画像を複数枚入れることで、自然な連続性のある動きを作る。アニメの基本となる「中割」作業を画像生成AIが実現する可能性が出てきました。鍵になっているのは「AnimateDiff」という技術。8月に入って、様々なユーザーのアップデートによって機能拡張が進められています。それは完全な画像生成AIで作られるアニメの可能性を垣間見せるほどのものです。 16コマ/2秒の短い動画が生成できる AnimateDiffは7月10日に発表された、上海AIラボ、香港中文大学、スタンフォード大学の共同研究による技術。画像生成AI「Stable Diffusion」の仕組みとデータセットを利用しつつ、数百万本の動画を学習させた「モーションモジュール」と呼ばれるデータセットを別途に参照させることで、連続するキャラクターの動きを生成可能にするというのが基本原理です。生成できる時間は、16コマ/2秒

hiro_2005 2023/09/11

あとで読む

リンク

ChatGPT向けライブラリ、LangChainを格段に使いやすくするtips

LangChainの用意しているプロンプトやラッパーは英語以外を意識していないことが多く、特に検索系のtoolがUSのサイトを引っ張ってくるということが多々ある。こういったケースはtoken数に制限のあるChatGPT APIにとっては大きな問題になってくる。USのサイトが検索上位にかかってくることで得られる情報が減る上に、これを解消するために検索数を増やせばそれだけtoken数を消費するためである。当然だがtoken数の上限を超えればエラーを吐いて異常終了する。こういった問題の多くは、LangChainのライブラリが用意しているクラスをそのまま使うことによって発生している。またLangChainはagentの定義を行うだけで簡単に基本的な機能が使えてしまうため、agentがどのようなロジックで動いているのか理解しにくい。本記事はLangChainを少しだけ掘り下げて、これらの問題

hiro_2005 2023/08/17

リンク

画像生成AI「Midjourney」で同じキャラをコスプレさせて遊ぶ方法 (1/2)

画像生成AI「Midjourney」を使ったAIイラスト制作TIPSをお届けしています本連載、今回は、Midjourneyを使って、同一キャラのコスプレ、要するに衣装替えを実現する方法をご紹介したいと思います。 Midjourneyは現在V5.2が公開されていますが、このバージョンから新たに追加された機能に「ズームアウト」と「パン」があります。ズームアウトは、ひとつの画面からその外側にある風景を追加描写する、画像生成AI界隈では、いわゆる「アウトペイント」と呼ばれる機能。もう一方のパンは、アウトペイントを上下左右の指定方向にだけ行い、カメラを振った（パンした）かのように描写する機能です。 Midjourneyのアウトペイントは少し特徴的です。他の画像生成AIのアウトペイントが描画領域を追加してそこを描画していくのに対し、Midjourneyのそれは、元の絵を極力改変せずに縮小させて周囲に

hiro_2005 2023/07/22

リンク

世界を変えた画像生成AI、さらに進化「Stable Diffusion XL（SDXL）」いよいよ正式公開 (1/4)

Stability AIは6月26日、画像生成AIの最新モデル「Stable Diffusion XL」を発表しました（「画像生成AI『Stable Diffusion』最高性能の新モデル『SDXL 0.9』一般的なPCで実行可能」）。パラメーター数がオリジナルのStable Diffusionの9億から23億へと大幅に拡大され、描写力が飛躍的に上昇したモデルです。正式版のSDXL 1.0が7月18日に公開予定とあり、あらためて注目されています。ベータ版にあたるSDXL 0.9は先行して、有料課金サービス「DreamStudio」と、Discordでの公開を開始していました。Discordでは1人無料で1回出力可能で、いまもリアルタイムで生成画像が見える状態です。その後SDXL 0.9は研究用に公開されて、ダウンロード可能になりました。大きな違いは「2回生成する」こと SDXLがこれまで

hiro_2005 2023/07/17

あとで読む

リンク

マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表

Microsoft ResearchのAI研究チームは6月20日（現地時間）、わずか13億パラメーターと従来のものよりもサイズが小さいにも関わらず「GPT-3.5（1750億パラメーター）」を上回る成績を収めたTransf ormerベースの大規模言語モデル「phi-1」を発表した。このモデルは間もなく「Hugging Face」で公開される予定だといいう。ベンチマークでGPT-3.5を凌駕「Textbooks Are All You Need」と題された研究論文によると、このモデルは8台のA100（NVIDIAの高性能GPU）でわずか4日間かけて訓練され、インターネット上から取得した60億トークンの「教科書品質」データセットと、GPT-3.5で生成した10億トークンの微調整用「練習問題」データセットが使用された。サイズが小さいにもかかわらず、phi-1はLLMの性能を測定するためのベ

hiro_2005 2023/06/24

リンク

古いパソコンはChromebookにしてしまえ！「ChromeOS Flex」の使い方 (1/3)

グーグルは6月15日、古いPCにインストールできる「ChromeOS Flex（安定版）」をリリースした。最新のWindowsやmacOSが動作しないような古いPCでも、快適に動作するのが特徴だ。近年はビジネスで利用ツールの多くがクラウドで提供されるようになり、ブラウザー上で仕事が完結するようになってきた。それなら古いPCも現役の仕事端末として復活させられるかもしれない。動作が軽いなら、今どきのモリモリPCより快適になるかも。さらにChromeOSなので、ランサムウェアやマルウェアなどの被害を受けにくく、セキュリティ面でも安心できる。

hiro_2005 2023/06/23

リンク

画像生成AIに2度目の革命を起こした「ControlNet」 (1/4)

画像生成AI「StableDiffusion」の進化が止まりません。昨年8月にオープンソースとしてリリースされてから、世界中のプロアマ問わず多数の人たちが様々な研究成果を反映させ、毎日と言っていいほど新機能を誰かが発表するという状況が起きています。 StableDiffusion登場当初は、画像の品質のランダム性が高く、構図やポーズなどを指定できないという弱点を抱えていました。1枚の画像をもとに画像を生成する「i2i（image2image）」である程度コントロールすることはできても、「キャラクターに特定のポーズをとらせる」といったことは非常に難しかったんですね。その状況を一変させる新機能が今年2月に登場しました。その名も「ControlNet」。プロンプトによる制約を克服するための、とてつもないポテンシャルを持つ技術でした。Stable Diffusionに次ぐ「2度目の炸裂」と言って

hiro_2005 2023/05/23

リンク

はてなブックマーク

タグ

ブックマーク / ascii.jp (72)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第4週）

今週のはてなブックマーク数ランキング（2024年6月第3週）

今週のはてなブックマーク数ランキング（2024年6月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス