タグ

ブックマーク / ascii.jp (119)

  • 革命レベルの動画生成AI「Kling」 ついに「Sora」対抗が出てきた

    中国SNS「快手(Kuaishou)」は、テキストから最大2分間の動画を生成できる動画生成モデル「可灵(Kling)」を開発。多数のサンプル動画を掲載するデモサイトを公開した。 テキストから最大2分間のフルHD動画を生成 A Chinese AI video generator just dropped before we got access to Sora Can generate 2-minute videos at 30fps, 1080p quality, available on the KWAI iOS app with a Chinese phone number A few generations from their site: 1. pic.twitter.com/NEmWiqKHiO — Rowan Cheung (@rowancheung) June 6, 20

    革命レベルの動画生成AI「Kling」 ついに「Sora」対抗が出てきた
  • めちゃ便利になった 無料版「ChatGPT」新機能の使い方まとめ【最新版】 (1/5)

    OpenAIは5月30日、同社のチャット型AIChatGPT」無料版ユーザーに向け、制限付きながら最新の大規模言語モデル「GPT-4o」および、これまで有料版ユーザーしか利用できなかった多くの機能を公開した(発表時のニュース記事)。 情報がとても多いので、今回の変更で無料版ユーザーは「なにができるようになったか」、そして「なにができないのか」を使い方中心にまとめた。 1. GPT-4oは回数制限あり チャット型AIアプリの心臓とも言える大規模言語モデル(LLM)、これまで無料版ユーザーは「GPT-3.5」という旧世代モデルしか利用できなかったが、今回の変更で回数制限(具体的な回数は明記されていない)はあるものの、最新モデルのGPT-4oが使えるようになった。 GPT-4oの利用に特に設定などは必要なく、無料アカウントにログインして普通に質問すればOK(使い方はちょっとわかりにくいのでこち

    めちゃ便利になった 無料版「ChatGPT」新機能の使い方まとめ【最新版】 (1/5)
  • 実録:AIで描く漫画の実際 ~AIで今風の手描きっぽい漫画を作ってみる (1/6)

    こんにちは、漫画界の生き恥こと野火城と申します。 「画像AI使ってみた/AI漫画実験企画」第2回です! ■第1回はこちら 実録:AIで描く漫画の実際 ~体験して見えた、その実力と課題!! その成り立ちから様々な議論を呼んでいる画像生成AIですが、少なくとも2024年3月現在日の法律では使用が許可されており、存在を完全に無視する事はできません。かといって全てを肯定して受け入れるのも難しい。 だからこそ、必要以上に恐れず、実際にどのような事が出来るのか、具体的に検証する――それが画像AIとの誠実な向き合い方なのではないでしょうか。 「画像AI技術がすごいという賞賛記事はよく見るが、それは当に創作活動で実戦的に使えるものなのか? 『AI仕事を奪われる』と『今のAIは実戦では使い物にならない』という真逆の意見を多数見るが、この二つは両立しないのでは? 実際はどっちなんだ?」「画像AIを試し

    実録:AIで描く漫画の実際 ~AIで今風の手描きっぽい漫画を作ってみる (1/6)
  • 画像生成AIに照明革命 日本と世界で同時に“神ツール”登場 (1/3)

    この連載ではおなじみのキャラクター「明日来子さん」に右側からライトを当ててみた。左がIC-Lightを適用したもので、右がオリジナル。環境はWebUI Forge用の拡張機能を使用 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール(lllyasviel)さんが発表した「ICライト(Imposing Consistent Light、印象的な一貫的なライト)」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。 画像生成AIで照明効果がつけられる「ICライト(IC-Light)」 発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これ

    画像生成AIに照明革命 日本と世界で同時に“神ツール”登場 (1/3)
  • ChatGPT無料ユーザーが最新の「GPT-4o」を使う方法(ちょっとわかりづらいので解説)

    5月14日未明に発表された超絶高性能化したChatGPTの新バージョン「GPT-4o」は、無課金勢にも開放されると聞いて大喜びしたはいいけど、「なんか俺のChatGP、前のまんまなんだが……」というあなた。実はもうあなたも、すでにウワサのGPT-4oを使えるようになっています。 とはいえ、ちょっとばかり確認の仕方が分かりづらいので、簡単に解説しようと思います。 実はこんなとこにある無課金ユーザー向けのモデル選択 まず、いつものようにChatGPTのサイトにアクセスします。まだアカウントも持っていないよって方は、ここでは詳細は省きますので、どこかの情報を参考にしてちゃちゃっと作ってください。 ChatGPTのサイトにアクセスすると、下のような画面になるかと思います。

    ChatGPT無料ユーザーが最新の「GPT-4o」を使う方法(ちょっとわかりづらいので解説)
  • まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5)

    筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子(あすきこ)さん」 PCローカル環境で動作する大規模言語モデル(LLM)「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT(GPT-4)と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。 導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統

    まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5)
  • 画像生成AIに“照明”革命 ControlNet開発者が作った「IC-Light」

    画像生成AI関連の著名な開発者、lllyasviel(イリヤスフィール)氏が5月7日、生成AI画像の照明を自在に操作できるツール「IC-Light(Imposing Consistent Light)」を公開した。 2種類のモデルを公開 IC-Lightは画像の照明を操作するプロジェクト。前景画像(人物やオブジェクトなど)を入力し、プロンプトにテキストや背景画像を指定するだけで、まるで別の環境で撮影したかのような画像を得ることができるという。 現在、「テキスト条件付きリライティングモデル(text-conditioned relighting model)」と「背景条件付きモデル(background-conditioned model)」の2種類がGitHubで公開されており自由に試すことができる。 なお、作者のlllyasviel氏は「Stable Diffusion」のWebUIであ

    画像生成AIに“照明”革命 ControlNet開発者が作った「IC-Light」
  • GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」

    カナダのAIスタートアップCohereは4月4日(現地時間)、ビジネス向けに最適化された最新の大規模言語モデル(LLM)「Command R+」を発表した。 高度なRAG技術を採用 Cohereは、AI業界に変革をもたらしたTransformerモデルを提唱した論文「Attention is All You Need」の共同執筆者として知られるトロント大学の研究者Aidan Gomez氏らによって2019年に設立されたカナダのAIスタートアップ。 OpenAIと同様、LLMの開発に特化しており、企業向けにチャットボット、検索エンジンの最適化、要約サービス、自社AIモデルのAPIなどを提供している。 Command R+は、同社が3月に発表した「Command R」の後継となるモデルであり、Cohereが得意とする高い効率性と精度のバランスを重視したRシリーズの一部となる。 128K(12万

    GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」
  • AI検索「Perplexity」がかなり便利だったので紹介します (1/5)

    ChatGPTはすぐに嘘をつくから調べものには使えない」という意見をよく聞くが、これには大きな誤解がある。 そもそもChatGPTの心臓部である大規模言語モデル(LLM)は、膨大な知識を元にテキストを「生成」する仕組みだ。 逆に言うと、知識として持っていないことは一切わからないので、知らないことについて説明を求められても能力的に不可能なのだ。 だから、知識にない質問をされると答えられないだけでなく、苦し紛れに幻覚(ハルシネーション)を起こしてしまう。これが「すぐに嘘をつく」と言われる理由だ。 結論を書いてしまうと「ChatGPTは検索ツールではない」のだ。むしろ「ChatGPTがいちばん苦手とすることが検索」なのだ。 今回はこの欠点を補い、AIを活用した新しい検索の形を実現するという触れ込みのサービス「Perplexity.ai」を紹介していく。 Perplexity.aiとは Perp

    AI検索「Perplexity」がかなり便利だったので紹介します (1/5)
  • 画像生成AIで同じキャラクターが簡単に作れるようになってきた (1/3)

    画像生成AIサービスの「Midjourney」に3月12日、新機能「Creative Reference」が追加。1枚の画像から特徴を引き継いだ画像を生成できるようになり、同じキャラクターに別のポーズをとらせるなど様々な画像を作れるようになりました。これまで画像生成AI「Stable Diffusion」などで同じキャラクターの画像を作るには「LoRA」という追加学習をするのが一般的でしたが、それが必要ないため、キャラクターの再現が劇的に簡単になってきました。 画像1枚で“似た顔” Midjourneyの新機能「Creative Reference」 使い方は、MidjourneyのDiscordに画像をアップロードして、「Creative reference」のタグ(cref)をつけてプロンプトを入力するだけ。CW 0〜100までのパラメーターがあり、0だと顔だけが共通になり、あとは数字

    画像生成AIで同じキャラクターが簡単に作れるようになってきた (1/3)
  • ChatGPTのライバル「Claude 3」の使い方 良い点、悪い点まとめ (1/5)

    3月4日の公開以来、「Claudeやばくない?」「GPT-4を越えた」と、界隈で話題の「Claude 3」は、OpenAIの元メンバーによって設立されたAIベンチャー「Anthropic」が開発する最新の大規模言語モデル(LLM)だ。今回はChatGPTのライバルClaude 3の有料版を2週間ほどヘビーに使ってみて感じたことを、良い点と悪い点どちらも書いていきたいと思う。 Claude 3とは? 既報の通り、Claude 3はAnthropicが開発する大規模言語モデルの名称だ。 パラメーターのサイズなどが異なる3つのモデルがラインアップされている。 「Claude 3 Opus」は最も知能が高く、複雑なタスクでも最高のパフォーマンスを発揮する強力なモデル。APIやデータベースを介した複雑なアクションの計画や実行、インタラクティブコーディングなどの高度な活用が想定されている。 「Clau

    ChatGPTのライバル「Claude 3」の使い方 良い点、悪い点まとめ (1/5)
  • 画像生成AIの著作権問題、文化庁議論で争点はっきり (1/4)

    2月29日に、文化庁で「文化審議会著作権分科会」の第7回が開催されました。著作権の専門家によってその制度について議論をする場ですが、今年度は2023年7月より「AIと著作権」について議論されてきました。3月に文化庁から政府に報告する「AIと著作権に関する考え方について(素案)」の最終案に近いものが発表され、1月下旬から2月上旬にかけて募った「パブリックコメント(パブコメ)」の結果報告もされるということもあり、注目されました。登場したのは「AIと著作権に関する考え方について(素案)令和6年2月29日時点版」、パブコメの結果を受けて、これまでの内容に微修正が施されていました。しかし、そこからわかったのは、文化庁の一貫したスタンスでした。 文化文化審議会 著作権分科会 法制度小委員会(第7回) パブコメへの反応は「素案の内容周知」 発表物から議論を集めたのが発表資料に「パブコメの結果」が追加

    画像生成AIの著作権問題、文化庁議論で争点はっきり (1/4)
  • ChatGPTで画像生成するならコレ! おすすめGPTs紹介 (1/6)

    OpenAIは1月10日、カスタムバージョンのGPTを作成できる「GPTs」機能で作成した多様なGPTを探索できる「GPT Store」の公開を予告通り開始した。今回はストアーのラインアップから画像生成系の「DALL·E」カテゴリーを取り上げてみよう。 「DALL·E」カテゴリー 「DALL·E」カテゴリーには言うまでもなくOpenAI画像生成AI「DALL·E 3」を便利に使うために作られたカスタムGPTが掲載されている。今回は上位6個のGPTを使ってみることにする。 まずは「DALL·E」カテゴリーのトップ「image generator」というGPTを試してみよう。説明欄には「プロフェッショナルかつフレンドリーなトーンで画像を生成し、洗練させることに特化したGPT(A GPT specialized in generating and refining images with a

    ChatGPTで画像生成するならコレ! おすすめGPTs紹介 (1/6)
  • 画像生成AI「Stable Diffusion」使うなら「ComfyUI」のワークフローが便利です (1/4)

    プロンプト:1 girl, photorealistic, solo, perfect lighting, sailor dress, looking at viewer, long hair, black hair, two side up, ネガティブプロンプト:illustration, 3d render, (worst quality:2), (low quality:2), (normal quality:2), signature, watermark, username, open mouth

    画像生成AI「Stable Diffusion」使うなら「ComfyUI」のワークフローが便利です (1/4)
  • 画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」 (1/4)

    Stable Diffusion Forgeを表示した様子。基的な操作は既存のStable Diffusion WebUI AUTOMATIC1111とほぼ同じ 画像生成AI「Stable Diffusion」用の新しいユーザーインターフェース「Forge」が2月6日に登場しました。開発したのは、これまで「Controlnet」や「Fooocus」などStable Diffusion関連の様々な重要技術を開発してきたillyasviel(イリヤスベル)さん。何よりインパクトが大きいのは、グラフィックボードのVRAM容量が小さい安価なPCでも最新版のStable Diffusion XL(SDXL)が動かせることです。 RTX 40シリーズが求められたSDXL SDXLは、2023年8月にStablity AIが発表した画像生成AI。高画質な出力ができる一方、コミュニティーサイトで話題にな

    画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」 (1/4)
  • 日本発の画像生成AIサービスがすごい 無料アップスケーラー「カクダイV1」 (1/4)

    「カクダイV1」でアップスケールした画像(左)、「Midjouney v6」で作成したオリジナル画像(右) 画像の描き込みを増やして高画質にする、日発の生成アップスケーラー「カクダイV1」が2月7日に発表されて話題になりました。東大出身ベンチャーのMavericksが開発したもので、画像生成AI「Stable Diffusion」生成環境「ComfyUI」向けの技術として無料公開されています。人気アップスケーラー「Maginific AI」を超える製品にまでに成長していくのか注目です。 Stable Diffusionのアップスケールは難しかった カクダイを紹介する前に、まずは画像生成AIとアップスケーラーとの関係についてお話します。 Stable Diffusion登場後の画像生成AI技術を使ったアップスケーラーは、単に画像を拡大させるだけの用途ではなくなりました。画像を拡大するとき、

    日本発の画像生成AIサービスがすごい 無料アップスケーラー「カクダイV1」 (1/4)
  • “生成AIゲーム”急増の兆し すでに150タイトル以上が登録 (1/4)

    1月10日、PCゲーム配信プラットフォーム「Steam」運営元の米Valveが、生成AI技術を使ったゲームを認める形で方針を変更しました。今回の変更では「AI技術を使用するゲームの大半がリリース可能」になるとしており、これまで事実上の禁止と受け止められていた状況からすると大きな方針転換です。ゲーム業界では生成AIの導入が進みつつありますが、生成AIに反対するユーザー、開発者自身の懸念などをはらみつつ進んでいます。すでにSteamでは159ものタイトルが登録済みと急激に増加しつつあります。 Steamのレギュレーションでは、AI生成を「事前生成」と「ライブ生成」の2つに分けています。 「事前生成」では、ゲーム開発会社は生成AIに関する開示セクションが追加され、どのように生成AIを利用しているのかをタイトルの販売申請時に記入する必要があります。 アート、コード、サウンドなどを使用して作成された

    “生成AIゲーム”急増の兆し すでに150タイトル以上が登録 (1/4)
  • “世界生成AI”到来か 画像生成AIのゲームエンジン化が進む (1/5)

    Midjourneyの生成画像。12月のアップデートv6では、写真と変わらないような画像が生成されることが話題となっている。この画像のような世界を動き回れるようになるのだろうか(筆者作成) 画像生成AIサービス「Midjourney」のオフィスアワーがあったのが1月4日。アメリカ時間で1月3日ですかね。オフィスアワーというのは、MidjourneyがDiscord上で月に1回開いて、いろいろユーザー向けに今後どのようにサービスが展開されるのかを説明するミーティングです。その会合に参加していたNick St. Pierreさんの報告によると、Midjourneyのデイヴィッド・ホルツCEOが「2024年末までにホロデッキに到達できる」と話したと言うんですね。「2024 年末までには、リアルタイムのオープンワールドが実現できればと思っています」とも言い、画像生成AIが、単にイラストといった画

    “世界生成AI”到来か 画像生成AIのゲームエンジン化が進む (1/5)
  • Stable Diffusionで画像からプロンプト(呪文)を生成・抽出する方法。Fooocusの新機能「Describe」が便利でした (1/3)

    連載「Stable Diffusion入門 from Thailand」は、2024年に入って1回目。今年も「Stable Diffusion」をメインに、画像生成AI周辺の話題について入門者視点でお伝えしていきたい。 今回の話題は、Stable Diffusionを手軽に使えるユーザーインターフェースの「Fooocus」。12月13日にリリースされた新バージョン「Fooocus 2.1.831」には、画像をアップロードするとテキストプロンプト(呪文)を生成する「Describe」機能が追加されている。 画像をドラッグ&ドロップしてボタンを押すだけ

    Stable Diffusionで画像からプロンプト(呪文)を生成・抽出する方法。Fooocusの新機能「Describe」が便利でした (1/3)
  • 「100fps以上も可能」爆速すぎる画像生成AI技術、日本人研究者ら開発

    AITuber「しずく」開発者としても知られる、あき先生ことakio kodaira氏を筆頭にした研究グループは12月21日、リアルタイム画像生成を実現するために最適化されたパイプライン「StreamDiffusion」を発表。従来の画像生成パイプラインと比べて飛躍的な速度向上を実現している。 ノイズ除去をバッチ処理で高速化 「Stable Diffusion」をはじめとする画像生成AIモデルの高性能化は著しいが、メタバース、オンラインストリーミングなど高スループットと低レイテンシーが必要な環境ではまだ力不足だ。 StreamDiffusionは新しいアプローチを採用し、従来の連続的なノイズ除去をバッチ処理のプロセスに変換することで、高スループットストリームを実現。さらに、GPUの利用効率を向上させるため、従来の分類器フリーガイダンス(CFG)に代わり、残差分類器フリーガイダンス(RCFG

    「100fps以上も可能」爆速すぎる画像生成AI技術、日本人研究者ら開発