タグ

ブックマーク / ascii.jp (103)

  • 革命レベルの動画生成AI「Kling」 ついに「Sora」対抗が出てきた

    中国SNS「快手(Kuaishou)」は、テキストから最大2分間の動画を生成できる動画生成モデル「可灵(Kling)」を開発。多数のサンプル動画を掲載するデモサイトを公開した。 テキストから最大2分間のフルHD動画を生成 A Chinese AI video generator just dropped before we got access to Sora Can generate 2-minute videos at 30fps, 1080p quality, available on the KWAI iOS app with a Chinese phone number A few generations from their site: 1. pic.twitter.com/NEmWiqKHiO — Rowan Cheung (@rowancheung) June 6, 20

    革命レベルの動画生成AI「Kling」 ついに「Sora」対抗が出てきた
  • めちゃ便利になった 無料版「ChatGPT」新機能の使い方まとめ【最新版】 (1/5)

    OpenAIは5月30日、同社のチャット型AIChatGPT」無料版ユーザーに向け、制限付きながら最新の大規模言語モデル「GPT-4o」および、これまで有料版ユーザーしか利用できなかった多くの機能を公開した(発表時のニュース記事)。 情報がとても多いので、今回の変更で無料版ユーザーは「なにができるようになったか」、そして「なにができないのか」を使い方中心にまとめた。 1. GPT-4oは回数制限あり チャット型AIアプリの心臓とも言える大規模言語モデル(LLM)、これまで無料版ユーザーは「GPT-3.5」という旧世代モデルしか利用できなかったが、今回の変更で回数制限(具体的な回数は明記されていない)はあるものの、最新モデルのGPT-4oが使えるようになった。 GPT-4oの利用に特に設定などは必要なく、無料アカウントにログインして普通に質問すればOK(使い方はちょっとわかりにくいのでこち

    めちゃ便利になった 無料版「ChatGPT」新機能の使い方まとめ【最新版】 (1/5)
  • 実録:AIで描く漫画の実際 ~AIで今風の手描きっぽい漫画を作ってみる (1/6)

    こんにちは、漫画界の生き恥こと野火城と申します。 「画像AI使ってみた/AI漫画実験企画」第2回です! ■第1回はこちら 実録:AIで描く漫画の実際 ~体験して見えた、その実力と課題!! その成り立ちから様々な議論を呼んでいる画像生成AIですが、少なくとも2024年3月現在日の法律では使用が許可されており、存在を完全に無視する事はできません。かといって全てを肯定して受け入れるのも難しい。 だからこそ、必要以上に恐れず、実際にどのような事が出来るのか、具体的に検証する――それが画像AIとの誠実な向き合い方なのではないでしょうか。 「画像AI技術がすごいという賞賛記事はよく見るが、それは当に創作活動で実戦的に使えるものなのか? 『AI仕事を奪われる』と『今のAIは実戦では使い物にならない』という真逆の意見を多数見るが、この二つは両立しないのでは? 実際はどっちなんだ?」「画像AIを試し

    実録:AIで描く漫画の実際 ~AIで今風の手描きっぽい漫画を作ってみる (1/6)
  • 画像生成AIに照明革命 日本と世界で同時に“神ツール”登場 (1/3)

    この連載ではおなじみのキャラクター「明日来子さん」に右側からライトを当ててみた。左がIC-Lightを適用したもので、右がオリジナル。環境はWebUI Forge用の拡張機能を使用 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール(lllyasviel)さんが発表した「ICライト(Imposing Consistent Light、印象的な一貫的なライト)」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。 画像生成AIで照明効果がつけられる「ICライト(IC-Light)」 発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これ

    画像生成AIに照明革命 日本と世界で同時に“神ツール”登場 (1/3)
    deejayroka
    deejayroka 2024/05/28
    " 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール(lllyasviel)さんが発表した「ICライト(Imposing Consistent Light、印象的な一貫的なライト)」が盛り上がりまし"
  • 自分好みのAIチャット相手を簡単に作れる「Dify」が面白い (1/4)

    生成AI界隈で話題になっているAIサービス「Dify.AI」がなかなか面白いですよ。Dify.AIは、スタートアップの米LangGeniusが用意している大規模言語モデル(LLM)用のWebUI環境を利用して、いろいろなシステムを組み込むことで、プログラムを書くことなく簡単にチャットbotなどのネイティブAIアプリを開発できるサービスです。 Difyは大きく「チャットボット」、「エージェント」、「ワークフロー」の3つの機能に分かれており、簡単なチャットボットから、複数のLLMを組み合わせた複雑な動作をさせるように設計するものまで、多様なアプリを開発することが可能です。ChatGPTから、Claude 3、Geminiなどの主要なLLMをAPIから呼び出すことができるので、それらを組み合わせてサービスを作ることも可能です。例えばOpenAIAPIキーを生成してDifyに入力すると「GPT-

    自分好みのAIチャット相手を簡単に作れる「Dify」が面白い (1/4)
  • ChatGPT無料ユーザーが最新の「GPT-4o」を使う方法(ちょっとわかりづらいので解説)

    5月14日未明に発表された超絶高性能化したChatGPTの新バージョン「GPT-4o」は、無課金勢にも開放されると聞いて大喜びしたはいいけど、「なんか俺のChatGP、前のまんまなんだが……」というあなた。実はもうあなたも、すでにウワサのGPT-4oを使えるようになっています。 とはいえ、ちょっとばかり確認の仕方が分かりづらいので、簡単に解説しようと思います。 実はこんなとこにある無課金ユーザー向けのモデル選択 まず、いつものようにChatGPTのサイトにアクセスします。まだアカウントも持っていないよって方は、ここでは詳細は省きますので、どこかの情報を参考にしてちゃちゃっと作ってください。 ChatGPTのサイトにアクセスすると、下のような画面になるかと思います。

    ChatGPT無料ユーザーが最新の「GPT-4o」を使う方法(ちょっとわかりづらいので解説)
  • 新しい「ChatGPT」はココがすごい 解説「GPT-4o」 (1/3)

    OpenAIは5月13日(現地時間)、「Spring Update」と題したをオンラインプレゼンテーションを配信。新しい大規模言語モデル(LLM)「GPT-4o(オー)」お披露目のほか、mac OS用デスクトップアプリや各種無料化施策なども発表した。 テキスト理解力は過去最高 GPT-4oは、これまでのフラッグシップモデル「GPT-4 Turbo」と同等の性能を持ちながら、より高速化され、テキスト、音声、画像の理解力も大幅に向上したという触れ込みの最新LLMだ。 ちなみにGPT-4oの「o」は、「すべての」「全てを含む」という意味を持つラテン語の接頭辞「omni(オムニ)」から来ている。 以前から得意な英語とプログラムコードに関してはGPT-4 Turboと同等の性能を発揮し、英語以外の言語のテキストでは大幅な改善がみられるという。 ベンチマーク(OpenAIが提供するsimple-eva

    新しい「ChatGPT」はココがすごい 解説「GPT-4o」 (1/3)
  • まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5)

    筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子(あすきこ)さん」 PCローカル環境で動作する大規模言語モデル(LLM)「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT(GPT-4)と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。 導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統

    まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5)
  • 15歳の高校生、「日本語能力最強」のAIモデル開発 AITuber向けに設計

    15歳で現役高校生の開発者「Holy-fox/子狐」氏は5月9日、パラメーター数7Bクラスとしては日語能力が最強となる大規模言語モデル(LLM)「ArrowPro-7B-KUJIRA」を公開した。 「AITuberの魂」になることを想定 7Bにおいて日語能力最強のモデル、ArrowPro-7B-KUJIRAができました。Elyza-task100においては約3.8をマークしています!AItuber用途を主眼において設計されています(それ以外もできるよ!) https://t.co/kiywdI5YCs — Holy-fox/子狐 (@Holy_fox_LLM) May 9, 2024 同モデルはMistral系のオープンソースLLM「NTQAI/chatntq-ja-7b-v1.0」をベースに、AITuber(生成AIを使ったバーチャルYouTuber)やAIアシスタントでの利用を想定

    15歳の高校生、「日本語能力最強」のAIモデル開発 AITuber向けに設計
  • 漫画家の絵柄、AIでそっくり再現「ピュアモデルAI」ができたワケ (1/3)

    発表当初は、画像生成AIに詳しいXユーザーのあいだで「画像生成AI『Stable Diffusion』で、追加学習モデル『LoRA』を使っているだけでは」という疑問の声も出ていたが、エンドルフィンは4月5日にプレスリリースを出し、「私たちが提供しているサービスは、公開されている汎用モデルを活用した生成AIとは一線を画しています」として、画像の生成までに独自のプロセスを踏んでいる旨を説明している。 話題の「ピュアモデルAI」ができた経緯や、その技術的背景について、連載「メタバース・プレゼンス」を執筆している新 清士氏とアスキー編集部で、エンドルフィンの代表と、サービス開発元のスーパーエンジンのCEOに話を聞いた。 生成AIは「アナログからデジタル」の変化と同じ ── 最初にそれぞれの会社について教えてください。 ジェームズ キム・ドンジュン 2022年下半期ごろから、生成AIに関心をもって、

    漫画家の絵柄、AIでそっくり再現「ピュアモデルAI」ができたワケ (1/3)
  • マイクロソフト最新SLM「Phi-3」 メタ「Llama 3」あっさり抜く

    マイクロソフトは4月23日、生成AI向けの小規模言語モデル(SLM)「Phi-3-mini」を発表した。 Phi-3-miniは、パラメーター数が38億の比較的小型軽量な言語モデル。単純なタスクに適しており、特定のニーズに合わせて容易に微調整できる点を特徴とする。スマートフォンや自動車のコンピューター、リモートカメラといったリソースの少ないデバイスでも利用できるほか、オフライン動作にも対応し、ネット接続が困難な地域でも生成AIの恩恵を受けられるという。 同社が実施したベンチマークテストでは、パラメーター数で勝るメタの「Llama 3-8B-in」(80億)や、グーグルの「Gemma 7B」(70億)に対して、より優れた性能を発揮。特にLlama 3に関しては、4月18日のリリースからわずか5日でPhi-3-miniに追い越される形となった。 ただしPhi-3-miniも万能ではなく、広範な

    マイクロソフト最新SLM「Phi-3」 メタ「Llama 3」あっさり抜く
  • GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」

    カナダのAIスタートアップCohereは4月4日(現地時間)、ビジネス向けに最適化された最新の大規模言語モデル(LLM)「Command R+」を発表した。 高度なRAG技術を採用 Cohereは、AI業界に変革をもたらしたTransformerモデルを提唱した論文「Attention is All You Need」の共同執筆者として知られるトロント大学の研究者Aidan Gomez氏らによって2019年に設立されたカナダのAIスタートアップ。 OpenAIと同様、LLMの開発に特化しており、企業向けにチャットボット、検索エンジンの最適化、要約サービス、自社AIモデルのAPIなどを提供している。 Command R+は、同社が3月に発表した「Command R」の後継となるモデルであり、Cohereが得意とする高い効率性と精度のバランスを重視したRシリーズの一部となる。 128K(12万

    GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」
    deejayroka
    deejayroka 2024/04/09
    “RAGタスクにおいては、テキストの流暢さ、引用の質、全体的な有用性を総合的に判断した結果、GPT-4や「Claude3 Sonnet」といった他のモデルを上回る性能を示した”
  • 音楽生成AIの進化速度に舌をまく、無料でも試せるStable Audio 2.0を使う (1/2)

    著作権侵害を未然に防ぐ機能も持つ 昨年紹介した音楽生成AI「Stable Audio」が「Stable Audio 2.0」となり大きく進化した。 生成AIがブレイクするきっかけを作った画像生成AI「Stable Diffusion」を開発したStability AIによる音楽生成AIだ。2023年8月にバージョン 1.0をリリースした際にはこの連載でも紹介した。グーグルの「MusicLM」のようにプロンプトを与えることで、音楽を作り出す音楽生成AIで、Stable Diffusionのようにステップを経て徐々に生成が完了する“拡散モデル”を使用しているのが特徴だ。Stable Audio 2.0では、モデルが新しくなったのが最大の改良点だ。ある入力に対応して生成される出力に関して、生成のルールやパターンを決めるのがモデルである。つまり、知識やアルゴリズムを持つ中核部分が改良されたことにな

    音楽生成AIの進化速度に舌をまく、無料でも試せるStable Audio 2.0を使う (1/2)
  • AI検索「Perplexity」がかなり便利だったので紹介します (1/5)

    ChatGPTはすぐに嘘をつくから調べものには使えない」という意見をよく聞くが、これには大きな誤解がある。 そもそもChatGPTの心臓部である大規模言語モデル(LLM)は、膨大な知識を元にテキストを「生成」する仕組みだ。 逆に言うと、知識として持っていないことは一切わからないので、知らないことについて説明を求められても能力的に不可能なのだ。 だから、知識にない質問をされると答えられないだけでなく、苦し紛れに幻覚(ハルシネーション)を起こしてしまう。これが「すぐに嘘をつく」と言われる理由だ。 結論を書いてしまうと「ChatGPTは検索ツールではない」のだ。むしろ「ChatGPTがいちばん苦手とすることが検索」なのだ。 今回はこの欠点を補い、AIを活用した新しい検索の形を実現するという触れ込みのサービス「Perplexity.ai」を紹介していく。 Perplexity.aiとは Perp

    AI検索「Perplexity」がかなり便利だったので紹介します (1/5)
  • ChatGPTのライバル「Claude 3」の使い方 良い点、悪い点まとめ (1/5)

    3月4日の公開以来、「Claudeやばくない?」「GPT-4を越えた」と、界隈で話題の「Claude 3」は、OpenAIの元メンバーによって設立されたAIベンチャー「Anthropic」が開発する最新の大規模言語モデル(LLM)だ。今回はChatGPTのライバルClaude 3の有料版を2週間ほどヘビーに使ってみて感じたことを、良い点と悪い点どちらも書いていきたいと思う。 Claude 3とは? 既報の通り、Claude 3はAnthropicが開発する大規模言語モデルの名称だ。 パラメーターのサイズなどが異なる3つのモデルがラインアップされている。 「Claude 3 Opus」は最も知能が高く、複雑なタスクでも最高のパフォーマンスを発揮する強力なモデル。APIやデータベースを介した複雑なアクションの計画や実行、インタラクティブコーディングなどの高度な活用が想定されている。 「Clau

    ChatGPTのライバル「Claude 3」の使い方 良い点、悪い点まとめ (1/5)
  • 日本発のリアルタイム画像生成AIサービスが熱い 大手にとっては“イノベーションのジレンマ”に (1/3)

    Akuma.ai http://akuma.ai 2024年2月、日発のクラウド型画像生成サービスAkuma.aiが、リアルタイム画像生成機能「AIキャンバス」を搭載したことが話題になりました。3月1日には生成枚数が延べ1200万枚に達したと発表。リアルタイム画像生成技術「LCM」を組み入れたサービスですが、高度なPC環境が不要で、タブレットなどからでも簡単に使えるため、国内外の幅広い層にウケたという経緯です。 🎉生成画像1200万枚突破🎉 リアルタイム「AIキャンバス」生成枚数が1200万枚を突破しました! たくさんご利用いただきありがとうございます。 今後とも #AkumaAI の応援よろしくお願いします🦑 プレスリリースはこちら:https://t.co/Yf3tjxjCsS — Akuma.ai (@AkumaAI_JP) March 1, 2024 日発の画像生成AI

    日本発のリアルタイム画像生成AIサービスが熱い 大手にとっては“イノベーションのジレンマ”に (1/3)
  • アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表

    アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。 一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮 複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。 各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2(画像理解)、TextVQA(画像内のテキスト情報)、ScienceQA(科学知識)、MMBench(マルチモーダル)、MathVista(数学)などの

    アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表
  • 画像生成AIの著作権問題、文化庁議論で争点はっきり (1/4)

    2月29日に、文化庁で「文化審議会著作権分科会」の第7回が開催されました。著作権の専門家によってその制度について議論をする場ですが、今年度は2023年7月より「AIと著作権」について議論されてきました。3月に文化庁から政府に報告する「AIと著作権に関する考え方について(素案)」の最終案に近いものが発表され、1月下旬から2月上旬にかけて募った「パブリックコメント(パブコメ)」の結果報告もされるということもあり、注目されました。登場したのは「AIと著作権に関する考え方について(素案)令和6年2月29日時点版」、パブコメの結果を受けて、これまでの内容に微修正が施されていました。しかし、そこからわかったのは、文化庁の一貫したスタンスでした。 文化文化審議会 著作権分科会 法制度小委員会(第7回) パブコメへの反応は「素案の内容周知」 発表物から議論を集めたのが発表資料に「パブコメの結果」が追加

    画像生成AIの著作権問題、文化庁議論で争点はっきり (1/4)
  • 画像生成AI「Stable Diffusion」使うなら「ComfyUI」のワークフローが便利です (1/4)

    プロンプト:1 girl, photorealistic, solo, perfect lighting, sailor dress, looking at viewer, long hair, black hair, two side up, ネガティブプロンプト:illustration, 3d render, (worst quality:2), (low quality:2), (normal quality:2), signature, watermark, username, open mouth

    画像生成AI「Stable Diffusion」使うなら「ComfyUI」のワークフローが便利です (1/4)
  • 画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」 (1/4)

    Stable Diffusion Forgeを表示した様子。基的な操作は既存のStable Diffusion WebUI AUTOMATIC1111とほぼ同じ 画像生成AI「Stable Diffusion」用の新しいユーザーインターフェース「Forge」が2月6日に登場しました。開発したのは、これまで「Controlnet」や「Fooocus」などStable Diffusion関連の様々な重要技術を開発してきたillyasviel(イリヤスベル)さん。何よりインパクトが大きいのは、グラフィックボードのVRAM容量が小さい安価なPCでも最新版のStable Diffusion XL(SDXL)が動かせることです。 RTX 40シリーズが求められたSDXL SDXLは、2023年8月にStablity AIが発表した画像生成AI。高画質な出力ができる一方、コミュニティーサイトで話題にな

    画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」 (1/4)