snowmann129のブックマーク - はてなブックマーク

AI、ついにパソコンを使えるようになってしまう　Anthropic「Claude 3.5 Sonnet」新機能

AI企業のAnthropicは10月23日、大規模言語モデル「Claude 3.5 Sonnet」の刷新と、新モデル「Claude 3.5 Haiku」の導入を発表した。Claude 3.5 Sonnetには、AIモデルが人間のようにコンピューターを操作できるようになる新機能「コンピューター使用」が追加された。アップデート版のClaude 3.5 Sonnetは、特にコーディング分野で大きく性能を伸ばし、業界ベンチマークで広範囲にわたる改善を示した。SWE-benchの検証済みタスクでは、前バージョンの33.4%から49.0%へと性能が向上し、他のすべての公開モデルを上回る結果となった。新たに導入されるClaude 3.5 Haikuは、前世代の最大モデルであるClaude 3 Opusと同等の性能を持ちながら、コストと速度は前世代のHaikuと同等を維持している。特にコーディングタス

snowmann129 2024/10/23

あとで読む

リンク

AIが考える“アイドル”がリアルすぎた　グーグル「Imagen 3」なぜ高品質? (1/5)

グーグルが8月中旬、チャットAIサービス「Gemini」で使える画像生成AIモデルを「Imagen 3」に更新。グーグルの画像生成AIサービス「ImageFX」でImagen 3を試した人たちが驚き、「これはとんでもない」と騒ぎになりました。実際にImageFXを試してみると、性能が高いことは間違いありません。現在は、1日40回程度までは無料で使用することができます。 ※一部の配信先では画像や図表等が正確に表示されないことがあります。その場合はASCII.jpに掲載の記事をご確認いただければ幸いですフィルターはとても厳しく、女性を出すのは難しいただし、コンテンツフィルターがとても厳しく、暴力的な画像や性的な画像、また未成年者に見えるような画像を出すこともできないようになっています。2023年12月に前バージョンの「Imagen 2」が出されたときも「厳しすぎる」と評価がありました。特に

snowmann129 2024/09/16

リンク

画像生成AI「FLUX.1」が相当ヤバい　LoRAで画風の再現も簡単に (1/5)

画像生成AI「Stable Diffusion」開発者たちが突然発表した新モデル「FLUX.1」、これが楽しすぎてはまりこんでいます。私の本業はゲーム会社。出展を予定している東京ゲームショウまで1ヵ月で、やらないといけないことが山積みなのに、FLUX.1が面白すぎて魅力に抗えません。わずか30分の学習で画風が安定 FLUX.1が決定的に変えてきそうなのはLoRAです。LoRAは学習済みのウェイトモデルを利用することで、少ない枚数であっても学習ができるということで、画像生成AIの分野では広く普及している手法です。FLUX.1は、Stable Diffusionで使われてきたLoRAの方法論を動かすことができることがわかっています。そのため、FLUX.1のリリース後、ユーザーコミュニティーでさっそくLoRAの環境の整備が始まり、何ができるのかを試すフェーズに入っています。これまでの「Sta

snowmann129 2024/09/03

リンク

チャットAI「Claude」すごい新機能「Artifacts」の使い方、全部教えます (1/6)

Anthropicは6月21日、同社の開発する大規模言語モデル「Claude」シリーズの最新版となる「Claude 3.5 Sonnet」を発表。利用制限はあるものの同社のチャット型AIサービス「Claude.ai」で無料で利用可能になった。同時にユーザーがClaudeとやり取りしながらコンテンツを作成できる新機能「Artifacts」が、さらに25日にはプロジェクトごとに資料やプロンプトを集約できる「Project」が実装された。この記事では、新機能Artifactsを使うときに知っておきたいことをメインに紹介する。なお、Claude 3.5 Sonnetの前の世代である大規模言語モデル「Claude 3」シリーズおよび「Claude.ai」については、こちらの記事に。Claude 3.5 Sonnetについての基本的なスペックなどはこちらの記事に詳しい。 Artifactsのキモは

snowmann129 2024/07/06

リンク

画像生成AIに照明革命　日本と世界で同時に“神ツール”登場 (1/3)

この連載ではおなじみのキャラクター「明日来子さん」に右側からライトを当ててみた。左がIC-Lightを適用したもので、右がオリジナル。環境はWebUI Forge用の拡張機能を使用 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール（lllyasviel）さんが発表した「ICライト（Imposing Consistent Light、印象的な一貫的なライト）」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。画像生成AIで照明効果がつけられる「ICライト（IC-Light）」発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これ

snowmann129 2024/05/27

あとで読む

リンク

まるで“いけない話ができるChatGPT”　ローカルAI「Command R+」の爆発的な可能性 (1/5)

筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子（あすきこ）さん」 PCローカル環境で動作する大規模言語モデル（LLM）「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT（GPT-4）と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。導入が難しかったローカルLLM、「LM Studio」で簡単に Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統

snowmann129 2024/05/14

リンク

画像生成AIで同じキャラクターが簡単に作れるようになってきた (1/3)

画像生成AIサービスの「Midjourney」に3月12日、新機能「Creative Reference」が追加。1枚の画像から特徴を引き継いだ画像を生成できるようになり、同じキャラクターに別のポーズをとらせるなど様々な画像を作れるようになりました。これまで画像生成AI「Stable Diffusion」などで同じキャラクターの画像を作るには「LoRA」という追加学習をするのが一般的でしたが、それが必要ないため、キャラクターの再現が劇的に簡単になってきました。画像1枚で“似た顔”　Midjourneyの新機能「Creative Reference」使い方は、MidjourneyのDiscordに画像をアップロードして、「Creative reference」のタグ（cref）をつけてプロンプトを入力するだけ。CW 0〜100までのパラメーターがあり、0だと顔だけが共通になり、あとは数字

snowmann129 2024/03/25

あとで読む

リンク

画像生成AIの著作権問題、文化庁議論で争点はっきり (1/4)

2月29日に、文化庁で「文化審議会著作権分科会」の第7回が開催されました。著作権の専門家によってその制度について議論をする場ですが、今年度は2023年7月より「AIと著作権」について議論されてきました。3月に文化庁から政府に報告する「AIと著作権に関する考え方について（素案）」の最終案に近いものが発表され、1月下旬から2月上旬にかけて募った「パブリックコメント（パブコメ）」の結果報告もされるということもあり、注目されました。登場したのは「AIと著作権に関する考え方について（素案）令和6年2月29日時点版」、パブコメの結果を受けて、これまでの内容に微修正が施されていました。しかし、そこからわかったのは、文化庁の一貫したスタンスでした。文化庁文化審議会著作権分科会法制度小委員会（第7回）パブコメへの反応は「素案の内容周知」発表物から議論を集めたのが発表資料に「パブコメの結果」が追加

snowmann129 2024/03/11

あとで読む

リンク

画像生成AI「Stable Diffusion」使うなら「ComfyUI」のワークフローが便利です (1/4)

プロンプト：1 girl, photorealistic, solo, perfect lighting, sailor dress, looking at viewer, long hair, black hair, two side up, ネガティブプロンプト：illustration, 3d render, (worst quality:2), (low quality:2), (normal quality:2), signature, watermark, username, open mouth

snowmann129 2024/02/29

あとで読む

リンク

画像生成AI、安いPCでも高速に　衝撃の「Stable Diffusion WebUI Forge」 (1/4)

Stable Diffusion Forgeを表示した様子。基本的な操作は既存のStable Diffusion WebUI AUTOMATIC1111とほぼ同じ画像生成AI「Stable Diffusion」用の新しいユーザーインターフェース「Forge」が2月6日に登場しました。開発したのは、これまで「Controlnet」や「Fooocus」などStable Diffusion関連の様々な重要技術を開発してきたillyasviel（イリヤスベル）さん。何よりインパクトが大きいのは、グラフィックボードのVRAM容量が小さい安価なPCでも最新版のStable Diffusion XL（SDXL）が動かせることです。 RTX 40シリーズが求められたSDXL SDXLは、2023年8月にStabl ity AIが発表した画像生成AI。高画質な出力ができる一方、コミュニティーサイトで話題にな

snowmann129 2024/02/26

あとで読む

リンク

日本発の画像生成AIサービスがすごい　無料アップスケーラー「カクダイV1」 (1/4)

「カクダイV1」でアップスケールした画像（左）、「Midjouney v6」で作成したオリジナル画像（右）画像の描き込みを増やして高画質にする、日本発の生成アップスケーラー「カクダイV1」が2月7日に発表されて話題になりました。東大出身ベンチャーのMavericksが開発したもので、画像生成AI「Stable Diffusion」生成環境「ComfyUI」向けの技術として無料公開されています。人気アップスケーラー「Maginific AI」を超える製品にまでに成長していくのか注目です。 Stable Diffusionのアップスケールは難しかったカクダイを紹介する前に、まずは画像生成AIとアップスケーラーとの関係についてお話します。 Stable Diffusion登場後の画像生成AI 技術を使ったアップスケーラーは、単に画像を拡大させるだけの用途ではなくなりました。画像を拡大するとき、

snowmann129 2024/02/19

あとで読む

リンク

Stable Diffusionで画像からプロンプト（呪文）を生成・抽出する方法。Fooocusの新機能「Describe」が便利でした (1/3)

本連載「Stable Diffusion入門 from Thailand」は、2024年に入って1回目。今年も「Stable Diffusion」をメインに、画像生成AI周辺の話題について入門者視点でお伝えしていきたい。今回の話題は、Stable Diffusionを手軽に使えるユーザーインターフェースの「Fooocus」。12月13日にリリースされた新バージョン「Fooocus 2.1.831」には、画像をアップロードするとテキストプロンプト（呪文）を生成する「Describe」機能が追加されている。画像をドラッグ＆ドロップしてボタンを押すだけ

snowmann129 2024/01/17

あとで読む

リンク

「100fps以上も可能」爆速すぎる画像生成AI技術、日本人研究者ら開発

AITuber「しずく」開発者としても知られる、あき先生ことakio kodaira氏を筆頭にした研究グループは12月21日、リアルタイム画像生成を実現するために最適化されたパイプライン「StreamDiffusion」を発表。従来の画像生成パイプラインと比べて飛躍的な速度向上を実現している。ノイズ除去をバッチ処理で高速化「Stable Diffusion」をはじめとする画像生成AIモデルの高性能化は著しいが、メタバース、オンラインストリーミングなど高スループットと低レイテンシーが必要な環境ではまだ力不足だ。 StreamDiffusionは新しいアプローチを採用し、従来の連続的なノイズ除去をバッチ処理のプロセスに変換することで、高スループットストリームを実現。さらに、GPUの利用効率を向上させるため、従来の分類器フリーガイダンス（CFG）に代わり、残差分類器フリーガイダンス（RCFG

snowmann129 2023/12/22

リンク

これは嬉しい　ChatGPTプロンプト書き方のコツ、OpenAIが公開

OpenAIは、大規模言語モデル（GPT-4）でよりよい結果を出すためのプロンプトエンジニアリング（プロンプトのノウハウ）入門テキストを同社のウェブサイトで公開している。同テキストでは、現在同社で最高の性能を持つ大規模言語モデルGPT-4を対象に、よりよい結果を導くための6つの戦略と、それぞれを実行する際の具体的な戦術（コツ）が掲載されている。また、「Prompt examples」のページでは、上記で紹介したものを含む多数のプロンプト例が紹介されており、すぐに利用できるようになっている。では紹介された6つの戦略を見ていこう。明確な指示を書く LLMは利用者の心を読むことができないので、回答が長すぎる場合は「簡潔に」、単純すぎる場合は「専門家レベルで」と明示的に依頼する必要がある。具体的な戦術としては下記が提案されている。・より関連性の高い回答を得られるよう、質問は詳細に・モ

snowmann129 2023/12/19

あとで読む

リンク

ChatGPT対抗の本命「Claude 2」ついに日本でも利用可能に

Anthropicは10月16日（現地時間）、同社が公開するAIチャットボット「Claude 2」の公開範囲を日本を含む世界95の国と地域に拡大したことを明らかにした。リストにEU加盟国なし We’re rolling out access to https://t.co/RxKnLNNcNR to more people around the world. Starting today, users in 95 countries can talk to Claude and get help with their professional or day-to-day tasks. You can find the list of supported countries here: https://t.co/PbMuaqJcjU — Anthropic (@AnthropicAI) O

snowmann129 2023/10/19

あとで読む

リンク

画像生成AI「DALL·E 3」の性能が凄まじい。これを無料で使わせるマイクロソフトは本気で競合をつぶしに来ている (1/3)

10月1日頃、OpenAIの新しい画像生成AI「DALL·E 3（ダリ３）」が徐々に使えるようになり、その性能の高さから話題になっています。まずサプライズで使えるようになったのがマイクロソフトのBingチャット。日本語で「猫の画像を作ってください」などと入れるだけでかわいい猫の画像が出てくると。これが無料で使えるのは衝撃的です。マイクロソフトが巨大資本で他の会社をつぶしに来たなという感じですね。どう考えても、今のところはサーバーコストが果てしなくかかる赤字サービスなのは間違いないので……。「ラーメンを食べる女の子」が描ける！なにより衝撃的だったのは、「アニメ風の少女と猫が遊んでいる姿を作ってください」というリクエストに対し、一発で完璧な正解を出してきたことです。Stable Diffusionだと苦手とされていた指も適切に描写されています。もうひとつの着目点はオブジェクト間の関係性です

snowmann129 2023/10/16

あとで読む

リンク

ChatGPT新機能が“無双”だった（西田宗千佳） (1/4)

新連載を始める。テーマはAIのニュースチェックだ。基本的には2週に一度、主にASCII.jpで公開されるニュースについて、簡単な解説と流れの分析をしていきたい。紹介されていないものでも重要な話については、別途短い解説を追記していく。というわけで1回目は、2023年7月前半のAIニュース振り返りだ。（※記事のタイトルをタップすると記事ページが開きます） DeepL、日本法人「DeepL Japan 合同会社」を設立日本企業との取引を迅速化（7月3日）翻訳AIは急速に品質が上がり、日常的に筆者もお世話になっている。DeepLは利用者を増やしているが、実のところ、無料版が強いというよりも「個人事業主でも、企業でも気軽に契約できる有料版」があることがビジネスの強みだ。日本の場合、翻訳AIを使うといってもそれは「無料でGoogle翻訳を使う」ことが多く、有料版利用は企業でも多くはないという。

snowmann129 2023/07/21

あとで読む

リンク

「撮影罪」はじまる、同意のない撮影は禁止　飛行機内の撮影にも注意を (1/2)

本日7月13日から「撮影罪」が施行される。これにより性的姿勢等のひそかな撮影（盗撮）、それらを第三者に提供する行為、インターネットや動画配信などで公開する行為、保管する行為がすべて処罰対象となり、盗撮に対して最大3年の拘禁または最高300万円の罰金が、不特定多数への提供行為に対してはさらに重い最大5年の拘禁、または最高500万円の罰金が科されることとなる。法律改正のきっかけとなった事例のひとつに、飛行機内での客室乗務員の盗撮行為がある。高速で飛行する航空機の特性が都道府県ごとの法制度の抜け穴を生み、特定できない場所での盗撮行為を処罰できず、客室添乗員の盗撮が法の抜け穴となってしまうといった実態があった。 ANAは「撮影罪」についてのポスターを羽田空港に掲示し、空港の利用客に向けて撮影罪の法制化、無断撮影禁止についての周知を始めている。「撮影罪」とは何か？「撮影罪」は正式名称を「性的な

snowmann129 2023/07/14

あとで読む

リンク

マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表

Microsoft ResearchのAI研究チームは6月20日（現地時間）、わずか13億パラメーターと従来のものよりもサイズが小さいにも関わらず「GPT-3.5（1750億パラメーター）」を上回る成績を収めたTransf ormerベースの大規模言語モデル「phi-1」を発表した。このモデルは間もなく「Hugging Face」で公開される予定だといいう。ベンチマークでGPT-3.5を凌駕「Textbooks Are All You Need」と題された研究論文によると、このモデルは8台のA100（NVIDIAの高性能GPU）でわずか4日間かけて訓練され、インターネット上から取得した60億トークンの「教科書品質」データセットと、GPT-3.5で生成した10億トークンの微調整用「練習問題」データセットが使用された。サイズが小さいにもかかわらず、phi-1はLLMの性能を測定するためのベ

snowmann129 2023/06/24

リンク

グーグル「Bard」ついに日本公開　「ChatGPT」対抗のAIチャット

グーグルが開発するAIチャット「Bard」。2月6日に発表され、3月21日より米国と英国のみで公開されていたが、4月18日午後（日本時間）あたりから、日本でもベータテストに参加できるようになった。さっそく使ってみる「Bard」は大規模言語モデル（LLM）「GPT-4」を使用したOpenAIの「ChatGPT」同様、Googleが開発するLLM「LaMDA（Language Model for Dialogue Applications）」の「軽量で最適化されたバージョン」を利用している。ベータテストに参加するには、サイトの右下に表示されている「Join Waitlist」ボタンをクリックし、ニュースメールの購読にチェックを入れるだけでよい。

snowmann129 2023/04/20

リンク

はてなブックマーク

タグ

ブックマーク / ascii.jp (32)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス