この連載ではおなじみのキャラクター「明日来子さん」に右側からライトを当ててみた。左がIC-Lightを適用したもので、右がオリジナル。環境はWebUI Forge用の拡張機能を使用 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール(lllyasviel)さんが発表した「ICライト(Imposing Consistent Light、印象的な一貫的なライト)」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。 画像生成AIで照明効果がつけられる「ICライト(IC-Light)」 発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これ
LayerXの suguru です。 今日は、バクラクの開発に導入した PR-Agentの話をしようと思います。 PR-Agent は、Codium AI によってオープンソースで開発されている ChatGPT を使ったプルリクエストを便利にするためのAIツールです。 現時点で、下記のような機能を持っています。 Pull Request の自動分析およびレビュー Pull Request のタイトルと説明文を自動入力 コード改善の提案 フリーテキストな質問への回答 CHANGELOG の自動生成 必要なものは、 OpenAI のキーのみのため、CIに簡単に導入できます。 GitHub上へのインラインコメントなどにも対応しており、普段開発する際に面倒なプルリクエストに関する様々な作業を自動化することができます。 裏側ではデフォルトで GPT-4 を使っており、ソースコードを解析し、高精度な結
To succeed with Generative AI, you need a strategy that will both turn use cases into reality (quickly) and safeguard against risk. Data leaders and executives: build an action plan for how to do both — today. Given the amount of attention that Generative AI has been receiving in the popular and business media, executives are rightly wondering whether this is yet another technology hype cycle that
「Mistral」「Llama 2」「Vicuna」などオープンソースの大規模言語モデルを簡単にローカルで動作させることが可能なアプリ「Ollama」の公式Dockerイメージが登場したので、早速使い勝手を試してみました。 Ollama is now available as an official Docker image · Ollama Blog https://ollama.ai/blog/ollama-is-now-available-as-an-official-docker-image Ollamaで動作可能な大規模言語モデルの代表例は下記の通り。リストの全体についてはOllamaの公式サイトで確認することができます。 モデルパラメーターサイズDownloadMistral7B4.1GBollama run mistralLlama 27B3.8GBollama run ll
Anthropicは10月16日(現地時間)、同社が公開するAIチャットボット「Claude 2」の公開範囲を日本を含む世界95の国と地域に拡大したことを明らかにした。 リストにEU加盟国なし We’re rolling out access to https://t.co/RxKnLNNcNR to more people around the world. Starting today, users in 95 countries can talk to Claude and get help with their professional or day-to-day tasks. You can find the list of supported countries here: https://t.co/PbMuaqJcjU — Anthropic (@AnthropicAI) O
LINEヤフーは10月13日、AIプログラミング補助ツール「GitHub Copilot for Business」を同社のエンジニアリング業務に導入すると発表した。開発業務に関わる全エンジニア約7000人が対象。テスト導入の結果、コーディング時間を約1~2時間削減できたという。 同社では6月から8月にかけて、LINEとヤフーのエンジニア約550人を対象にGitHub Copilotのテスト導入を実施。試験導入後、対象者へのアンケートやGitHub上の記録を分析したところ、エンジニア1人当たりのコーディング時間を約1~2時間削減できた他、GitHub上では一部作業の効率が10~30%向上していたという。業務効率化の傾向が見られたことから、正式導入に至った。 著作権侵害などを防ぐために、全利用対象者に対して、利用に関するeラーニングの受講を必須化し、リスク意識の向上も図った。GitHub C
ガートナージャパンは10月12日、「生成AIのハイプ・サイクル」2023年版を公開した。大規模言語モデル(LLM)やプロンプトエンジニアリングといった技術は「過度な期待のピーク」にあると指摘。一方でオープンソースのLLMやマルチモーダル(画像や言語など複数の入力ソースを扱える)な生成AIなどは黎明期にあるとした。 中でも「生成AIに対応したアプリケーション」や、大量のデータでトレーニングし、さまざまなタスクに適応可能な「ファウンデーション・モデル」(基盤モデル)、AIの信頼性を高めリスクに対応する取り組み「AI TRiSM」については「10年以内に組織に大きなインパクトを及ぼすと予測される」(同社)とコメント。 ファウンデーション・モデルとAI TRiSMについては普及のめども示した。前者は「2027年までに、ファウンデーション・モデルは自然言語処理 (NLP)のユースケースの60%を支え
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第14回目は、3Dモデル生成のための高速化手法、画像を含むネット記事を量産できる生成AIなど、5つの論文をまとめました。 生成AI論文ピックアップ画像1枚から高速で3Dモデルを生成「DreamGaussian」 バイドゥ含む研究者らが開発 OpenAI「CLIP」を真似て超えた、文章と画像を理解するオープンな手法「MetaCLIP」 Meta含む研究者らが開発 ネット記事を量産する生成AI「InternLM-XComposer」 一文入力だけで画像とテキストが混じった記事を自動生成 テキストから動画を効率よく高品質に生成する新モデル「Show-1」 シンガポールの研究
写真を撮影していると「写真Aは人物の顔が見切れて、写真Bは顔が写ったけど逆光で暗すぎる」といったようにベストショットを撮影できないことがよくあります。Googleとコーネル大学の研究チームが開発したAI「RealFill」を使えば、複数の失敗写真をもとにベストショットを後から作り出せるとのことです。 RealFill https://realfill.github.io/ RealFillによる処理例はこんな感じ。以下の画像の左側が処理に用いる参考画像で、右側が参考画像をもとに生成されたベストショットです。参考画像には全身画像や背景が写る写真が含まれており、それぞれの要素をもとにベストショットが生成されています。 以下の例では、参考画像に「逆光ではないものの狭い写真」や「広範囲を写したものの逆光になった写真」が含まれており、参考画像をもとに広範囲かつ逆光ではない写真が生成されています。 以
Metaが開発する大規模言語モデル「LLaMA」などのトレーニングに使用された書籍データセット「Books3」は、知的財産権や著作権に対する侵害の疑いが指摘されています。そんなBooks3に含まれる書籍の内訳やBooks3が抱える問題点について、テクノロジー系ライターのアレックス・リーズナー氏が解説しています。 Erotica, Atwood, and 'For Dummies': The Books Behind Meta’s Generative AI - The Atlantic https://www.theatlantic.com/technology/archive/2023/09/books3-ai-training-meta-copyright-infringement-lawsuit/675411/ These 183,000 Books Are Fueling the
AI Picassoが9月25日に公開した、アニメやマンガのようなAIアート生成に特化した画像生成AI「Emi(Ethereal master of illustration)」。無断転載画像を追加学習に使用していないと明言しており、商用利用可能ということもあって注目を集めている。 「Stable Diffusion XL(SDXL)」ベースということで、SDXLを簡単に利用できる新しいWebUI「Fooocus」にも対応済み。どんな画像を生成できるのかさっそく試してみた。 なお、「Fooocus」のインストール方法などについてはこの記事を参照してほしい。 モデルをダウンロードして指定フォルダーに入れるだけ まずは「Emi」のダウンロードから。Hugging Faceにあるダウンロードページから「emi_stable.safetensors」をダウンロードする。7GB近くあるので気長に待と
1枚の画像からAIが動画を生成する、ランウェイ(Runway)社のサービス「Gen-2」が大きな話題になっています。 ランウェイは2018年創業のスタートアップ。もともとStability AIと共同でStable Diffusion用のデータモデルの開発を進めていましたが、現在は完全に独自のサービスを展開しています。画像生成AIはStability AIが先に行ってしまったので、生成AIでの動画作成にフォーカスして、技術開発とサービス展開をしています。今年6月には、Google、NVIDIA、セールスフォースなどから1億4100万ドル(約200億円)の資金調達を受けるなど、生成AI企業のなかでも大きく注目を浴びています。 わずか2分で画像が動画に 今年2月に発表された第1世代の「Gen-1」は、動画をプロンプトに応じて別の動画へと変換する(video to video)サービスでしたが、
三井住友海上火災保険は7月14日、日本マイクロソフトが提供する生成AIチャット利用環境を、5月17日から全社員で使い始めたと発表した。OpenAIのGPT-4/3.5など大規模言語モデル(LLM)をMicrosoftのクラウドで利用できる「Azure OpenAI Service」を活用した。 自社専用の安全なAIチャットツール「MS-Assistant」を構築。社員の情報検索や質問、文章作成・校正、要約、翻訳、ブレインストーミングなどを対話でサポートする。 地域や部門ごとの利用ログをデータサイエンティストが分析し、業務プロセスの改善につなげていくという。 今後は、自社のマニュアルや約款にに応答できる機能の拡充や、当保険代理店への提供を計画している他、社員向け活用支援ポータルサイトの整備や活用アイデアコンテストを開くなど、活用を広げていく。 関連記事 「自社版ChatGPT」をグループ全社
Adobeが権利的にクリアなトレーニングモデルを用いた画像生成AI「Firefly」を発表したり、Microsoftの検索エンジンであるEdgeで対話型AIのChatGPTが活躍していたり、世界的なコンサル企業が「社員の50%は業務にジェネレーティブAIを活用している」と明らかにしたりと、ジェネレーティブAIは社会に広がり続けています。しかし、AIを使用してコンテンツを作成・公開する人が増えていることで、新たな問題として「AIが生成したコンテンツがインターネット上にあふれ、それをAIが学習することで、重大な欠陥が生まれている」ということが研究者グループから指摘されています。 [2305.17493] The Curse of Recursion: Training on Generated Data Makes Models Forget https://doi.org/10.48550/
RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうものですが、そうしたRLHF用データの入力や管理を行ってくれるプラットフォームが「Argilla」です。 Bringing LLM Fine-Tuning and RLHF to Everyone https://argilla.io/blog/argilla-for-llms/ 大規模言語モデルを作成する時の手順を示したのが下の図です。まず大量のテキストを用いて事前学習を行います。こうして作成されたモデルが事前学習済みモデルで、GPTやPaLM、LLaMAなどのモデルがこのカテゴリに
決済手段としても用いられるようになっている「QRコード」は、一部が破損・汚損していたり読み取り時に隠れていても大丈夫なように誤り訂正機能が盛り込まれています。これを活用して、QRコードと美麗なイラストを融合させる試みが行われています。 AI 生成可扫码图像 — 新 ControlNet 模型展示 https://mp.weixin.qq.com/s/i4WR5ULH1ZZYl8Watf3EPw AIGC All in One https://aigc.ioclab.com/index.html Redditor creates working anime QR codes using Stable Diffusion | Ars Technica https://arstechnica.com/information-technology/2023/06/redditor-creates-
近年はChatGPTやBardなどの対話型AIが相次いでリリースされ、人間の質問や呼びかけに対して非常に高精度な回答ができることで注目を浴びていますが、これらの対話型AIは時に真実ではないことを真実かのように話す「ハルシネーション(幻覚)」を起こすことがあります。そこで、膨大な数のAPIから適切なものを呼び出し、幻覚を大幅に減らすことができる言語モデル「Gorilla」を、アメリカ・カリフォルニア大学バークレー校とMicrosoft Researchの研究チームが公開しました。 Gorilla: Large Language Model Connected with Massive APIs https://arxiv.org/abs/2305.15334 Gorilla https://gorilla.cs.berkeley.edu/ GitHub - ShishirPatil/gori
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く