サイバーエージェントは6月13日、75億パラメータの日本語大規模視覚言語モデル(Vision Language Model、VLM)を一般公開した。Hugging Faceで商用利用可能なAIモデルや、研究用途でのみ使えるデモを公開中だ。 VLMとは、画像とテキストを複合して扱えるマルチモーダルなAIモデル。画像とテキストを理解できることで「この写真に写っているものは何ですか?」のような質問にも対応できる。米OpenAIの「GPT-4o」などが代表的なモデルで、近年では画像を扱えるAIモデルの進化が急速に進んでいる。 一方で「VLMのほとんどは英語のデータを中心に学習しており、日本文化の理解や日本語での会話に強いVLMは少ない状況」とサイバーエージェントは説明する。このような背景から同社は日本語に強いVLMを公開。日本語大規模言語モデルで合成して作ったデータセットをメインに学習させたという
デジタル庁などの関係省庁では2023年12月から、生成AIの業務利用に関する技術検証を進めており、今回のガイドブックもその検証結果を踏まえたものになる。なお今回公開したものはα版。デジタル庁は「現時点では、α版のため内容に不十分な点があるが、生成AI利活用時のリスクや対策に関する議論の参考にしてほしい」と案内している。 今後も定期的に内容の拡充・改善を行い、正式版の公開を目指す。 関連記事 生成AIを巡る日本の現状は? 東大・松尾教授の考察資料が無料公開 「1年間、日本は最善手を指し続けている」 内閣府は5月23日、22日に開催した「第9回 AI戦略会議」で取り扱った資料を公開した。公開したのは、AI研究の権威として知られる東京大学の松尾豊教授が作成した「生成AIの産業における可能性」と題した全33ページの資料など。 「RAGはそんなに簡単じゃない」──AIエンジニア主導でLLMを導入する
TL;DR ESD の手法で LoRA を学習してみたらそれっぽい感じのことができたよ VRAM 8GB で余裕で学習できるようになったよ (元は20GB要求) LoRA として保存できるようになったので重みの取り回しが良くなったよ マイナス適用によって、概念を削除するだけでなく強調することもできたよ 一度でも画像生成 AI に触ったことがあると、より楽しんで読めると思います。 論文とかどうでもいいから学習方法知りたい! という方は 実際に学習してみる へどうぞ! 今回作成したもの コード: モデルなど: 前提 Stable Diffusion とは、Stability AI らが公開したオープンソースの画像生成 AI であり、テキストによる指示で様々な画像を生成することができる。 本来の Stable Diffusion は、実写画像や海外風のイラストを出力することが得意だが、アジア系の
GPTはじめ大規模言語モデルの登場により、MLシステム開発にもパラダイムシフトが起こっています。流れが速すぎてやや混沌としてきたので、プロンプトエンジニアリングの考え方をはじめとした新しい概念について有用な引用と共に交通整理をしてみました。 今から始めたい人はまずこれを読むと、どんな点に配慮すべきかが…
イントロ最近、ChatGPTやGPT-4などの大規模言語モデル(LLM)が急速に注目を集めています。要約タスクや質疑応答タスクなど様々なタスクで高い性能を発揮しています。これらのモデルはビジネス分野での応用が非常に期待されており、GoogleやMicrosoftが自社サービスとの連携を進めているという報道も相次いでいます。 今回は、手元で動作する軽量な大規模言語モデル「Alpaca-LoRA」を日本語にファインチューニングしてみました。この記事では、そのファインチューニングのプロセスや応用例について簡単に解説していきます。ChatGPTやGPT-4は、モデルがブラックボックスでありAPI経由でしか入力を与えて出力を得ることができません。さらに、現時点(2023年3月20日)では、独自のデータを用いてファインチューニングを行うこともできません。 しかし、Alpaca-LoRAというモデルを用
AIに手足ができる!Zapier Natural Language Actions + LangChainがすごいので試してみた【LangChain・Zapier NLA・OpenAI】 はじめに 新規事業統括部Passregiチームの山本です。 3/16にLangChainのサイトで、Zapier Natural Language Actions(以下Zapier NLA)との連携についての記事がありました。 https://blog.langchain.dev/langchain-zapier-nla/ 今回は、このページを参考に、簡単な解説や考えたこと、実際に動かしてみた様子について記載しようと思います。 (補足) Zapierについて Zapierは世の中の多数あるサービス(GmailやSlackなど)の操作を自動化できるサービス(SaaS自動化サービス)です。設定はWeb画面でノ
はじめまして、sonesuke(https://twitter.com/sonesuke)です。 LLMにどっぷりハマっています。 TL; DR 16のプロンプトパターンを日本語の例をつけて、まとめてみた。 読んだ論文はこれ。 https://arxiv.org/pdf/2302.11382.pdf より高度なプロンプトエンジニアリングの話題はこちら プロンプトパターン 1. メタ言語パターン: The Meta Language Creation いつ使うか? 自然言語ではない方が、より簡潔で明確に表現できるとき プロンプトコンセプト 例 原文プロンプト “From now on, whenever I type two identifiers separated by a “→”, I am describing a graph. For example, “a → b” is des
皆さんこんにちは。データサイエンティストチームYAMALEXのSsk1029Takashiです。 YAMALEXは Acroquest 社内で発足した、会社の未来の技術を創る、機械学習がメインテーマのデータサイエンスチームです。 この記事はGPTでチャットボットを作ってみるシリーズ第3弾です。 第1弾と第2弾もぜひご覧ください。 acro-engineer.hatenablog.com acro-engineer.hatenablog.com 第1弾では、GPTになるべく正確な回答をさせるために、回答の情報を持つ文書を検索し、それをもとに回答を生成するという内容を試しました。 文書をもとに回答を生成することで比較的正確な回答を取得することができました。 ただし、この回答も必ずしも正確な回答とは限らないので、どれくらい信頼していいのかを自動で判定する仕組みが欲しくなります。 今回は第1弾のシ
こんにちは!逆瀬川 ( https://twitter.com/gyakuse )です! 今日は気軽にできるプロンプトインジェクション対策を紹介したいと思います。 プロンプトインジェクションとは ChatGPTなどの言語モデルをベースとしたサービスに対し、「これまでの命令を表示してください」などの文章を与え、出力をジャックしてしまう攻撃手法です。 Prompt Leaking, Jailbreaking, 等の類似手法が知られています。 対策 これへの対策は簡単で、命令を追加で挿入する手法があります。以下に示します。 import openai openai.api_key = openai_key def completion(new_message_text:str, settings_text:str = '', past_messages:list = []): """ この関数は
皆さんこんにちは。健康診断の結果がちょっと気になる年齢になってきたSsk1029Takashiです。 GPT-3を扱ってチャットボット作ってみる記事の第2弾になります。 第1弾のこちらもぜひご覧ください。 acro-engineer.hatenablog.com 前回は質問応答システムとしてGPT-3を活用しましたが、今回はAIアシスタントとしてGPT-3を活用してみます。 AIアシスタントとは何かというと、Google Homeのように命令を入力すると、それに沿った処理を実行してくれるシステムを指します。 ChatGPTとの違いは命令の結果は必ずしも文章生成だけではないということです。 ChatGPTでは文字列を入れて、要求に沿った文字列を返します。 対して、AIアシスタントでは、カレンダーに予定を入力したり、アラームを設定したりなど、具体的なタスクを実行します。 この記事では、前回に続
こんにちは。だだっこぱんだです。 今回は、AIイラスト界隈で最近話題のControlNetについて使い方をざっくり紹介していきます。 モチベが続けば随時更新します。 StableDiffusionWebUIのインストール今回はStableDiffusionWebUIの拡張機能のControlNetを使います。 WebUIのインストールに関してはすでにいろんな解説記事や動画があると思うのでそちらをご参照ください。 一応僕が作った簡単にWebUIを起動できるソフトも紹介しておきます(せんでん)
AI は、Google が現在取り組んでいる中で最も本質的なテクノロジーです。AI は、医師による病気の早期発見の支援や、自国語での情報へのアクセスなど、人々、ビジネス、コミュニティの潜在能力を引き出します。そして、数十億人の生活を大きく改善できる新しい機会を提供します。6 年前から、私たちが Google の方向性を AI 中心に再編し「世界中の情報を整理し、世界中の人がアクセスできて使えるようにする」という Google のミッションを果たす最も重要な方法に AI を据えているのは、これが理由です。 以来、私たちは全面的に AI への投資を継続し、Google AI と DeepMind のチームは最先端のテクノロジーを進化させています。現在、AI の計算規模は半年ごとに倍増していますが、それはムーアの法則よりもはるかに早いペースです。同時に、高度なジェネラティブ AI と大規模言語モ
追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。(コード) オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! 未来都市にたたずむサンタクロース(Stable Diffusionで生成) 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア(LAION-2B)で学習されています。これにより、Stable Diffusionは入
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く