前書き ChatGPTなどの大規模言語モデル(LLM)では,Hallucinationが課題の一つです. 医療など内容の正確性が求められる分野では特に重要な課題で,LLMに外部データベースから正確な情報を与えた上で, 生成を行うRetrieval augmentation Generation (RAG)が対策方法の一つになります. RAGでは,関連する情報を正確に検索する必要があり,文章の正確な意味を反映した埋め込み表現を得ることができる文埋め込みモデルが重要です. そこで,医療分野の日本語の文章に対して,文埋め込みモデルをSemantic Textual Similarity(STS)タスクで比較・検証してみます. 1. 方法 1.1. 検証対象のモデル とりあえず目に付いた以下の5つのモデルを使います. OpenAI/text-embedding-ada-002以外はすべてHuggi
こんにちは、nouu の白川です。 OpenAI Dev Day、よいリリースがたくさんありましたね!GPT-4 Turbo が出てくれたお陰で、production利用がだいぶ捗りそうです。一方で、Text Embedding に関しては全くリリースはありませんでした。 自分は Text Embedding のモデルとしてちょっと昔は sonoisa/sentence-bert-base-ja-mean-tokens-v2 をよく使っていました。最近は環境を他の人と共有しやすくて楽なので OpenAI の text-embedding-ada-002 をよく使っているのですが、下記のページを見ると、OpenAI を超えるようなモデルがいくつもあって、検証せねばという気分になったので気になるモデルをいくつかピックアップして検証してみました。 データセットやモデル、評価指標などまだまだ拡充が
MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model with @Gradio demo local demo: https://t.co/ScsEU6oG64 This paper studies the human image animation task, which aims to generate a video of a certain reference identity following a particular motion… pic.twitter.com/JCOr0yCRZs — AK (@_akhaliq) December 4, 2023 モデル準備リリース時点では READMEにあるStableDiffusion V1.5とMSE-finetuned VA
こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 今回は話題のChatGPTにコンテキストを与える際に必要となるファイルパース処理について見ていきたいと思います。 本記事ではPDFに焦点を絞ってみていきます。既存のライブラリ内の実装も確認していきます。 先行事例の実装 先行事例の実装として、よく話題となる以下のライブラリを見ていきます。 (LlamaIndexとLlamaHubはほぼ同じですが、parserとしては片方にしかないものもあるため) LlamaIndex https://github.com/jerryjliu/llama_index https://gpt-index.readthedocs.io/en/latest/index.html LlamaHub https://github.com/emptycrown/llama-hu
こんにちは、株式会社ACESでインターンをしている篠田 (@shino__c) と申します。普段は博士課程の学生としてNLPの研究をしています。 ここ数ヶ月で ChatGPT に加えて GPT-4 等の大規模言語モデル (LLM) が次々とリリースされていますね。 ChatGPT (gpt-3.5-turbo) はAPIの使用料が安いことから、多くの人が気軽にLLMを使用できるようになり、AI、特にNLPを売りにしている多くの企業は技術的にどうやって競争優位性を築けばいいのか模索しているのではないでしょうか。 その問いに対する1つの答えになりそうなものに、Retriever というものがあります。 例えば、社内にある外部には出せない文書を元に顧客からの質問に答える質問応答のサービスを作りたい場合、ChatGPT のような LLM の訓練にはそのようなデータは使われていないため、prompt
GPTシリーズやお絵描きAIなど、ファウンデーションモデルの進化により再び大きな注目を集めるAI。自民党では2023年1月に「AIの進化と実装に関するプロジェクトチーム」(座長:平将明衆議院議員)を立ち上げ、日本のAI戦略のあり方や政策提言について検討を進めて参ります。こちらのページには、各回のテーマや公開可能な資料を順次アップロードしています。 2024年2月16日(金)8時〜9時 (*25日英語版追加) テーマ:責任あるAI推進基本法(仮)について 昨年4月のAIホワイトペーパー発表以降、半年以上にわたり生成AIの法的ガバナンスのあり方について国内外のローメーカー、学者、実務家の方などと議論を重ねてきました。こうした検討を踏まえ、「フロンティアAIモデル」と呼ばれる特に強力な生成AIに対する我が国の新たな法的ガバナンスの一つの私案として、「責任あるAI推進基本法(仮)」を本日公表しま
今回はGoogleのクラウドコンピューティングサービス、Google ColabratoryでStable DiffusionのWeb UIであるAUTOMATIC1111を使って画像生成する方法を解説します。 自宅にゲーミングPCなど、高性能なグラフィックボードを搭載したPCを持っていない方でも利用することができます。 2023年4月現在、Google Colabratoryの無料版ではStable Diffusionが使用できなくなりました。無料版で使用した場合、アカウント停止などの措置が取られる可能性がありますのでご注意ください。 (有料版のGoogle Colaboratory Proでは引き続き使用できるようです) 前回のローカル環境同様、Pythonのプログラミングを一切必要とせず画像を生成することができますので、ぜひ活用してみてください。 ローカル環境でAUTOMATIC11
gpt-indexは長いコンテキストに対してQAを行えるフレームワークです。 デフォルトではOpenAIのAPIを利用するので無邪気に長いコンテキストに質問を投げているとすぐ数$の請求になって焦りますね。 今回はローカルでオープンな日本語モデルを使って動かす方法をご紹介します。 あくまで試みであり、正答率もいまひとつで実用性があるものではありませんが、学習データセットを作るコード、モデル学習コード、gpt-indexを実行するコードはこのリポジトリに置いています。 https://github.com/oshizo/gpt_index_japanese_trial 1/18のツイートで投稿したツリーをもう少し詳しく説明する内容です。 gpt-indexをOpenAIなし&日本語で動かしてみています。かなりカスタマイズ性がある。 embed_modelとllm_predictorにローカルの
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く